一、构成生产要素的关键因素
首先,我们要理解构成生产要素的关键因素有哪些,从这些关键因素我们更容易讨论数据作为生产要素的安全场景和风险。
一件事物,能成为生产要素,第一是此事物参与到价值增值的生产过程中,且无法被取消(可以被替代,但相对替代方案有经济成本优势);而为了参与生产过程,该事物可能需要提前被采集和初步的加工(消耗一定的成本)使其能更好的参与生产&使用中,必要时需要建立储备体系。
第二是此事务具有权属属性,权属本身意味着获取成本或收益分润成本。无需成本随手可以取的事物如冶炼需要的空气,大家并没有将其作为生产要素。但是对于个人信息数据而言,由于牵涉到个人主体的权益,因此个人信息数据的所有权天然就归属于个人主体本人,即使采集加工没有任何成本。
第三是此事物具备流转特性:数据具备了权属,想要将其参与到价值增值的过程,就需要通过流转(背后可能是业务的合作、数据的合作、数据的交易),通过和数据所有者通过合同分享或购买数据的部分权益(所有权、管理权、使用权、交易权、收益权)同时承担不同的责任,形成多类的数据参与者(数据所有方、数据责任方、数据使用方)。同时海量的数据意味着海量的成本,也意味着稀缺性,促进数据的流通,也是缓解数据作为生产要素资源的稀缺问题(土地、人、财产也都一样)。数据的流动可以分为内部不同部门之间的流动、跨组织的业务生态体系内的流动、跨组织无业务生态关联的流动几类。
另外,我们可以看到作为市场化生产要素,权属之下派生的权益和责任的划分可能是生产要素流转的基础。但是权属目前在法律层面都还是一个非常复杂的未确定的问题,新兴的数据共享实践也还没有好的经验可以总结,因此目前还是以商业协议来确定。但无论法律如何界定,至少在个人信息数据安全的技术层面上,已经涉及到如何将个人的知情与授权贯穿到所有业务和数据业务中的问题。因此本文在权属问题上未做重点讨论,而是以数据主体(特别是个人数据主体)的授权合规风险作为重点。
在中央的文件里,可以清晰看到对所有生产要素的以上三个关键因素的表达,具体到数据如下:
采集:推动人工智能、可穿戴设备、车联网、物联网等领域数据采集标准化
加工:探索建立统一规范的数据管理制度,提高数据质量和规范性,丰富数据产品
储备:建立对相关生产要素的紧急调拨、采购等制度,提高应急状态下的要素高效协同配置能力
生产&使用:支持构建农业、工业、交通、教育、安防、城市管理、公共资源交易等领域规范化数据开发利用的场景;鼓励运用大数据、人工智能、云计算等数字技术,在应急管理、疫情防控、资源调配、社会管理等方面更好发挥作用
权属:研究根据数据性质完善产权性质
流转:加快推动各地区各部门间数据共享交换,研究建立促进企业登记、交通运输、气象等公共数据开放和数据资源有效流动的制度规范
二、数据作为生产要素的安全场景与关键安全风险
我们可以把数据作为生产要素划分为三个关键场景以及其下的子场景:
披露场景的数据安全风险:披露的信息如果处理不善,会带来直接的数据泄露的风险。即使对敏感数据进行了相关去标识/脱敏保护,潜在的也还会带来属性关联攻击风险和数据关联分析攻击风险。其实不仅仅是人的数据,比如传闻中的日本通过人民日报发布的王进喜的工作照片分析出大庆油田的地理位置和产油量,也属于此类。
查询使用场景的数据安全风险:很多数据直接由业务层通过查询模式使用,这里主要涉及三类风险:合规授权风险、数据泄露风险,还有一类是数据滥用风险:数据滥用是指数据被用于了对数据主体不利的用途上,比如基于业务获得了用户授权采集使用数据,也用于了业务A,授权是合规的,但数据用于用户画像后对用户进行大数据杀熟等歧视性的用途上。
业务订正场景的数据安全风险:通过业务层使用也可以对数据进行订正处理,这里的风险也主要是被恶意篡改或由于误操作导致的错误订正/删除的两类风险。
分析计算场景的数据安全风险:大数据通过分析模型进行分析计算,这里主要涉及三类风险:合规授权风险、利用模型进行属性关联分析攻击风险和数据关联分析攻击风险,获得敏感的结果信息。
数据的流转场景
数据在内部&外部流转场景:数据流转分为内部流转和外部流转,两种流转场景的风险类型都一样,但是由于组织对内和外的控制力度不一样,所以外部流转的风险系数是远远大于内部流转的。从技术场景上,又可以分为如下几种:
价值计算流转场景的数据安全风险:这个场景本质上是在数据所有者的受控环境中分享了数据的使用权,因此数据本身的泄露风险较低,主要风险类别和分析计算场景的数据安全风险基本一致。
注3:权属和流转带来了一个新的关键因素就是定价,但数据的定价也是一个非常困难的问题。特别在需要兼顾数据安全时,如何在不获取对方数据的真实内容限制下,对对方数据的质量、维度、量级和稀缺性做出合理的定价评估?目前业界对这块探讨极少,但也是影响数据流转的关键因素。
三、数据作为生产要素的关键安全风险分类和缓解技术
针对数据的授权合规风险的技术缓解措施
采集行为与隐私条款匹配。
获得用户对数据用于其他用途和第三方共享的再授权,并提供给用户随时了解自身数据的其他用途和第三方共享使用的信息、并提供给用户随时可以中止用于其他用途和第三方共享的控制能力(对等的需要建立数据后台的能力以满足用户对数据用于其他用途和第三方共享的的授权控制)。
对汇聚的大数据,对数据主体识别、分析数据授权情况、对第三方来源的数据进行用户授权信息验证形成用户授权链条,形成数据权属授权地图、支持对第三方来源的数据按照用户的要求及时中止使用用户的数据并对数据进行清理和销毁。
属性关联分析风险&数据关联分析风险
实施增强的脱敏算法:如K匿名和差分隐私,对抗属性关联分析攻击。
模型监控:对模型实施细粒度(字段级)的访问控制策略;对模型访问的数据字段、数据记录和计算行为进行记录和审计,、并结合各种分析算法对数据的异常访问行为进行识别和监控。
通过使用联邦学习切分数据,也可以避免数据融合和汇聚带来的属性关联分析风险和数据关联分析风险。
对数据共享方实施监管:在数据批量流转给外部第三方时,也无法通过联邦学习切分数据降低风险,还需要对第三方共享者实施一定的数据安全管理,包括合同约束、技术检查、数据使用用途流向追踪等方式。
四、数据作为生产要素催生的新的数据安全产品
结合以上数据作为生产要素的风险场景和保护技术,我们可以看到未来可以衍生出如下的新形态的数据安全产品:
能对重要数据的融合、衍生产出的数据进行数据血缘标记。
未来可能需要支持对数据权属和安全标记的识别和记录。
对数据接口/API进行身份认证和权限控制、接口的接入需要特定的审批流程。
支持对数据应用层的敏感数据实时展示、下载、拉取时的脱敏/加密。
能识别应用层的异常的数据流动和大批量数据访问行为,并按一定的策略对其负载进行控制。
支持在应用层的数据展示时的水印功能,对于数据下载和批量数据拉取,必要时支持除文件水印之外的数据本体水印,以支持数据的溯源。
必要时可以支持对数据应用层采集和上传数据时的脱敏/加密,以支持数据入库时的脱敏加密。
未来可能需要支持对数据流转时进行权属和安全标记进行打标或记录。
注4:传统的网络DLP、终端DLP也可以成为应用数据安全流转中的一个重要环节。他们与应用层监控&保护产品的场景差异在于应用层产品更关注生产网的业务应用对内或对外的数据使用和流转中的风险,而DLP产品更关注办公网环境下的数据违规外发的风险,但DLP产品需要从传统的敏感信息关键字识别能力上提升更多种类的数据识别能力。
可支持各类国家和行业标准要求的数据安全脱敏算法,全方位的支持各类的数据外发和查询场景需求。
数据计算平台安全管控产品
可以对多个数据不同的平台和组件实施统一的身份认证,并保证同一用户跨数据系统的安全策略的一致性。
支持映射数据分类分级的细粒度(字段级)的数据访问权限控制和授权审批能力。
支持映射数据分类分级的数据访问行为审计、异常行为的监控。
支持映射数据分类分级的数据导出控制,如审批、脱敏策略(高级脱敏算法支持如K匿名、差分隐私)、数据本体水印等。
支持映射数据分类分级的细粒度(字段级)的数据交换访问时的动态脱敏。
支持对数据批量访问和高危操作行为识别,并通过强制审批模式进行风险控制。
支持异构的数据平台统一按照数据分类分级要求的数据权限视图和管控策略。
结合技术风险测评报告,以及数据安全的影响评估&数据安全合规性检查谈和问卷调研情况,自动化生成数据安全风险评估报告。
注5:目前业界的网络安全风险测评工具关注的是数据生产环境的系统和网络的通用型安全,对于数据本身的风险以及和数据高度相关的系统和网络安全风险往往并没有很好的体现,业界急需一种以数据风险为核心的风险测评工具,但另一方面数据风险以前缺乏体系的整理和分析,数据风险又牵涉法律法规的合规风险、管理制度措施的风险以及单纯的技术风险。以上列举的还是一些初步的实践中总结的,可能还遗漏了很多的风险点。
支持对模型进行安全分析和审计
多方共享计算(相对单边共享计算而言需要两方或两方以上的数据参与运算)安全:目前业界主要的方案包括:
基于硬件可信执行环境技术的可信计算方案如SGX的方案
基于密码学的多方安全计算方案,主要是通过联邦学习,通过对数据进行水平或垂直切分场景,用于解决各种场景中的各方隐私泄露以及抵抗数据汇聚融合可能带来的属性关联分析攻击和数据关联分析攻击问题
五、数据作为生产要素面临的困难和挑战
法律层面的困难
数据的权属和责任,目前法律上还没有一致的定义,即使在一些数据化走在前沿的行业里,也还没有好的可以借鉴的实践经验。
技术层面的
数据本体标记技术:无论是权属、安全标记、或者水印,图片、视频这些基于文件载体形式的复合数据比较好处理,但是对于格式化数据,如何打在数据本体上,是个比较大的挑战。第一怎么不影响数据本身的使用、同时为了打标和监控,需要对大量网络通讯设备、应用处理、数据库存储字段的类型进行改造。第二如何避免被恶意攻击者发现和移除这些标记。目前主流技术是采用在脱敏的字段上打标记的方式,但是能存储的标记信息还是非常有限。
数据溯源技术:数据的追溯溯源是一个非常复杂的事情,一种方式是无需数据本体上打标记的溯源,主要是依赖在数据各种流动的场景下留下数据痕迹的记录,带来的问题是日志数据量巨大,需要研究一种精简但有效的关键数据要素的留痕记录降低数据留痕日志量,同时对敏感数据本身的记录带来了二次风险,需要提供较强的数据保护能力。一种方式是在数据本体上打标记,通过监控和记录标记来完成追溯,遇到的挑战除了前面标记技术本身遇到的问题外,另外就是流出外部的数据就难以再追踪溯源了。
碎片化残留敏感数据的发现和处理:数据处理的过程中,大量中间数据会残留在客户端设备和移动设备上、还有服务程序产生的各种临时文件中,另外各种网络设备、安全产品的日志里,都可能记录了大量零散的碎片化敏感数据,他们基本在安全体系之外,如何发现并将其纳入到安全体系的管理之中,目前技术上还没有特别好的整体方案。
对抗属性关联攻击和数据关联分析攻击的新型脱敏算法:目前K匿名、差分隐私本质上是以牺牲一定的数据可用性来换取的安全,很多的数据分析场景中不可行。另外K匿名、差分隐私也是假设攻击者掌握的数据集在自身给定的范围内的安全(比如通过模型计算攻击者需要获取1000万条数据才可能攻破算法,目前只提供了10万条数据,所以是安全的),但这种对攻击者的假设并非合理,攻击者可能通过其他的数据源获取了更多维度或更多记录的数据(比如伪装成多个主体分批次获得数据)。
数据血缘追踪技术:数据在生产过程中会不断汇聚、融合、衍生出新的数据,原始数据的安全策略/风险问题会延展到这些数据上。如何追踪这些数据传递的关系?目前技术主要是接管所有数据平台上的操作命令,通过对数据操作命令分析来分析数据的血缘关系,但是还有很多数据的处理加工工作是由应用层来完成的,这部分的血缘关系就难以追踪出来。
细粒度权限管理技术:数据的安全和权重并不一样。人们先是发现不同的字段的安全级别不一样,传统的基于表的权限不再满足权限管理的需要,需要到列/字段级实施权限策略,在业务场景中可能还会发现特定的行级数据安全级别更高,比如政治人物、影星的行动轨迹等,还需要对特定行实施权限策略;如何支持这些细粒度权限?同时太细的权限又带来管理的复杂性,比如大的互联网公司,几百万张表、上千万字段、几百亿条记录,近十万员工,如何赋权,如何管理?
远程数据安全风险测评技术:数据安全风险测评非常痛苦的一点是,由于数据必须在系统环节中才能体现,数据安全风险往往需要抵近检查,获取用户业务系统、数据系统或者网络数据流量的访问权,才能有效发现数据安全风险问题,但是这种方式对于监管、检查的成本过高,而且对数据安全风险的理解(技术和业务)、工具使用和环境适配能力、客户配合能力都有非常高的要求。这些限制导致国家和监管部门虽然对数据安全非常重视,但是缺乏有力的抓手去推动企业的数据安全建设。能否有更低成本的(如基于互联网远程的、无需用户高度配合仅提供应用层测试账号)的数据安全风险测评和监控手段,就能有效发现数据安全的风险的技术手段?
多方计算:在数据可用不可见场景中,多方计算无疑是大家期待最多的方向,然而目前这方面的技术依旧还不成熟,需要不断的改进。比如基于SGX的方案引入了第三方信任问题,基于加密技术的方案在性能上会有较大瓶颈。
致谢(按提供建议的先后次序):