首先,我们要理解构成生产要素的关键因素有哪些,从这些关键因素我们更容易讨论数据作为生产要素的安全场景和风险。
一件事物,能成为生产要素,第一是此事物参与到价值增值的生产过程中,且无法被取消(可以被替代,但相对替代方案有经济成本优势);而为了参与生产过程,该事物可能需要提前被采集和初步的加工(消耗一定的成本)使其能更好的参与生产&使用中,必要时需要建立储备体系。
第二是此事务具有权属属性,权属本身意味着获取成本或收益分润成本。无需成本随手可以取的事物如冶炼需要的空气,大家并没有将其作为生产要素。但是对于个人信息数据而言,由于牵涉到个人主体的权益,因此个人信息数据的所有权天然就归属于个人主体本人,即使采集加工没有任何成本。
第三是此事物具备流转特性:数据具备了权属,想要将其参与到价值增值的过程,就需要通过流转(背后可能是业务的合作、数据的合作、数据的交易),通过和数据所有者通过合同分享或购买数据的部分权益(所有权、管理权、使用权、交易权、收益权)同时承担不同的责任,形成多类的数据参与者(数据所有方、数据责任方、数据使用方)。同时海量的数据意味着海量的成本,也意味着稀缺性,促进数据的流通,也是缓解数据作为生产要素资源的稀缺问题(土地、人、财产也都一样)。数据的流动可以分为内部不同部门之间的流动、跨组织的业务生态体系内的流动、跨组织无业务生态关联的流动几类。
另外,我们可以看到作为市场化生产要素,权属之下派生的权益和责任的划分可能是生产要素流转的基础。但是权属目前在法律层面都还是一个非常复杂的未确定的问题,新兴的数据共享实践也还没有好的经验可以总结,因此目前还是以商业协议来确定。但无论法律如何界定,至少在个人信息数据安全的技术层面上,已经涉及到如何将个人的知情与授权贯穿到所有业务和数据业务中的问题。因此本文在权属问题上未做重点讨论,而是以数据主体(特别是个人数据主体)的授权合规风险作为重点。
在中央的文件里,可以清晰看到对所有生产要素的以上三个关键因素的表达,具体到数据如下:
我们可以把数据作为生产要素划分为三个关键场景以及其下的子场景:
储备如汇聚场景的数据安全风险:很多人也未考虑过数据汇聚越来越多的记录来来的风险(融合可以看作字段扩展,汇聚可以看作记录扩展),其实和融合一样,越来越多的记录可以导致数据关联分析攻击。比如记录了A用户轨迹的数据记录,随着记录的增加,我们可以分析出用户的偏好,隐私行为如和谁一起行动他们的关系等,甚至即使对A用户的数据进行了去标识化保护,我们也可以重标识出用户,比如利用明星的公开轨迹和匹配的轨迹进行对比分析重标识出明星的数据。
数据的流转场景
数据在内部&外部流转场景:数据流转分为内部流转和外部流转,两种流转场景的风险类型都一样,但是由于组织对内和外的控制力度不一样,所以外部流转的风险系数是远远大于内部流转的。从技术场景上,又可以分为如下几种:
价值计算流转场景的数据安全风险:这个场景本质上是在数据所有者的受控环境中分享了数据的使用权,因此数据本身的泄露风险较低,主要风险类别和分析计算场景的数据安全风险基本一致。
批量数据流转的数据安全风险:这个场景一般都是跨业务需要,把A业务采集的数据用于其他的业务用途,所以首先是数据授权合规的风险,其次是数据获取方带来的数据泄露和数据滥用的风险,还有大量数据流出给数据获取方后可能带来的数据属性关联攻击风险和数据关联分析攻击风险。
注2:在数据流转中,业务数据流转和批量数据流转本质上都让数据下游方获取了数据,是一种数据的交易;而价值计算流转场景和阈值交换流转场景本质上只是流转了数据计算的价值,或者说是一种数据服务的交易;相对数据的直接交易,是泄露和合规风险更小的模式。
注3:权属和流转带来了一个新的关键因素就是定价,但数据的定价也是一个非常困难的问题。特别在需要兼顾数据安全时,如何在不获取对方数据 的真实内容限制下,对对方数据的质量、维度、量级和稀缺性做出合理的定价评估?目前业界对这块探讨极少,但也是影响数据流转的关键因素。
针对数据的授权合规风险的技术缓解措施
实施增强的脱敏算法:如K匿名和差分隐私,对抗属性关联分析攻击。
模型监控:对模型实施细粒度(字段级)的访问控制策略;对模型访问的数据字段、数据记录和计算行为进行记录和审计,、并结合各种分析算法对数据的异常访问行为进行识别和监控。
通过使用联邦学习切分数据,也可以避免数据融合和汇聚带来的属性关联分析风险和数据关联分析风险。
对数据共享方实施监管:在数据批量流转给外部第三方时,也无法通过联邦学习切分数据降低风险,还需要对第三方共享者实施一定的数据安全管理,包括合同约束、技术检查、数据使用用途流向追踪等方式。
属性关联分析风险&数据关联分析风险
采集行为与隐私条款匹配。
获得用户对数据用于其他用途和第三方共享的再授权,并提供给用户随时了解自身数据的其他用途和第三方共享使用的信息、并提供给用户随时可以中止用于其他用途和第三方共享的控制能力(对等的需要建立数据后台的能力以满足用户对数据用于其他用途和第三方共享的的授权控制)。
对汇聚的大数据,对数据主体识别、分析数据授权情况、对第三方来源的数据进行用户授权信息验证形成用户授权链条,形成数据权属授权地图、支持对第三方来源的数据按照用户的要求及时中止使用用户的数据并对数据进行清理和销毁。
授权链核查:在数据融合和分析计算时,需要对来源数据的授权链信息进行核查。
数据作为生产要素的数据安全,既关注当前的风险,也关注因为安全措施导致的对数据生产过程的影响,因此会在意风险和价值之间的平衡控制。不会为了完全消灭风险而导致业务的较大的影响,而采用分层风险化解手段,用一些对生产价值影响较轻的手段把风险降低到可接受的程度,再用一些风险对冲的手段去对抗残余风险,最后整体达到风险可控,业务顺畅的理想状态。
结合以上数据作为生产要素的风险场景和保护技术,我们可以看到未来可以衍生出如下的新形态的数据安全产品:
基于硬件可信执行环境技术的可信计算方案如SGX的方案
基于密码学的多方安全计算方案,主要是通过联邦学习,通过对数据进行水平或垂直切分场景,用于解决各种场景中的各方隐私泄露以及抵抗数据汇聚融合可能带来的属性关联分析攻击和数据关联分析攻击问题
多方共享计算(相对单边共享计算而言需要两方或两方以上的数据参与运算)安全:目前业界主要的方案包括:
支持对模型进行安全分析和审计
可以对多个数据不同的平台和组件实施统一的身份认证,并保证同一用户跨数据系统的安全策略的一致性。
支持映射数据分类分级的细粒度(字段级)的数据访问权限控制和授权审批能力。
支持映射数据分类分级的数据访问行为审计、异常行为的监控。
支持映射数据分类分级的数据导出控制,如审批、脱敏策略(高级脱敏算法支持如K匿名、差分隐私)、数据本体水印等。
支持映射数据分类分级的细粒度(字段级)的数据交换访问时的动态脱敏。
支持对数据批量访问和高危操作行为识别,并通过强制审批模式进行风险控制。
支持异构的数据平台统一按照数据分类分级要求的数据权限视图和管控策略。
数据计算平台安全管控产品
对数据接口/API进行身份认证和权限控制、接口的接入需要特定的审批流程。
支持对数据应用层的敏感数据实时展示、下载、拉取时的脱敏/加密。
能识别应用层的异常的数据流动和大批量数据访问行为,并按一定的策略对其负载进行控制。
支持在应用层的数据展示时的水印功能,对于数据下载和批量数据拉取,必要时支持除文件水印之外的数据本体水印,以支持数据的溯源。
必要时可以支持对数据应用层采集和上传数据时的脱敏/加密,以支持数据入库时的脱敏加密。
未来可能需要支持对数据流转时进行权属和安全标记进行打标或记录。
能对重要数据的融合、衍生产出的数据进行数据血缘标记。
法律层面的困难
数据的权属和责任,目前法律上还没有一致的定义,即使在一些数据化走在前沿的行业里,也还没有好的可以借鉴的实践经验。
数据溯源技术:数据的追溯溯源是一个非常复杂的事情,一种方式是无需数据本体上打标记的溯源,主要是依赖在数据各种流动的场景下留下数据痕迹的记录,带来的问题是日志数据量巨大,需要研究一种精简但有效的关键数据要素的留痕记录降低数据留痕日志量,同时对敏感数据本身的记录带来了二次风险,需要提供较强的数据保护能力。一种方式是在数据本体上打标记,通过监控和记录标记来完成追溯,遇到的挑战除了前面标记技术本身遇到的问题外,另外就是流出外部的数据就难以再追踪溯源了。
碎片化残留敏感数据的发现和处理:数据处理的过程中,大量中间数据会残留在客户端设备和移动设备上、还有服务程序产生的各种临时文件中,另外各种网络设备、安全产品的日志里,都可能记录了大量零散的碎片化敏感数据,他们基本在安全体系之外,如何发现并将其纳入到安全体系的管理之中,目前技术上还没有特别好的整体方案。
对抗属性关联攻击和数据关联分析攻击的新型脱敏算法:目前K匿名、差分隐私本质上是以牺牲一定的数据可用性来换取的安全,很多的数据分析场景中不可行。另外K匿名、差分隐私也是假设攻击者掌握的数据集在自身给定的范围内的安全(比如通过模型计算攻击者需要获取1000万条数据才可能攻破算法,目前只提供了10万条数据,所以是安全的),但这种对攻击者的假设并非合理,攻击者可能通过其他的数据源获取了更多维度或更多记录的数据(比如伪装成多个主体分批次获得数据)。
数据血缘追踪技术:数据在生产过程中会不断汇聚、融合、衍生出新的数据,原始数据的安全策略/风险问题会延展到这些数据上。如何追踪这些数据传递的关系?目前技术主要是接管所有数据平台上的操作命令,通过对数据操作命令分析来分析数据的血缘关系,但是还有很多数据的处理加工工作是由应用层来完成的,这部分的血缘关系就难以追踪出来。
细粒度权限管理技术:数据的安全和权重并不一样。人们先是发现不同的字段的安全级别不一样,传统的基于表的权限不再满足权限管理的需要,需要到列/字段级实施权限策略,在业务场景中可能还会发现特定的行级数据安全级别更高,比如政治人物、影星的行动轨迹等,还需要对特定行实施权限策略;如何支持这些细粒度权限?同时太细的权限又带来管理的复杂性,比如大的互联网公司,几百万张表、上千万字段、几百亿条记录,近十万员工,如何赋权,如何管理?
远程数据安全风险测评技术:数据安全风险测评非常痛苦的一点是,由于数据必须在系统环节中才能体现,数据安全风险往往需要抵近检查,获取用户业务系统、数据系统或者网络数据流量的访问权,才能有效发现数据安全风险问题,但是这种方式对于监管、检查的成本过高,而且对数据安全风险的理解(技术和业务)、工具使用和环境适配能力、客户配合能力都有非常高的要求。这些限制导致国家和监管部门虽然对数据安全非常重视,但是缺乏有力的抓手去推动企业的数据安全建设。能否有更低成本的(如基于互联网远程的、无需用户高度配合仅提供应用层测试账号)的数据安全风险测评和监控手段,就能有效发现数据安全的风险的技术手段?
多方计算:在数据可用不可见场景中,多方计算无疑是大家期待最多的方向,然而目前这方面的技术依旧还不成熟,需要不断的改进。比如基于SGX的方案引入了第三方信任问题,基于加密技术的方案在性能上会有较大瓶颈。
数据识别技术:数据的类型格式千差万别,行业差异性非常明显,需要更智能的数据识别技术。
数据本体标记技术:无论是权属、安全标记、或者水印,图片、视频这些基于文件载体形式的复合数据比较好处理,但是对于格式化数据,如何打在数据本体上,是个比较大的挑战。第一怎么不影响数据本身的使用、同时为了打标和监控,需要对大量网络通讯设备、应用处理、数据库存储字段的类型进行改造。第二如何避免被恶意攻击者发现和移除这些标记。目前主流技术是采用在脱敏的字段上打标记的方式,但是能存储的标记信息还是非常有限。