前言:新年伊始,金杜网络安全与数据合规团队为大家带来关于数据融合的万字长文。祝愿金杜的新老朋友在鼠(数)年,做到风险心里有“数”,财富“数”不胜“数”,成为行业内“数”一“数”二的标杆!

正如我们在前文《平安夜里说平安——“数据资产”的误区与合规条件》中提到,在当前数据价值被广泛认知并逐渐形成数据资产的前提下,企业无论通过爬虫等自动化收集工具获取公共互联网的公开信息,或是与第三方数据源通过Open API等方式共享数据面临的成本都日益提高。此外,数据本身的不同属性(个人信息、重要数据等)使得数据外部共享受到多执法机关的关注和交叉监管,企业获取外部数据的合规风险也面临着不小的挑战。

因此随着企业获取外部数据成本和风险的增加,企业对于自有数据的深度挖掘显得尤为重要,企业内部“数据共享”、“数据打通”甚至“数据融合”已经成为企业数字化转型或者发挥数据资产价值最大化的重要工作。然而值得注意的是上述工作并不仅仅是通常理解的建立数据中台,完成技术上数据无条件共享和互惠,而应当是在符合法律法规及行业监管要求的前提下,从数据融合的商业逻辑和数据合规等多个角度构建的大工程。 

本文将从数据融合的定义、涉及的常见法律问题和合规建议三方面,详细的和大家探讨数据融合的路径和合规要点。

一、 数据融合的定义

尽管数据融合已经成为企业数据化战略中的常见表述,但对其具体的内涵目前尚未有统一的定义。不同的研究、讨论中对相关概念的内涵和外延解释并不相同。有研究认为,数据融合是通过表达手段和工具将不同来源的数据进行整合,以获得更高质量信息的一种形式化框架(data fusion is a formal framework in which are expressed means and tools for the alliance of data originating from different sources. It aims at obtaining information of greater quality)。 GB/T 36625.1-2018《智慧城市 数据融合 第一部分:概念模型》指出在智慧城市的场景下,会“通过采集与汇聚不同种类、不同来源数据,依次通过数据描述、数据组织和数据交换共享三个过程实现数据融合的功能,最终通过数据服务对外提供数据检索和展示等功能”,也就是说数据���合概念模型包含了(1)数据采集、(2)数据描述、(3)数据组织、(4)数据交换与共享和(5)数据服务共五个部分及(1)数据资产和(2)开放共享两个支撑要素。

从数据融合的实践来看,既有以政府公共数据为基础的数据融合如智慧城市、也有企业作为私主体开展数据融合、挖掘数据价值如数据中台。就基于公权力机关主导的如智慧城市、金融全行业的数据融合我们未来会专门撰文探讨和分享,以下是企业开展数据融合较为典型的场景: 

场景1示例:电商平台A公司,除传统的电子商务平台服务以外,同时会通过平台向用户提供小额借贷服务。为了提供更精准的服务,A公司希望可以打通两条产品线的数据库,根据用户的消费能力和消费习惯调整贷款额度、贷款利息。

场景2示例:B集团内的众多子公司分别从事银行、保险、证券、信托以及其他实业业务。基于用户申请贷款前的金融风控目的,B集团将下属众多子公司收集的多类数据相结合用于资信调查、反欺诈等多个目的。

场景3示例:C和D公司经营各自的在线视频网站,为提升网站个性化推荐的准确性和广告效益,与X公司竞争,两家公司决定共享用户数据形成更为精准的用户画像。

本文将重点分析上述场景1和场景2情况下企业内部数据融合的场景以及可能涉及的法律问题, 包括但不限于:

二、 数据融合涉及的常见法律问题

(一) 数据融合的范围确定:数据融合的行业主体限制要求

作为数据融合的第一步,企业需要考虑将多大范围的数据进行融合。在划定范围时需要重点考虑的问题包括行业监管规定对于共享数据的目的和数据类型的限制。 以金融行业为例,从保障客户金融数据的安全和保密性角度出发,人民银行和证监会等行业监管机构对于金融机构对外共享业务数据此前都有限制性要求。例如,《人民银行关于银行业金融机构做好个人金融信息保护工作的通知》[银发(2011)17号](以下简称《人民银行第17号文》)要求:“银行业金融机构不得向本金融机构以外的其他机构和个人提供个人金融信息,但为个人办理相关业务所必需并经个人书面授权或同意的,以及法律法规和中国人民银行另有规定的除外”。 可以看出,提供给银行业金融机构的数据对外共享和融合的目的,仅限于个人办理相关业务所必需并经个人书面授权或同意的,以及法律法规和中国人民银行另有规定。类似的限制也出现在金融领域的其他行业监管要求中。 

除了行业限制,对于与国家安全、社会公共利益密切相关或数据一旦泄露可能对数据主体产生重大影响的重要数据而言,我国通常会颁布相关法律法规限制或禁止数据的采集机构对外(包括集团内其他关联企业)提供相关信息,如人类遗传信息、病例等。 

因此,企业在进行数据融合之前应当对拟用于数据融合的数据范围进行审查,确保不会包含上述法律禁止对外共享的数据和用途,从而可能导致汇总数据行为本身以及经过综合分析后得出的结果(如用户画像)皆存在数据来源方面的合规风险。

(二) 数据融合的目的和模式架构选

根据不同的数据融合目的,企业可以选择不同的模式架构,而不同模式面临的法律风险和现实困难不尽相同。篇幅关系,以下仅探讨典型的C-P以及C-C模式,更为复杂的比如C-P+C等模式的风险会另行探讨:

1. 通过公司内部搭建数据中台承接汇总数据和分析

以银行业为例,在大数据技术应用等背景下,数据共享成为了最受关注的问题。例如,为满足客户风控目的的需要,银行通常会通过自建数据中台汇总行内各业务条线的客户信息,以形成客户金融风控的画像并确定行内对该客户的统一授信额度或金融评分。

第一、角色认定(C-P模式)

在公司内部搭建数据中台承接汇总数据和分析场景下,各业务条线的运营部门因为有权决定其客户信息被委托处理的目的和方式,可能被认定为数据的控制者。数据中台的运维部门可能被认定为各业务条线运营主体的数据处理者,代表各业务条线处理数据并将产生的数据处理结果反馈给各业务条线使用。 

第二、数据汇总分析的目的限制

数据中台作为数据的处理者本身不能基于自身的目的收集和使用数据,而是需要严格按照各业务条线的要求处理数据包括个人信息。因此,除非获得用户的授权同意,在某条业务线委托数据中台汇总数据的目的实现或关系解除时,数据中台不得再保存来自该业务条线的数据尤其是个人信息和基于个人信息形成的数据汇总分析结果(如风控评分数据)。在其他业务条线发起类似请求时,数据中台可能需要重新进行数据的汇总和分析。 

第三、数据融合的安全保障和合规限制

在各业务条线获得用户授权汇总风控数据之前,理论上,数据中台需对各业务条线数据进行物理或逻辑的分区存储、互不混淆,各业务条线不能够直接接触或获得其它业务条线的任何数据,此外,数据中台由于承接了来自各业务条线的数据,其自身的安全性及技术标准需要达到各条线自身合规所应该达到的最高标准,以及从事该等业务所应当遵从和符合的相关法律规定、技术标准和要求。

除了系统建设的要求,各业务条线可能还需要与数据中台签署数据处理的委托协议,明确数据中台作为数据处理者的责任和义务。 

2. 通过在集团外新设子公司承接汇总数据和分析(C-C模式)

与集团内搭建数据中台进行数据委托处理的模式不同,企业也可以通过设立集团外科技子公司作为汇总数据的承接主体实现数据融合。在金融混业经营等背景下,我国银行或金融控股公司相继成立了各自的金融科技子公司。相对于数据中台而言,科技子公司具备了更为独立的数据研发能力和数据使用目的,其通过专业化的研发模式快速推进科研创新,服务于公司业务的同时还可以自行开发新的数据产品、开拓新的业务。从央行发布的《金融控股公司监督管理试行办法(征求意见稿)》可以看出,监管部门对于金融控股公司与其所控股机构之间的客户信息共享在满足一定条件的前提下也持鼓励态度。 

第一、角色认定(C-C模式)

除了接受集团各业务条线的委托处理客户信息以外,科技子公司可能还会以自己的名义对外提供数据融合以后的产品。 因此,科技子公司作为集团外的第三方可能被定为共享客户信息的数据控制者。相对于C-P模式而言,C-C模式下使得将融合数据用于新的用途成为可能。

第二、重新建立个人信息用于原有业务以外其他用途的法律基础

依据我国《网络安全法》(以下简称“《网安法》”)的要求,网络运营者收集、使用个人信息,应当遵循合法、正当、必要的原则。对于各业务条线业务办理以外的数据处理目的,科技子公司需要额外设计商业模式满足个人信息处理的必要性原则要求。以科技子公司提供集团内部统一会员服务为例,其可能需要与集团一同设计各业务条线数据融合的积分计划和权益互换机制,从而建立数据融合和新的业务服务之间的必要性(详见以下个人信息融合的必要性分析)。此外,就个人信息使用的合法性而言,企业如何确保在数据融合互通的新业务场景下获得个人信息主体对数据在整体系统中进行处理的有效授权,是数据融合互通合规问题的重中之重(详见以下个人信息融合的用户授权同意分析)。

第三、数据融合的安全保障和合规限制

集团与科技子公司之间可能需要梳理数据交互的类型、目的并通过合同等形式共同确定各自应满足的个人信息安全要求,以及在个人信息安全方面集团母公司和科技子公司应分别承担的责任和义务,并向个人信息主体明确告知。值得注意的是,集团作为数据共享方而言,可能需要对外承担因共享个人信息对个人信息主体合法权益造成损害的相应责任。 此外,如果集团涉及将数据资产转移至科技子公司则还可能引发公司法、合同法方面的要求和限制(详见以下数据融合可能涉及的其他问题—数据资产转移的限制分析)。

第四、集团内各业务部门与子公司的权益分配问题

数据融合项目下会涉及多方主体,其中既包括原始数据的来源方,如同一集团内实际开展业务并收集数据的各业务部门或关联公司,还可能包括输出技术能力的科技子公司。通常而言科技子公司会是数据融合变现利益的直接受益人,但对于提供原始数据的集团内业务部门或各关联公司而言,其提供的数据对于数据融合模式下数据使用效率和数据商业价值的提升,以及由此而产生的成本优化、运营效率提升以及直接的经济利益同样具有不可忽视的贡献。 如果集团内的业务部门和关联企业无法参与数据融合变现的利益分配环节,则缺乏持续参与数据融合项目的动力;甚至,如果各方未能在数据融合项目开展前就变现利益的分配达成一致,部门和关联企业出于维护并充分利用数据资产价值的考量,可能不会参与该项目。因此,数据融合的多主体在数据融合变现情况下的利益分配问题是实现数据融合的一项重要考虑因素。

(三) 个人信息的多主体、多目的共享法律基础

在数据融合项目中,尽管会涉及企业信息、统计数据等非个人信息,但数据融合大多出于在挖掘或预测个人的消费习惯等与个体相关度高的目的,因此个人信息的合规共享、挖掘和融合是数据融合项目中不可避免的问题。 

1. 个人信息融合的用户授权同意

个人信息主体同意是个人信息处理(包括融合)的重要合法依据,也是个人信息主体行使其他权利的先决条件,例如修改权、删除权等等。依据我国《网安法》第四十一条的要求,“网络运营者收集、使用个人信息,应当遵循合法、正当、必要的原则,公开收集、使用规则,明示收集、使用信息的目的、方式和范围,并经被收集者同意”。尽管我国在法律法规方面尚未就“明示收集、使用信息的目的、方式和范围”的标准予以进一步详细说明,但从目前颁布的国家推荐性标准和监管机构执法角度而言,对用户告知的要求日趋严格。

就数据融合而言,企业可能需要说明跨业务条线个人信息汇总分析的目的、方式和范围,如果是基于业务办理所必需的数据融合,可以在整体隐私政策中予以披露并获得用户的授权同意;如果提供原母公司产品或服务的附加功能(如精准化广告营销)或者基于金融科技子公司自身目的进行数据融合,则需要使用更为显著的方式,以单独文本的形式就数据融合的工作原理、可能涉及的产品、数据融合的范围和拒绝数据融合可能产生的影响等内容另行告知用户。当用户拒绝时,可不提供相应的附加功能或新的产品/服务,但不应以此为理由停止提供原母公司的核心业务功能,并应保障相应的服务质量。 

除了隐私政策说明书的内容需要规范,另一方面隐私政策披露的格式本身将极大地影响隐私政策说明书发挥应有的效果。将所有的隐私政策内容都集中到说明书上,看似可以保证消费者了解所有的情况,然而实际上,由于阅读隐私政策说明书需要花费大量的成本,一旦隐私政策冗长晦涩或埋藏过深,将会事实上降低用户的可读性。

在欧盟,以Google案为例,法国数据监管机构CNIL指出Google实施的数据处理数量特别庞大且具侵犯用户权益的可能性较大,相对而言,Google隐私政策中有关数据处理的描述则相对过于简单,不符合GDPR要求的数据处理透明性要求。具体而言,CNIL认为:(1)公司将数据处理目的、数据存储时长或者用于个性化广告目的的数据类型信息分散在多份文件中告知用户,用户需要通过繁杂的多步骤才能完全访问和知晓上述信息;(2)针对可能对用户权益造成极大侵害(如数据泄露)的约20种服务的数据融合和处理而言,Google在隐私政策中的说明过于笼统,用户无法知晓自身个人信息被处理(包括融合打通)的程度 ,尤其是对于个性化广告营销的数据处理而言,Google未明确说明合法性基础是基于“用户同意”或“合法利益”;(3)Google未明确披露某些数据的保存期限 。因此,企业在设计用户告知以实现用户知情权时,需要考虑是否通过简短说明与完整说明相配搭、隐私政策与业务协议相呼应等方式让用户能够更为清晰的理解数据融合涉及其个人信息的收集和使用情况,以及可能对其造成的影响。

2. 个人信息融合的必要性问题

尽管企业已经获得个人信息主体的同意,但并不意味者个人信息融合满足《网安法》第四十一条规定的必要性原则。国家推荐性标准《信息安全技术 个人信息安全规范》(以下简称“《个人信息安全规范》”)中将《网安法》第四十一条规定的数据处理必要性原则进一步解释为:(1)在收集个人信息时需满足直接关联、最低频率和最少数量的要求;(2)个人信息保存应为实现目的所必需的最短时间,超出上述个人信息保存期限后,应对个人信息进行删除或匿名化处理。

首先,就公司内部各业务条线委托数据中台汇总个人信息而言,可能面临数据汇总范围是否为原业务办理所需的直接关联、最低频率和最少数量的挑战。以基于客户风控目的汇总数据为例,诚然数据融合的范围越广越能形成精准的个人信用或金融画像,从而有利于降低金融机构在贷前审批、贷中管理和贷后催收中的风险。但是,在金融机构扩大信息收集范围的同时,其数据合规方面的必要性风险也随之增加,主要体现在:(1)当数据融合的范围达到一定程度后,额外收集并汇总分析用户个人信息不再能实质性发现并降低用户欺诈或违约的风险,因此在这种情况下,数据融合可能会被认定为超出提供产品和服务的目的过量收集个人信息;(2)对用户通讯录或APP输入语料的监测可能侵犯公民通讯自由和通讯秘密,相对于风控目的而言可能被认定为超出了必要的限度。

其次,就科技子公司汇总母公司各业务条线数据用于用户画像和母公司多产品的精准广告营销而言,该个人信息的处理活动并非原母公司各业务条线提供核心业务产品和服务所必需,可能存在违反《网安法》有关收集、使用个人信息必要性的原则要求。对于希望使用数据融合结果用于产品/广告营���的业务条线或子公司而言,可能需要从消费者的视角如设计用户体验计划、增值服务等机制重新建立数据融合与为消费者提供额外服务的必要关联。 (四) 数据融合可能涉及的其他问题—数据资产转移的限制

除了以上数据合规的风险,在集团母公司将原有业务和数据转让给子公司的情况下,还可能涉及公司法和合同法下的资产(硬件、软件、数据)转让和人员转移问题。因此,需要至少考虑的问题包括:

1. 签约主体的变更

从法律性质上看,原集团与客户之间构成业务办理的合同关系,子公司如果通过资产收购从集团获得运营相关业务和获取相关数据的权利,会导致原服务相关法律文件(包括但不限于用户协议、隐私政策等)一方主体的变更。根据《合同法》的规定,经当事人协商一致,可以变更合同,且一方可以将其合同中的权利、义务的全部或部分转让给第三人。合同主体的变更涉及合同权利和义务的一并转让,根据《合同法》第88条的规定,合同权利和义务一并转让的,应当经过合同相对方同意。因此,从合同法的视角而言,对于新设子公司承接原集团业务和数据需要获得相关业务办理用户的同意。

2. 决策程序

通常情况下,一个业务板块的剥离(或者收购)以及关联交易可能需要相关主体董事会或者股东会的批准。因此新设子公司对于原集团业务和数据资产的承接可能需要经过以下程序:集团内部决策程序、签署资产转让协议、资产交付。 3. 估值与定价

对拟转让业务可能需进行资产评估,并参考评估价值确定交易金额,以减小交易风险。

三、 企业数据融合的建议

在各行各业普遍考虑对公司内外部数据融合的当下,金融行业更是将数据向第三方开放和共享作为未来推进开放银行发展的前提条件 。企业数据融合后的巨大潜力也吸引公司纷纷开展数据中台的搭建工作。但如上所述,即使是更为简单的企业内部数据融合也应当是需要技术部门、法律合规部门与产品部门通力协作、集团内部关联公司达成共识、商业逻辑和合规框架并存的大工程,需要公司领导统一思想、大力支持才能完成。 

针对企业数据融合的常见问题,我们进一步建议:

(一) 原始数据溯源及合规

对企业而言,数据的采集是数据融合的始点,采集数据质量的高低会直接影响企业开展数据融合的成本和合规风险。“错误数据、异常数据、缺失数据等‘脏数据’产生” ,影响数据的完整性和准确性,还可能给全局数据的融合互通造成实质性障碍。因此我们建议企业:  以普遍适用的法定义务合规性为评估起点、结合所处行业的监管要求对数据的收集、使用、存储和共享等全生命周期的对存量数据的产生/收集过程和利用方式的合法合规性进行评估。

 制定并实施统一的数据采集标准和统计口径,以避免在后续数据融合场景中出现对“同一数据源在不同关联公司的表述不同”或“看似相同的数据实际含义大相径庭” 的情况,保障数据的一致性,为不同业务线或关联企业间的数据融合和分析奠定良好基础。

(二) 数据分级分类

数据分类是《网安法》下网络运营者应当遵守的安全保护义务之一 ,而从数据融合的角度来看,数据分级分类是评估数据的安全性和合规性的重要方法,也为数据融合项目中应用原始数据范围的确定提供了参考:

 就分类而言,企业应当根据收集数据的主体、收集数据的业务、具体的数据收集场景、收集数据的类别、具体的数据字段逐层对数据进行分类;此外企业在对数据分类的时候还应当依据普遍适用的法律合规要求和行业特定的监管标准对数据的合规性进行评估,并将是否合规作为数据分类的标签之一在分类结果中进行体现。

 就分级而论,企业需要在数据分类的基础上结合数据的信息内容、数据的敏感程度、数据的法定和约定保密性等情况,对数据的安全属性进行评级。

 最终企业需要以数据分级分类结果为依据,在综合考虑数据本身的价值、平衡数据安全性和商业价值的基础上合理划定数据融合的原始数据范围。 

(三) 数据承接主体的选择

如前所述,企业可以通过多种模式开展数据融合,包括但不限于通过设立数据中台作为大数据资产层、设立独立的科技子公司承接来自各关联企业的数据等方式。就数据中台模式与科技子公司模式的选择而言,企业可能需要考虑以下因素:

 从数据融合与集团原有业务的关联性而言,数据中台模式由于建立在企业内部,通常会更加强调与业务的协调和匹配企业自身的业务需求,因此如果企业开展数据融合的主要目的是为了企业自身的业务运营服务,数据中台的模式可能更有助于实现数据与业务的融合、并及时贴合业务需求进行相应调整;而相比之下,科技子公司模式下,由于科技子公司与提供数据的关联公司之间是相互独立的实体,二者之间的关系更类似于数据服务提供者和数据服务使用者,因此在与集团内关联企业沟通、了解服务需求方面可能会稍有劣势。

 从数据价值的商业化利用和技术能力角度来看,数据中台模式主要是作为企业内部的辅助者,为企业自身的数据处理和使用提供技术支持;而科技子公司除了向集团内的关联企业提供数据服务和技术赋能外,更多地是依托于集团内丰富的数据资源,作为独立主体提供数据产品和技术产品,实现数据价值的输出。以金融行业的科技子公司为例,根据零壹智库所发布的《商业银行科技战略案例库》,部分股份制银行已“将金融科技提升到总战略高度” ,并将科技子公司作为推进技术成果落地应用的重要窗口。 在这种情况下,对科技子公司的技术能力也相应提出了更高的要求,因此企业在选择数据融合的具体模式时,还需要考虑现有的数据技术能力。

 除此之外,企业自身所处的行业以及数据监管的强度也是应当纳入模式选择中的考量因素之一。通常而言,如果企业或其关联公司所处的为强监管的行业或者在业务开展过程中涉及较多的敏感数据、保密性数据,则在企业内部建立数据中台开展数据融合的合规性风险可能会低于将数据提供给第三方科技子公司用于数据融合的情形。

(四) 商业模式的搭建

从合规角度来看,数据融合的商业模式搭建需要满足必要性原则,即企业需要从消费者的视角建立数据融合与为消费者提供服务的直接关联。

 建立统一账号或会员机制是实现多业务线数据或关联实体间数据融合必要性的重要路径之一,但并不是唯一的途径。企业应当充分考虑业务的特性,从数据融合后可能为用户带来的增值利益出发研究数据融合的商业逻辑,同时激励用户额外授权同意企业整合并分析其数据。

(五) 多主体对于数据融合变现的利益

数据融合各方能够主张各自对数据融合变现的利益主要有两项依据:

其一是原数据持有方(如集团内业务部门或关联公司)作为原始数据的持有人参与了数据融合项目,且其所拥有的原始数据在项目中对于数据融合后商业价值的提升做出了相应的贡献;在这种情况下,汇总数据的承接方(如科技子公司)可能需要结合对各业务部门或关联企业所持有的参与数据融合项目的原始数据进行价值评估,其中价值评估既需要考虑原始数据的绝对价值,也需要考虑其在数据融合项目中可能贡献的相对价值,并以评估结果为基础通过协商最终确定该部分的利益分配。

其二如我们在前文所提示,实现数据融合的商业模式中满足必要原则且用来激励客户授权同意的权益往往是由原数据持有方向客户提供,集团内业务部门或关联企业可能需要付出相应的成本,我们同时建议在约定变现利益的分配时对于该部分有所体现,作为集团内业务部门或关联企业投入成本的反馈或补偿,以维系整个商业模式的良好平稳运转。   

总而言之,企业内部数据融合需要在商业逻辑通顺和合法合规的前提下进行。考虑到数据融合后的驱动力,企业不应当“因噎废食”,因为融合工作的复杂性而“望而却步”。但同时企业更不应该对于数据融合的合规风险“熟视无睹”,忽视数据合规可能引发的民事、行政甚至刑事责任。如同合规的数据资源才有可能变成数据资产一样,合规的数据融合才能助力企业发展,让企业在大数据经济浪潮下走的又稳又远。