清华大学郑晓军：反思公共数据归集

本文约14900字，建议阅读20+分钟本文以公共数据归集为例，揭示了行政机关数据处理活动中潜在的风险，而如何实现公共数据的良好治理，仍有待进一步讨论。反思公共数据归集目次一、问题的提出二、如何判断数据处理的合理性三、数据应否成为不同部门的黏合剂四、困在数据上的“数字人”五、公共数据治理的结构性转向六、结语摘要数据行为而非数据属性，才是判断数据处理合理性的关键。无论是数据聚合价值最大化，还是..

数据派THU

761人浏览 · 2023-09-11 17:00:52

数据派THU · 2023-09-11 17:00:52 发布

本文约14900字，建议阅读20+分钟本文以公共数据归集为例，揭示了行政机关数据处理活动中潜在的风险，而如何实现公共数据的良好治理，仍有待进一步讨论。

反思公共数据归集

目次

一、问题的提出

二、如何判断数据处理的合理性

三、数据应否成为不同部门的黏合剂

四、困在数据上的“数字人”

五、公共数据治理的结构性转向

六、结语

摘要

数据行为而非数据属性，才是判断数据处理合理性的关键。无论是数据聚合价值最大化，还是行政一体，都不能很好地证成公共数据归集的合理性。在数字化过程中，个体被安放在预制的类别上，生成动态、可计算的数字身份，从而和数据紧密地固定。数据归集潜移默化地消除了部门间的职权边界，更容易催生出权利干预措施的数字“组合拳”，扩大个体和国家的权力差距。个体控制数据的能力是有限的，碎片化的权利无法有效防御其中的系统性风险，应将数据治理的思路从赋权转为控权。为避免因数据归集形成体量庞大的组织，有必要将数据主管部门定位为风险评估部门而非管理部门，并配置有限的数据处理权。

关键词

数字政府个人信息公共数据归集数据监控数据治理

“制度的效率使个人的认识迟钝，使他对未能体现整体之压制力量的事实视而不见。”

——赫伯特•马尔库塞

一、问题的提出

当前，数字技术成为公共治理的抓手，数据则是其中的关键要素。现有关于公共数据的研究，主要关注政务部门和公共服务组织向社会开放数据，而对行政内部不同部门之间的数据处理活动，讨论得并不多。即使是关注到这一议题的学者，他们的研究也更多的是从行政一体的角度，证成数据跨部门流动的合理性，反思性的文献并不多见。

我们不妨将视线转向国外。早在1965年，美国社会科学家就提议建立国家数据中心，但提案最终并没有被采纳。议员弗兰克•霍顿（Frank Horton）的洞见为我们反思公共数据归集提供了启发：“分离信息是目前保障隐私最切实有效的方法。当信息散落在不同的角落，检索是不切实际的，但中央数据库完全消除了这种保障。”英国信息专员办公室（Information Commissioner’s Office）在《关于监控社会的报告》中也指出，不应忽视数据处理对隐私、伦理、人权的影响，事实上它比我们想象到的还要复杂与微妙。如果将效率视为行政的最高标尺，数据就可能发生功能上的异化。

本文要讨论的公共数据归集，主要指政务部门和公共服务组织将采集的信息，加工处理后聚合在一个数据库。与多向流动的数据共享不同，归集是数据的单向聚合。主张数据归集的可能理由主要是以下两个：

（1）互联网企业在商业利益驱动下采集了大量的用户数据，是最大的风险源，基于数据的价格歧视即为例证。而行政系统有查询留痕等风险防范手段，工作人员滥用数据的可能性较低。

（2）部门之间缺乏信息沟通会导致重复采集数据，无法达成“整体智治”与资源集约建设。这两种理由有待商榷。把分散在不同部门的数据统一存储，就像把所有鸡蛋放在一个篮子里，是对风险的聚合而非分散。

对此，本文首先指出，应从多个维度剖析数据处理的合理性，数据类型不是首要的，囊括了主体、方式和对象的数据行为才是关键。接下来的两部分聚焦于行政组织与相对人。理想上的整体政府是服务而非管控意义上的，数据并不必然应成为不同部门的黏合剂。聚合一个人不同维度、不同人同一维度的数据，很可能形成困在数据上的“数字人”。最后则论证，在体量庞大的部门面前，个体防御系统性风险的能力是有限的，碎片化的权利让个体承担了太多的责任，应转变数据治理的思路，从赋予个体权利转为控制数据权力，将数据主管部门定位为风险评估部门，牵制其他部门的数据处理权。

二、如何判断数据处理的合理性

笔者将讨论数据处理的合理性基础，主张一种基于风险而非权利、基于数据行为而非数据类型的判断思路。对于会创设不合理风险的数据处理活动，应给予更多的警惕。

（一）区别于个人信息的判断思路

1. 基于风险而非权利

有研究者提出，应从“基于权利的方法”（赋予信息主体权利）转向“基于风险的方法”保护个人信息。但在笔者看来，敏感个人信息关乎隐私权，更适宜采取“基于权利的方法”，赋予信息主体权利；而数据处理更多是一个合理性问题，宜采取“基于风险的方法”。《欧盟基本权利宪章》第7、8条分别规定了隐私权（respect for private and family life）与“对数据相关权益的保护”（protection of personal data），揭示了作此区分的必要性。

隐私权和“对数据相关权益的保护”在调整范围和保障强度上存在差异。其一，调整范围。前者重点保护私人生活、住宅和通信等敏感个人信息，而后者并不限于此，否则无须规定第8条，在第7条中解释即可。其二，保障强度。隐私权是阻隔权力行使的模糊性工具，遵循“禁止处理，除非……”逻辑，旨在让特定范围的事实模糊化；而数据保护是透明性工具，遵循“非禁即可”逻辑，通过权力的透明化运作，调节和引导必要、合理、合法的权力。立法者的表述也印证了这种理解的合理性。虽然在表述两种自由时，说的都是“每个人有……的权利（everyone has the right to）”，但涉及隐私时用的是“respect”，强调避免干预，维续分离、静止的状态；涉及数据时则用的是“protect”，意味着数据不同于敏感个人信息，讨论的起点是“放”，而不是“禁”，也即只要给其配套适当的保护措施，原则上可以处理数据。

风险规制包括评估与管理。任何事情都有风险，是否要介入调整，关键是在未来的某一时刻，发生不利后果的概率和严重程度是否可以容忍。就像公园里的树会因为极端恶劣的天气倒塌，但存在这种抽象的风险，并不意味着就要砍掉所有的树。“如果数据处理活动被认为是一种风险，那么就可以通过诉诸毒理学和流行病学来衡量。毒理学将处理活动视为风险本身（损害的来源），因此将包括诸如数据的性质和类型、处理方式、范围、背景、控制者和数据主体的地位等因素；流行病学则评估损害本身（可能包括歧视、诽谤、丧失议价能力、痛苦、刺激、恐惧等）和影响数据主体（风险目标）的方式。”法律的调整范围不应是无限的，并非所有数据处理活动都要接受严格的审查与约束，对数据保护的水平取决于未来不利影响发生的可能性与严重性。不必然要立法禁止给社会带来较大效益，但有极高风险的数据处理活动。而即使风险极低，但无法产生任何效益的数据处理活动，也是不合理的。比如，在公共场所摄像头执法中，图像采集只是单纯的“看”，而身份识别是“看”到后关联身份信息。推定所有人有违法犯罪的可能性是一种不可容忍的风险，应当受到更严格的限定，就此而言，图像采集的权力可以是宽泛的，身份识别应是个别的、回应性的。

不区分损害的差异性，为所有人提供不可权衡、相同强度的最低保护，是一种“基于权利的方法”。但数据处理的合理性取决于每个具体行为引致的风险水平，并不遵循合法或非法的二元逻辑，应逐案判断风险与效益的均衡性。即使一个数据处理活动是合法的，也可能因创设不可容忍的风险而不具合理性，此时需要评估，是否要采取措施缓解风险。风险是概率性的，不能因为有损害的可能性，就禁止任何形式的处理；而不加区分地解除所有的保护措施，也会创设不合理的风险。

2. 基于数据行为而非类型

《个人信息保护法》第二章区分了敏感个人信息和一般个人信息的处理规则，前者如生物识别、宗教信仰、特定身份、医疗健康、金融账户、行踪轨迹等信息，那么是否可以借鉴这一思路，将公共数据分为敏感数据和一般数据，为涉及个人信息的敏感数据提供特别保护？不少地方作了类似的规定。比如，《浙江省公共数据条例》第30条规定，禁止开放涉及个人信息、商业秘密或者保密商务信息的公共数据，但匿名化处理或数据指向的特定主体授权同意开放的，可以列入受限开放或者无条件开放数据。

基于数据类型划分的治理模式，有效性存疑。金钱是一般等价物，而数据会因背景信息的不同，呈现相异的价值，既可能淹没在繁杂的数据集中，成为“数据垃圾”；也可能关联不同维度的数据，成为“信息宝藏”。只揭示某地区污染严重、不涉及任何个人信息的环境数据，也会因不当使用，产生难以预估与消除的影响，比如，保险公司基于这一数据，提高对该地区居民购买保险的费率。当我们只专注于数据的一个维度，不可避免地会牺牲其他潜在的价值。如论者所说：“如果问当前对隐私的主要威胁是什么，我们会发现数据在名单上名列前茅；同样，如果问如何尽快开发针对致命病毒的疫苗，数据也会名列前茅。”

有必要从多个维度去判断数据处理的合理性，数据类型不是首要的，数据行为才是关键。这里的数据行为是一个多要素构成的综合概念，囊括了主体（数据控制者、处理者）、方式（数据收集、归集、存储、加工、传输、共享、开放、利用）、对象（数据类型）。至此，我们可以对《欧盟基本权利宪章》第8条作出一个更恰当的理解方案：不在于保护数据本身，而是保护数据背后的人；不在于防御某一类数据，而是防御可能创设不合理风险的数据行为；不在于赋予个体（群体）对数据的控制权，而是尽可能减轻数据处理的不利影响。

（二）识别数据行为主体

理论界和实务界大多认为，流通是数据价值的实现方式。单个主体无法掌握特定对象所有维度的数据，只有从其他主体那里获取其他数据，才能丰富数据的价值。“大数据时代的数据分享并不需要特别论证，对于数据的控制才需要充足的理由。”不加辨析地借鉴数字经济的流通（共享、聚合）思路，判断行政机关数据处理活动的合理性，并不妥当。

作为私人实体的互联网企业，依靠商业模式创新采集了大量的用户数据，但仍要和其他企业一同竞争，无法像行政机关一样控制所有的数据。更关键的是，数据平台依赖的基础设施处于国家的控制之下，是国家而非平台决定了数据流通的环境。虽然社会是数据生产、分配和交换的主要场所，但权力仍然专属于国家，行政机关通过对数据的深度隐蔽解析，摆脱了对强制性的依赖，还能以概括、抽象的公共利益为数据行为正名。

正因为国家和个体地位的极度不对称，行政机关需要履行相较于私人实体更多的数据处理义务。“国家不过是人民为了自己利益而创造的一种器物，因此，人民当然可以以主人的姿态，对自己的缔造物提出超道德要求”，“高道德要求意味着低容忍度，一旦国家稍微有损于人民，比例原则就会发挥作用”。比如，良好的动机与结果，不足以证明行政机关处理数据的合理性。欧盟第29条工作组（Article 29 Data Protection Working Party）在《对第2016/679号条例（GDPR）下同意的解释指南》中指出，行政机关应尊重相对人的独立意志，采取权益侵害更小的数据处理方式。当相对人需从省、市两级行政机关获得许可，两级行政机关都不能直接访问对方的数据库，需将选择权交给相对人，如果相对人不同意，行政机关仍然应单独处理申请。

但对于公共数据处理合理性的分析，我们不能仅停留于“政府”这一整体。诸如数据共享、归集之类的活动，发生在行政系统内部的不同部门之间，此时要把“部门”从整体中拆解出来，区分因部门分工造成的在数据处理合理性上的差异。

（三）区分数据行为方式

《欧盟基本权利宪章》第8条第1款“每个人都有权保护有关他或她的个人数据”是概括性的表述，第2、3款则规定了具体的保护措施，比如必须为特定目的公平处理、以当事人同意或法律规定的其他合法依据为基础、主体有权访问与请求更正数据。

学界对此有两种解读。一种观点是，所有数据行为都构成对权利的干预。另一种观点则主张，既然宪章第8条第2、3款已经规定了数据保护的具体措施，那么第8条的调整范围“所有涉及个人数据的处理”与“权利是否受到干预”就是两个问题，只有违反第2、3款规定的措施，才构成对权利的干预。如果把所有数据处理活动都视为“干预”，会让符合第2、3款的处理活动也要接受繁杂的审查，造成不必要的论证负担。本文赞成第二种观点，理由如下。

在审查行政行为是否侵害基本权利时，要注意“干预”在整个审查框架中的“过滤网”功能。即使落入了权利的调整范围，也不是所有措施都构成“干预”。“干预”应当是有门槛的，会因低于这一门槛而否定特定行为的干预性，进而无须法律特别授权。比如，一项禁止在公园露营的法规，可能会间接影响某些人的言论权利，但如果出台禁令的目的不是规制言论，那么其就不构成“干预”，无须进入后一阶段的审查。偶然而非直接的影响“是完全无关紧要的”，是一种“与宪法分析无关的”的附带负担。忽视或泛化理解“干预”，会“在第一阶被判定为落入基本权保障领域”后，“直接跳到第三阶进行正当性基础的审查”，“容易造成国家动辄得咎、寸步难行”，“影响国家机能的实现”。

数据无处不在，可以持续生成与更新。政务部门和公共服务组织在履行职责或提供公共服务的过程中，会采取不同的数据处理方式，包括但不限于收集、归集、存储、加工、传输、共享、开放、利用。与《个人信息保护法》规定的信息处理方式相比，《浙江省公共数据条例》增加了数据归集和数据共享两种处理方式。对于风险较高而效益较小的数据归集，有必要予以反思。

数据共享是单次、双向的流动，应用场景特定，数据使用部门需事先提出申请，一事一议，风险相对可控。比如，低保认定需要查询与比对身份、收入、财产信息，涉及不同部门的多项职权，公安部门要提供户籍人口登记信息、出境旅游信息、车辆拥有情况，自然资源部门提供不动产登记资料信息，市场监管部门提供个体工商户登记注册信息。共享的前提是申请人知情，并授权民政部门调取其他部门的数据，汇总的数据作为判断申请人是否符合低保条件的依据。通过比对查询数据，可以将不符合条件的申请人排除出资格审查流程，减轻工作人员的负担，让相对人更快通过审批获取补助。

归集则指政务部门和公共服务组织将数据统一汇总到数据主管部门，是单向、持续的流动。不少地方还要求公共数据“应归尽归、全量归集”。《重大税收违法失信主体信息公布管理办法》第13条规定，国家税务总局归集各地税务机关确定的失信主体信息，并提供到“信用中国”网站进行公开。《浙江省公共数据条例》将归集作为公共管理和服务机构的强制性义务，如果未及时向公共数据平台归集数据或归集的数据不符合标准要求，将由数据主管部门按照管理权限责令限期整改。风险是面向未来的，决策者始终面临时间上的悖论：“即使现在被认为是最好的决定，也不能保证未来就不会带来损害或副作用。”在过去，信息是分散的，想要找到特定的信息就像大海捞针，费时费力。但技术进步后，检索困难产生的匿名性很大程度上已经消失。从当下公共数据的利用情况来看，数据归集还处于起步状态，没有产生直接可见的损害，但仍有必要考察其对行政主体与行政相对人的潜在影响。

三、数据应否成为不同部门的黏合剂

一套适合长时间、远距离传递信息的工具，是打破权力运作时空限制的关键。如何让复杂的信息变得清晰，是数字政府建设中绕不开的议题。这一部分将首先讨论，何种意义上的整体政府是值得追求的，然后揭示数据归集带来的组织混同。

（一）建设服务而非管控意义上的整体政府

早在2015年，国务院就印发了《促进大数据发展行动纲要》，指出要挖掘数据对治理的价值，加强对数据的发掘与关联分析。此后，各地加速推进数据发展与应用，推行“最多跑一次”“不见面审批”“马上办网上办一次办”“一门式一网式”“一件事一次办”等审批服务改革。这些做法坚持“整合是原则、孤网是例外”，“让数据多跑路、群众少跑腿”，“一次采集、一库管理、多方使用、即调即用”，背后体现了整体智治、高效协同的一体化逻辑。然而，数据是否必然应成为不同部门的黏合剂？

支持者可能认为，行政机关可以自主决定什么部门做什么事，整体效率无须受部门分工的影响。一个部门采集的数据不属于自己，将不同部门的数据归集到数据库，是为了促进资源的集约配置。碎片化的部门分割，会造成公众经常要和不同的部门打交道，简单的一份材料甚至要重复提交多次。整体政府建设可以解决上述治理困境，提高公众获取公共服务的便捷性，让“公众无需同时面对多个部门”，“无需关心所需办事是由哪些部门办”。“整体向好的效能来自部门合力的正向汇集，促使不同职责产生可预期的行为效应，其中信息共享、激励促进至关重要。”

当前各地主要采取以下两种方式归集公共数据，一种是水平整合相同维度的数据，扩大数据的覆盖范围；另一种是垂直整合不同维度的数据，丰富数据的内容层次。根据《浙江省公共数据条例》，数据主管部门不仅有权要求税务、海关、金融监督管理等国家垂直管理部门派驻地方的机构向其归集数据，甚至法院也有义务向行政机关归集数据。《上海市数据条例》也作了类似的规定，但区分了不同的归集形式。已有论者批判了这种做法：“政府不是铁板一块。垂直管理部门信息系统的数据本身就不允许地方政府获得。即便是地方政府内部，各职能部门数据采集和使用的法定权限既有差别，又有边界。”这一观点是有道理的，但还要区分行政机关的服务与管理职能，进行更细致的分析。

服务是柔性的、增加个体权益的，在提供公共服务时，不同的部门可以形成一个整体，共同面对行政相对人。整体政府建设之所以能够获得公众的广泛支持，一个很重要的原因在于，大部分的改革事项都聚焦于行政审批等公共服务，而非社会管理，通过减少办事环节、缩短办事时限，降低交易成本，推动行政机关简政放权。行政机关从原来试图控制与引导社会走向的舵手，变为帮助公民明确表达诉求、负责确保公共问题解决方案在实质和过程上符合公共利益的服务者。原先一个部门只管本部门的事，体现了行政机关优位的管理逻辑；不管部门分工，只负责把事办成办好，则体现了民众至上的服务逻辑。

而管理是刚性的、减损个体权益的，行政机关履行日常性的管理职责时，片面强调部门协同是不妥当的。同样的数据，既可能被用于推进审批服务改革，也可能被用于加强对社会的管控。忽视数据价值的不确定性，一味地强调数据流动，打通不同地域、机关、部门之间的数据交换通道，就有发生功能异化的可能性，形成缺乏约束、无法有效问责的部门间数据“黑市”。灵活的数据流动虽可以及时回应新挑战，但实际上是对权力的隐形分配，极可能成为非法权力的“炼金术”，让部门绕过既定程序行使权力。行政法上的效能原则不仅关注投入和产出的比率，还要求收益是正当的，不能破坏人类的基本价值。某一部门以某种方式采集了一定数量的数据，对其职权的履行来说是适当、必要、相称的，但可能无法促进其他部门的职权，或者对于其他部门职权的实现来说，不是侵害最小的。

不同部门应确定不同的数字化思路。特别是国家安全机关、公安机关等部门采集的数据，在处理上应区别于其他政务服务部门采集的数据，不宜直接归集。不仅是因为这类数据更敏感，更因为它们是法律特别授权采集的，更偏向对权利的干预而非保护。正如论者所说：“个体经常出于各种原因和不同的部门打交道，将行政机关视为可以从公共或私人数据库中随意调取所有信息的整体，是对数据保护理念的不尊重……我们的目标是打造智慧警务，而非全知全能的警察和完全透明的个体。”

（二）数据归集形成体量庞大的部门

数据跨地域、跨机关、跨部门流动，不可避免会突破现行组织法对组织架构、体制机制、行政流程的规定。地方政府能否决定跨界事务，仍有待讨论。

首先，地方政府的组织权是有限的，受法律约束。法律保留理论不仅调整公民和国家的实体法律关系，也适用于行政组织与程序问题。为了避免自我扩权，行政组织的产生和职权，要受立法机关控制，必须立法或修法调整。

但不是所有的组织问题都应由法律调整。“行政主体法定所要求的权力来源合法性仅仅针对各级政府，而非针对政府的职能部门。”行政的灵活性和实践性要求，行政机关应有无须法律授权即可为的自主事项，比如需要应时而变的内部事务分配与空间、物质、人事配置。组织内部结构和业务执行方式、程序匹配，比如危险防御没有太大的裁量空间，可以适用层级式体制；而行政计划面向未来、非针对个案，可以在原有部门外另设协调小组，不宜过度分工。所以，地方政府可以根据工作需要，设立数据主管部门。

跨地域、需统一标准的事务，应贯彻行政一体的运作逻辑，地方政府需向上级政府负责。但把分散的数据全部归集到一个部门，将潜移默化地消除部门间的职权边界，分散的权力资源进一步集中，更容易催生出权利干预措施的数字“组合拳”。归集数据可以隐形地复制其他部门的职权，即使数据主管部门不直接对外履行职权，也能通过控制与分配其他部门的数据资源，关联分析出更多信息，实现需求的强化与权力的扩张。在过去，基层主要是向上级政府“跑项目”，现在则可能向数据主管部门“跑数据”。有条件获得更多数据的部门，将获得更大的权力。归集是“收”，为避免形成体量庞大而不受约束的部门，“放”也是必要的，其他部门履行审批程序后，数据主管部门应及时返回数据。

建设数字法治政府，数字是驱动力，法治是制动力，没有责任兜底的数据流动必然是任性的。清晰的职权范围与边界是有效问责的前提，但数据不受限地无序流动，会混淆不同部门的职责，问责变得并不容易。假如某一部门采集的数据本来已匿名处理，但和其他部门的数据聚合勾勒出可识别的信息，那么究竟应由哪一部门承担责任，消除不利影响？如果没有发生实际损害，能否以有泄漏的风险拒绝归集数据？再如，各个部门采集的数据有不同的存储期限要求，如何处理数据归集后的存储期限？数据归集形成了一个体量庞大的部门，聚合了原先分散的风险，更可能产生数据滥用、篡改、毁损等牵一发而动全身的系统性风险。

对于一些地方提出的公共数据“应归尽归、全量归集”要求，一个可能缓解风险的措施是：区分数据资源本身和数据流动的条件，后者如平台算力设施。为了建设服务而非管控意义上的整体政府，需要“一体”的是数据流动的基础设施，而非不加区分的数据归集。统一不同部门数据的接口，是为了出现需要数据流动的情形时，不至于因为接口不统一而建设新接口、重复采集数据。

四、困在数据上的“数字人”

信息是国家治理的基础。将分散在不同地域、机关、部门的数据，关联汇聚到数据库，得以将行政相对人固定在数据上。归集数据虽然可以提升政务服务的便利化水平，也可能发生功能蠕变，实现对社会的全方位监控。

（一）“数字人”的生成

相较于文字，数据能排除相斥的解释方案，更加精确、客观与严谨。用“数字”修饰或限定一个词语，可以有四层含义：社会进步与发展；规模性与即时性；自动化；治理、控制、权威与问责原则的变化。数字政府建设不仅实现了办事流程的再造与优化，其中的各种治理要素也以数据的形式呈现出来。在数字行政法律关系中，和“数字政府”相对的概念是“数字相对人”，也可称为“数字人”。当行政相对人被要求在行政机关预制的表格上打钩、画圈时，就无形中卷入了信息的程式化过程，因此与相关的数据绑定。由此，具体的客观实在不再是生命的必然，数据这一假体被用于扩展或代替传统的身体。

数据生命周期的起点是有意义的信息，不涉及个人信息的公共数据，也能揭示有意义的信息。医疗卫生类数据由患者信息与事实信息组成，其中患者信息包括姓名、身份证件号码、就诊时间、就诊科室等；事件信息包括诊断结果、事件类别、名称、详情、事件编号、日期时间等。“某行政区内有80%的人患有某种疾病”的统计数据不涉及个人信息，但是如果知道一个人住在这里，也能预测他可能患有这种疾病。

“数字人”不只是个体意义上的，还涵盖了更大规模与范围的群体。“个人信息一旦被转化为数据集，就很容易从中提取出不同的子集，从而根据某些共同特征或实践，将没有意识到受这些相似性约束的个体归类在一起。”在不同的数据集中，个体被贴上了各式各样的标签，处理A的数据，影响的不只是A。个体权利状态的变化会影响到其他人，一个人向卫生健康部门披露有关遗传疾病的数据，也会间接揭示直系亲属的敏感个人信息。虽然大数据驱动的分析对象主要是群体，个体只是处理过程的附带因素，无法直接侵害个体权益，但仍可能侵扰公共秩序，个体权益无法完全涵盖此类公共利益。

（二）对“数字人”的监控

权力的实现方式是多样的，依赖暴力的权力不是最高级的，精明的权力摒弃了外在的否定性，让人们无意识地自觉屈从于外部压力。数字技术重塑了权力，催生出权利干预措施的数字变体，强制性的即时暴力并不多见。和铸币权不同，国家无法主动“印数据”，但可以强制或诱导个体生成行为数据。如果没有外力介入，很可能无法完整固定、长久存储复杂的信息。在纸质时代，清晰记录信息是困难的，而现在可以将信息转成数据存储，由机器代替人筛选、分类、排列与组合。

和传统人力执法不同，数据驱动的监控不是对身体、物品与场所的检查，而是通过采集、储存、传输、检索、比较与挖掘个体在从事经济或政治活动时的“投影”，有目的、常规、系统地关注所有人。比如，移动支付形成的无现金社会，是对支付行为的数字化，个体受制于此类行为数据。当数据自我（data self）实现了对生物自我（bio-self）的支配，国家也就可以全方位监控所有人。根据数据来源的不同，数据监控大体上可以分为四类：筛选或身份验证（screening or authentication）、前端验证（front-end verification）、前端审核（front-end audit）与跨系统执行（cross-system enforcement）。前三种模式限于部门内部，不涉及其他部门，风险相对较小，而跨系统执行要求数据跨部门流动，某一部门因此可以识别不限于自己采集的数据，还能通过查询数据库，发现数据与数据、人与数据、人与人之间的关联。行政机关在履职过程中会采集各类信息，但人们不易察觉这些信息会转成什么数据。数据被不同部门持续地挖掘、分类与分析，数据处理过程处于人们视线之外。

可访问性、持久性、全面性是信息技术的三个主要特征，但这并不意味着信息技术就必然具有合理性。舍恩伯格认为，信息控制权的威胁产生了不平等的信息权力分配，让遗忘成为例外，记忆成为常态，最终催生了“一个没有安全与时间的未来”。数据可以被用于区分治理对象，一些人被纳入治理体系，而一些人则被永久地剥夺了成员资格。如果无法有效约束数据权力，便会制造完美执法的陷阱，所有人被推定有违法犯罪的可能性，无差别地固化在数据上，由此产生区别于物理环境的不安全感。

第一，不受控的访问权限。数据归集后极易产生“意料之外的二次使用”，出于特定目的采集的数据，将在未来用于其他目的，而处理者又受制于不统一的规则。行政相对人提交给A部门的数据，在其不知情的情况下被用于其他目的；B部门用简易程序采集的数据被C部门掌握，而后者直接向个体采集通常会受到严格的程序约束。信用联合惩戒即为例证，将公民与各种部门传输的数据关联匹配分析，“一旦一个部门首先将某人的一行为标记为失信行为，并将其列入黑名单，其他部门惩戒时就无须遵循通常的程序”，“对一个行为的评价和随之而来的干预之间几乎是无缝对接”，最终造成一处失信，处处受限。

第二，不利影响难以消除。数字技术是隐蔽的，当不良影响崭露头角时，技术往往已嵌入了整个社会结构，与日常生活难以分割，以至于控制它极为困难。此为技术的科林格里奇困境。为了应对突发事件，权力协调与配合是必要的，分散在不同部门的数据可以互相交换，甚至集中到一个部门，但紧急状态一旦结束，被悬置的法秩序也要恢复到日常状态。事实上，紧急状态下数据驱动的裁量权扩大，进入日常状态后并不能完全收缩，而是以一种友好的形式隐蔽地嵌入基础设施中。比如，《浙江省公共数据条例》第21条明确规定，突发事件发生后，公共管理和服务机构可以要求相关主体提供应对突发事件所必需的数据，应急处置工作结束后，应分类评估相关数据，封存涉及个人信息、商业秘密、保密商务信息的数据，并关停相关数据应用。条例虽然区分了日常和紧急状态下不同的数据处理权限，但只是要求应急处置工作结束后封存特定类型的数据，没有规定必须删除所有数据，对数据主体的保护仍有不足。

第三，决策视角的单一。数字化是一个由具体到抽象的过程，为了能适应机器观察、感知与处理，需要将人从复杂的社会情境中剥离，只关注特定维度，“社会变成了社会图像”。技术会阻止行政机关选择对相对人权益侵害更小的方案，分散了相对人对更紧迫问题的注意力。当行政机关过度依赖数据，数据理性取代人的科学理性，就会产生定量有余、定性不足的缺陷。此外，追求效能的机器自动化裁量，会压缩行政程序，无法保障相对人的程序性权利。随之形成的“数字懒政”也损害了人的尊严，比如在“刘某与韶关市浈江区政府社会保障行政管理纠纷案”中，民政局仅凭底线民生信息化核对系统中的数据不符合要求，没有让工作人员入户调查，也未听取刘某的陈述和申辩，直接作出了低保停发决定。

五、公共数据治理的结构性转向

数据治理措施应和未来损害发生的可能性、严重性相称。个体控制数据的能力是有限的，碎片化的权利不能有效防御数据处理的系统性风险。公共数据治理的结构性转向，意味着应将治理的重心从数据权益主体转为数据行为主体，从数据类型转向数据行为。

（一）给个体赋权无法防御系统性风险

一种流行观点认为，个体权利是对抗数据侵害的利器，数字赋能的理想状态是权力与权利各守其位、互相促进。比如，马长山认为，以算法为核心、以知识和数据为资源的社会形态，给法律造成了“破窗性”挑战，现有规则无法及时有效调整新生事物、新生关系和新生法益，所以要“尊重法律变革进程中的新兴权利和法益诉求”。在周汉华看来，现有立法“只是为义务主体设定了义务，并未规定权利主体的权利，存在较为明显的基础缺失问题”，“应该顺应国际发展趋势，明确确立个人信息控制权，作为整个制度的基础”。李忠夏指出，虽然我国《宪法》没有规定隐私权，但是《民法典》已明确规定了隐私权，在修宪困难的情况下，有必要解释“未列举的基本权利”来建构宪法隐私权。需追问的两个问题是：为了防御数据处理活动中的风险，修订法律是否可行及赋予个体权利是否有效。

一方面，修订法律是对法律功能的误解。法律的运作方式和语言有异曲同工之妙，两者都是解释旧词，赋予新含义，就此而言，法律文本不是固定不变的文字组合。适应变化是法律工作者的任务，通过法律解释可以回应变化。只有经受变革技术挑战，还能提供令人信服解释的法律，才是有生命力的。在技术无时不在发展的时代，法律介入的时机与范围不易确定，暗示法律要更快响应，会阻碍技术创新的动力。

宪法文本没有专门规定数字人权，并不意味着它就无法防御数据处理中的风险。不少学者极力证成的数字人权，保护对象仍是具体的个体而非抽象的数据，只是对物理空间向数字空间拓展、转变中的关系优化与协调，并没有超越原有人权的保护范围。宪法结构性条款也能保护公民免受不合理的风险，比如美国联邦宪法第四修正案规定，公民的人身、住宅、文件和财产不受无理搜查和扣押。有研究者在解释这一条时指出，当行政机关检索数据库后，可以揭示出警察只能通过搜查或扣押收集的信息，查询行为本身也要受宪法调整。

另一方面，从个体层面解释或建构权利的意义是有限的。美国隐私法学者丹尼尔•索罗夫（Daniel J. Solove）的看法富于启发性。他认为，赋权相当于把责任交给了个体，行使权利有时是乏味、耗时的，偶尔可能有效，但一个人没这么做的时候，就会被指责说他实际上不关心权利。事实却是，权力彻底极化的数据驱动型社会“只存在掌权的技术利维坦和无权者”，建构或解释数字权利抵御系统性风险，无疑是让鸡蛋碰石头。读取和分析数据需要专门的设备，但人们不是数据科学家，缺乏关于数据的理论知识，只能看到直接又具体的好处，无法审慎反思模糊、抽象、长远的风险。“赋权像是让人进入了一个有许多按钮、操纵杠、挡位、切换键的驾驶舱，但如果不知道如何驾驶飞机，那么这些控制键就没有任何意义。”此外，大数据的分析对象是人类数据而非个人信息，涉及的利益往往超越个体层面，影响的是群体或者整个社会层面的价值，个体很难证明对其产生的损害。

赋权的另一缺陷在于，实践中经常混同权利和利益。比如，有研究者认为，创设个体权利要从社会整体视角考察，“既要考虑所保护的利益之于该个体的价值与意义，同时也应始终将个体权利置于与他人利益、社会利益的平衡与协调之中”。这一论断有两个问题。第一，哪些利益有公共性其实并不明晰，数据发展和管理工作中要坚持安全可控的原则，安全看似是公共利益，但很多时候也注重保护个体的安全感。第二，如果权利可以和其他利益平衡，那么它还是权利吗？真正意义上的权利是反多数权衡的，将权利变成可以任意平衡与协调的利益，会为不合理的干预措施提供理由。价值位阶上的权利本位不要求规则必须设定请求权或受益权，明确权力持有与行使者的责任才是更重要的。采取授权性规范还是规定性规范来保护特定价值，不仅取决于法观念，还是一个立法技术问题。公法责任无须直接对应个体权利，强化数据控制者的责任，要求从承受者视角转向施为者视角。

（二）数据主管部门定位的重构

当前，不少地方已成立了数据主管部门，《全国一体化政务大数据体系建设指南》也明确了其数据管理职能：“负责制定大数据发展规划和政策措施，组织实施政务数据采集、归集、治理、共享、开放和安全保护等工作，统筹推进数据资源开发利用。”在打破数据聚合的思维惯性、认识赋予个体权利的有限性之后，还要在风险源头上“下功夫”，重构数据主管部门的内部结构，寻找恰当的定位与配置相称的职能，控制权力的运作方向，让其有所为，也有所不为，降低损害发生的可能性与严重性。

风险规制的一个思路是，分阶段解决风险，将风险评估与风险管理两种职能交由不同部门来实施，实现“相对的功能分化”。风险评估部门不直接对外行使职权，内部由独立的、拥有多元知识、讲求科学性的专家组成委员会，采取多数决的审议模式，就特定议题给风险管理部门提供技术咨询与政策建议。困在数据上的“数字人”不仅无法预料自己的数据被哪一部门、以何种方式处理，即使意识到了也无法很好地缓解其中的系统性风险。为了避免数据主管部门的权限不受约束，宜将其定位为不具有自身利益、仅提供风险交流平台，牵制其他部门数据处理权的独立部门。这一部门的特殊性表现在地位、职权与责任三个方面。

第一，地位。行政一体是责任一体，所有部门对外承担共同责任。所有处理数据的部门都应成为风险阻断器，而非风险聚合器，确保没有任何部门有唯一的控制或处理权。但不同的部门处于风险链条的不同节点，数据主管部门宜定位为风险评估部门，而非管理部门。也就是说，数据主管部门是风险的发现人，由控制、处理数据的其他部门实施风险缓解措施。前者是“吹哨者”，而由后者“踩刹车”。

第二，职权。数据主管部门与其他部门是监督关系，数据主管部门的职权侧重于评估而非管理。（1）风险评估是主要职权。比如，重点监测跨地域、跨机关、跨部门的数据流动情况。对于其他部门批量修改、拷贝、下载等可能引发不合理风险的数据行为，可以评估与提示损害发生的可能性与严重性。（2）只具备有限的数据处理权。有限性意味着管理权应采取列举式而非概括式，处理不在数据目录上的数据属于超越职权，即使其目的是正当的。应将数据归集权的目的限定为发现与评估其他部门数据处理活动的风险，而非“亲自上阵”处理数据。如果确需将归集的数据用于其他目的，对外作出影响公民权利义务的决定，那么必须由原部门审批认可，同时限定数据的用途，比如原则上只能用于给付行政，不能用于干预行政。

第三，责任。在合同关系中，当事人可以将预见的风险提前写在合同中，履约过程中仅受合同约束；而在信义关系中，风险有不确定性，受信人应主动代表受益人的利益。将信义义务引入数据处理活动，意味着有垄断地位的数据控制者，应负担谨慎、保护与忠实义务，确保自己和其他数据处理者都采取符合行业普遍标准的安全保障措施。基于德行的权力控制规则包括“不做无德之事”与“做最有德之事”。法规范是数据处理的最低要求，在此基础上，由行为准则、最佳做法等承载更高的德行标准，确保风险管理的开放与灵活性。数据主管部门要履行风险评估职责，及时获取与记录数据流动情况，客观地分析、研判与提示风险，确保责任可追溯。而作为风险管理职责承担者的数据提供部门和使用部门，不应满足于依法处理，还要有更高的数据合规自觉，将风险降到可接受的程度。

六、结语

各国政府都在以产业化的规模处理数据，我们有必要从人权和伦理的角度审视其中的风险。一个全新的人权侵害类别可能是以效率、改革的名义驱动的。盲目追求数据驱动的效率，会产生个体无法防御与对抗的风险。风险是概率事件，可能发生也可能不发生，但数据不受约束地流动，必然会催生出传统权利干预措施的数字变体。在万物皆可数字化的路上，我们仍有必要放慢脚步，反思数字政府建设中掩藏的风险。和主流观点不同，本文认为，数据跨地域、跨机关、跨部门归集的做法值得商榷。流通是数据价值的主要实现方式，但并不意味其无须受任何的约束。为避免不合理的权力集中风险，不应将数据“应归尽归、全量归集”理解为数据主管部门有无限的数据处理权限。一个更恰当的解释方案是：数据主管部门是处理权有限的风险评估部门，重点在于监测与评估其他部门数据处理行为的风险。归集数据是为了记录数据流动的过程，从而为风险管理权限划分、责任追究提供依据。本文以公共数据归集为例，揭示了行政机关数据处理活动中潜在的风险，而如何实现公共数据的良好治理，仍有待进一步讨论。

作者简介