解密欧盟网络爬虫的法律迷雾:数据保护与AI发展的双刃剑
Europrivacy认证
文末扫码咨询 详细介绍
CAIM报名
CAIL报名
作者:Tamás Bereczki等
整理:何渊
高质量、多样且广泛的数据集是提升机器学习模型性能的基础,网络爬虫有助于收集必要的数据,从而开发更强大且具有通用性的模型。
网络爬虫带来了各种法律挑战,包括数据保护、版权和合同法相关问题。网站内容如文字、图片和数据通常受版权保护,未经版权持有人的许可进行爬取可能会导致侵权指控。
许多网站在其服务条款中禁止爬虫,违反这些条款也可能导致对网络爬虫运营者的法律诉讼。
网络爬虫的数据保护影响
欧盟《通用数据保护条例》(GDPR)将个人数据定义为“与已识别或可识别的自然人相关的任何信息”。网络爬虫在未经个人知情或同意的情况下收集个人数据(包括敏感数据),因此带来了重大数据保护挑战。
在欧盟,数据保护法律限制了网络爬虫的合法使用。GDPR将处理定义为对个人数据的任何操作,包括收集、组织、存储、修改、检索、使用和传播。由于网络爬虫涉及这些活动,因此运营者被视为数据控制者,这意味着他们必须遵守控制者的义务,包括拥有合法的数据处理基础、具有合法目的(如训练模型)并遵守透明性、数据最小化、存储限制、准确性、安全性、保密性、完整性和问责原则。
根据GDPR,任何个人数据的处理都必须有合法基础。虽然《欧洲人工智能法》旨在建立人工智能系统部署和运营的综合法律框架,但目前尚未为收集个人数据以训练AI工具提供具体的法律基础。
相反,《人工智能法》关注AI沙盒和开发环境内的数据处理,将初始数据收集的合理性留给GDPR管理。因此,使用网络爬虫的组织必须确保其在GDPR下具有合法基础,以处理普通和特殊类别的个人数据,考虑各种法律基础:
同意:由于自动化和大规模数据收集的实际困难,以及AI的“黑箱”特性,同意在网络爬虫中通常不是有效的法律基础。
履行合同所必需:需要数据控制者和数据主体之间有直接合同关系。网络爬虫通常没有与数据主体的直接合同关系,因此这一法律基础通常不适用于网络爬虫活动。
当网络爬虫捕获特殊类型的个人数据(如健康信息)时,GDPR第9条规定的额外限制也适用,包括需要明确同意或满足特定条件,如基于重大公共利益或科学研究目的进行处理。
网络爬虫的数据收集的正当利益
欧洲数据保护委员会的ChatGPT特别工作组报告明确指出,训练数据的收集、数据预处理和训练是不同的数据处理目的,每个目的都需要有确立的法律基础。这与法国数据保护局(CNIL)的指导意见一致,该指导意见区分了训练和使用AI系统的不同阶段,指出了每个阶段的风险。
工作组提醒我们,正当利益基础的法律评估必须考虑三个关键标准:
正当利益的存在;
处理的必要性,确保数据是适当的、相关的且限于必要;
以及利益平衡。
这需要仔细评估数据主体的基本权利和自由与控制者的正当利益,考虑到数据主体的合理期望。工作组建议的保障措施包括定义精确的收集标准并确保排除某些数据类别或来源,如公共社交媒体个人资料。
荷兰数据保护局(AP)在其指南中指出,只有法律保护的利益才算正当利益,纯粹的商业利益是不够的。CNIL表示,“开发AI系统的商业目的是正当利益基础使用的法律基础并不矛盾。”AP指出,如果组织或第三方有额外的法律认可的利益,如改善欺诈预防或信息技术安全系统,则可以确立正当利益。
AP的立场表明,确立网络爬虫的正当利益是具有挑战性的,且通常不可行。相反,EDPB的ChatGPT工作组强调了逐案评估的必要性,考虑到“普通”个人数据和特殊类别的个人数据的收集和处理,并要求采取额外的保障措施。
AP、EDPB的ChatGPT工作组报告和CNIL还建议使用特定的保障措施,以利于依赖网络爬虫技术的数据控制者。CNIL列出的保障措施包括确保数据最小化的强制性措施,如设定精确的数据收集标准和应用过滤器以排除不必要的数据(如银行交易、地理位置和敏感数据),以及一旦识别到无关数据就立即删除无关数据(如在论坛上收集评论内容时收集化名);以及应用补充保证。
这些补充保证可能包括:
排除来自包含敏感信息的预定义站点的数据收集,如色情网站、健康论坛和主要由未成年人使用的社交网络、家谱网站或包含广泛个人数据的网站。
避免从明确禁止爬虫的站点(通过robot.txt或ai.txt文件)收集数据。
对反对特定网站数据收集的个人实施黑名单,即使在收集开始之前。
确保个人有权反对数据收集。
限制数据收集仅限于自由访问的数据和明确公开的用户数据,从而防止失去对私人信息的控制(例如,排除私人社交网络帖子)。
在收集后立即应用匿名化或假名化措施以增强数据安全。
通过网络爬虫通知向用户告知受影响的网站和数据收集实践。
除非对开发AI系统有必要,否则防止个人数据与其他标识符进行交叉引用。
在CNIL注册联系信息以通知个人并使其能够根据GDPR行使其权利。
结论
网络爬虫是AI开发的核心,但带来了重大法律挑战,特别是在数据保护方面。尽管GDPR下的数据控制者或第三方的正当利益可以作为数据收集的法律基础,但必须确立正当利益并与数据主体的权利平衡,且必须实施全面的保障措施以减轻法律风险。随着监管环境的发展,包括《人工智能法》,将可能进一步明确允许的数据收集实践,但目前的不确定性需要谨慎和负责任的数据处理实践。
AITrust人工智能治理开放社群是一个聚焦AI治理的高端开放及共享平台,一个整合法律、技术及管理的AI治理专家共同体,一个制造干货、相互赋能及塑造职业品牌的AI治理生态体。AI Trust将持续举办沙龙、读书会、论坛、年度大会等开放性活动,并同时提供首席人工智能官CCAIO系列培训、ISO/IEC42001人工智能管理体系认证、欧盟人工智能法合规咨询、AI安全及技术落地等前沿服务。现招募“AI Trust×”共建活动的合作单位及AI大咖!
微信扫码关注该文公众号作者