引言
当前,生成式人工智能(generative artificial intelligence,以下简称“生成式AI”)的发展突飞猛进,而此过程需要海量数据的支持,尤其是在模型训练阶段。故而,实践中很多生成式AI模型的训练往往依赖于爬虫工具从互联网上大量爬取数据。[1]例如,OpenAI公司的ChatGPT模型曾通过互联网爬取第三方网站中的电子书籍、文章、数据库等570GB、超过3000亿个单词用于训练AI模型。[2]
然而,在AI模型训练中的爬虫行为如火如荼开展的同时,也需警惕爬虫行为所带来的以下几方面法律风险:
(1)知识产权侵权:当AI公司对第三方网站上受版权保护的内容,如文章、图片、音乐、视频等进行爬取时,可能构成版权侵权;
(2)个人信息侵权:若第三方网站上包含个人信息,如姓名、身份证号、地址、电话号码、电子邮件等,AI公司未经授权对其进行爬取可能会违反个人信息保护的相关法律法规;
(3)构成不正当竞争行为:在受版权保护的作品和个人信息之外,还有大量可爬取的他人享有权益的数据。若爬虫行为的规模和频率异常、爬虫行为突破了第三方网站的限制措施、对其他经营者的网络产品或服务构成了实质性替代、违反了Robots协议进行爬取等,则可能构成法律所规制的不正当竞争行为。
囿于篇幅所限,本文仅从反不正当竞争的角度出发,简单介绍欧盟及我国对AI模型训练中针对非版权作品、非个人信息的“其他数据”进行爬虫行为的监管态度,并通过中国的相关案例介绍,试图探讨在AI时代反不正当竞争法的适用考量。
一、欧盟
(一)《欧盟人工智能法案》与《欧盟数据法案》的适用范围
1. 《欧盟人工智能法案》
2024年5月21日,欧盟理事会(the Council of the European Union)宣布最终批准《欧盟人工智能法案》(EU Artificial Intelligence Act,下称“《人工智能法案》”),并于2024年7月12日在《欧盟官方公报》(The Official Journal of the European Union)上正式印发了其最终文本。[3]
就AI训练中的爬取数据而言,《人工智能法案》对爬取到的数据属于“受版权保护的作品”或“个人信息”的情况进行了相应规定。具体而言,若爬取数据属于受版权保护作品,则根据《人工智能法案》第53条第一款(c)项规定,[4]AI模型提供者“应制定相应政策以遵守欧盟关于版权和相关权利的法律,特别是确定和遵守欧盟《数字化单一市场版权指令》(Directive on Copyright in the Digital Single Market)第4条第3款的相关内容”。[5]同时,若爬取数据属于个人信息,那么除了遵循欧盟《通用数据保护条例》(General Data Protection Regulation,以下简称“GDPR”)之外,《人工智能法案》第5条第1款(e)项也明文禁止了“从互联网中无针对性地抓取面部图像,在市场上投放、为特定目的投入使用或使用AI系统来创建或扩大面部识别数据库的行为”。[6]
2. 《欧盟数据法案》
那么对于那些既不属于版权作品,又不是个人信息的其他数据,其监管状况如何呢?
2023年12月22日,欧盟发布了第2023/2854号法规,即《欧盟数据法案》(EU Data Act,下称“《数据法案》”),并于2024年1月11日生效,且将于2025年9月12日起适用于整个欧盟。[7]《数据法案》规定了欧盟范围内数据访问、云服务提供商转换和互操作性要求的统一规则。[8]该法案旨在规范通过互联网设备生成的数据(和元数据[9],metadata)的使用和访问,为互联网产品或服务的用户提供更多权利,增加数字市场的竞争,特别是加强中小企业的竞争地位。[10]
《数据法案》所适用的数据范围涵盖了互联产品(connected products)[11]和相关服务(related services)[12]。在适用主体方面,《数据法案》定义了与数据使用和共享相关的三个主体,即用户(user)、数据持有者(data holder)和数据接收者(data recipient)。[13]具体而言:
(1)用户是指拥有或通过合同转让临时使用互联产品,或接受相关服务的自然人或法人,[14]比如通过互联产品监控产品质量的生产线设备公司,其可以要求数据持有者向数据接收者提供互联产品或服务生成的数据。
(2)数据持有者是指持有数据并能访问数据的自然人或法人,[15]比如负责接收和处理用户生产线机械性能数据的生产线机械制造商,其有权或有义务使用和提供数据,包括在合同约定的情况下,在提供相关服务过程中检索或生成产品数据或相关服务数据。
(3)数据接收者是指应用户要求从数据持有者处接收数据的自然人或法人,[16]比如接收数据以监控用户生产线机器翻新需求的第三方维修公司。
对于爬取数据并用于AI训练这一行为而言,《数据法案》第11条第1款规定,数据持有者可应用适当的技术保护措施,包括智能合约和加密,以防止未经授权访问数据,但这些技术保护措施不得歧视数据接收者或妨碍用户获取、检索、使用或访问数据的权利。[17]因此,对于数据持有者采用互联产品或相关服务所收集的数据,其他主体在未经授权时,不得通过爬虫工具爬取后进行AI训练或应用于其他场景。而在获取授权后,此种数据可以向合格的数据接收者开放,[18]并供其进行AI训练。此外,AI训练仍需符合欧盟的其他法律法规要求,如GDPR。
二、中国
(一)法律规定
在《网络反不正当竞争暂行规定》(以下简称“《暂行规定》”)出台前,我国并没有法条专门从反不正当竞争法角度规制爬虫行为。2017年,我国《反不正当竞争法》修订,其中新增第12条(“互联网专条”)[19],填补了我国规制互联网不正当竞争行为的空缺,但其并未直接提到爬虫行为。在确定被告未经许可爬取或使用原告的数据等被诉行为是否构成不正当竞争方面,法院通常会依据《反不正当竞争法》第2条一般条款或第12条互联网专条处理案件。
2024年5月11日,《暂行规定》正式出台,其中第19条[20]明确规定了非法获取和使用数据的行为不得妨碍其他经营者提供的网络产品或服务的正常运行,并扰乱市场竞争秩序。这一条款对前文提到的《反不正当竞争法》第12条进行了细化,明确了非法获取、使用数据的行为不得妨碍网络产品或服务的正常运行或扰乱市场秩序,否则将有可能构成不正当竞争行为。
(二)司法实践
目前,我国尚无AI模型训练中爬虫行为不正当竞争的司法案例。但通过之前的司法案例,我们可以观察到国内法院对于爬虫行为不正当竞争案件的裁判思路基本如下:
(1)对被爬取数据的类型区分保护(如2023年广东高院审理的国内首例涉数据爬取交易不正当竞争纠纷案——“W公司诉J公司案”[21]):根据持有数据的主体来分,可以分为个人信息、公共数据以及其他民事主体持有的数据;根据数据的获取方式来分,可以分为直接收集数据、通过Open API[22]间接获取的数据以及原始数据经过分析加工后形成的数据产品等。[23]
在“W公司诉J公司案”中,广东高院认定被告J公司非法爬取微博数据,包括大量W公司用户使用数据[24]、平台服务数据[25]以及W公司大数据产品“微指数”产品数据,并对外销售,侵犯了W公司公司和用户的数据权益,违反了公平和诚信的市场原则,构成不正当竞争。广东高院在判决中指出,即使数据在网页前端公开,也不意味着它们可以被随意爬取并用于商业用途,即便后台传输的数据与前端公开的数据在信息内容上相同,亦不意味着后台数据即公开,可以任由他人随意获取。
虽然“W公司诉J公司案”并不涉及AI,但其可以为AI训练中爬虫行为的违法认定提供借鉴。在AI训练中爬取数据时,应当区分不同数据来源,并取得相关合法性授权或履行相关合规义务。具体来说,需要确保个人数据在收集和使用前已告知用户并取得同意;公共数据的使用不得损害国家和社会的公共利益;来源于其他民事主体的数据使用需获得数据所有者的同意;通过Open API接口间接获取的数据必须获得平台和用户的授权;而经过分析、加工形成的数据产品,则需确保原始数据来源的合法性。[26]
(2)对爬虫行为及之后的数据使用行为的正当性进行认定(如2020年北京海淀法院审理的“W公司诉Z公司不正当竞争案”[27],以及2023年浙江高院审理的“T公司数据搬家案”[28]):譬如数据爬取的规模和频率是否异常、爬虫行为是否突破第三方网站的限制措施、是否对其他经营者的网络产品或服务构成实质性替代、是否违反Robots协议[29]等。
例如,2020年,北京海淀法院对“W公司诉Z公司不正当竞争案”进行了宣判。原告W公司发现被告Z公司(涉案App运营商)未经授权,擅自利用技术手段爬取W公司App上的明星动态数据,并在涉案App中向用户推送和展示这些数据。北京海淀法院在审理中认为,尽管Z公司明知W公司在其Robots协议中明确限制了数据爬取,却仍然进行了爬取行为,具有明显的主观恶意。综合考虑案件其他事实,法院最终认定Z公司的行为构成了不正当竞争。
2023年,浙江高院对“T公司数据搬家案”进行了审理。在本案中,被告通过技术手段非法获取T公司平台上的大量数据,包括商品信息和用户评论数据等,在其他网络购物平台向未经授权的用户付费提供“搬家大师”、“上货专家”软件服务。在此案中,浙江高院认为,被告所提供的搬家软件绕过、突破了T公司电商平台的反爬措施及验证机制,未经授权访问并实现了对T公司电商平台大量商品数据的复制、搬运,破坏了T公司合法持有的数据集合的完整性、可用性,侵害了其数据资源持有权益,构成不正当竞争行为。
(3)从竞争者自由竞争利益角度、消费者利益角度以及社会公共利益角度考量,爬虫行为是否对市场竞争秩序产生了不利影响:如2021年杭州铁路运输法院审理的“S公司平台搬运T公司平台数据案”[30]。
在“S公司平台搬运T公司平台数据案”中,原告T公司发现被告S公司通过技术手段大规模爬取T公司平台数据并提供对外数据服务。原告认为,被告的行为不仅突破了平台的技术措施,还妨碍了平台的正常运行,构成不正当竞争。杭州铁路运输法院在审理此案时,考虑到了反不正当竞争法中“三元叠加”的保护目标,即将竞争者自由竞争利益、消费者利益和社会公共利益作为评价要素,评价行为的不正当性。
首先,从竞争者自由竞争利益角度考量,杭州铁路运输法院认为,为避免其他经营者的恶性搭便车行为,原告T公司对其平台的经营享有的竞争利益应当受到保护,这也有助于维护网络平台的创新动力和大数据市场的健康竞争。其次,从消费者利益出发,被告未经授权公开展示T公司平台上文章的发布时间、点赞数、阅读数等,未尊重信息发布主体的意愿,侵犯了消费者的知情权和选择权。最后,从社会公共利益角度考量,S公司平台爬取和展示T公司平台数据的方式并未对数据进行深度挖掘或创新应用,未能提升社会整体的公共利益,且数据来源不正当,因此难以认定其行为的正当性。
结语
当然,AI模型训练过程中的爬虫行为具有区别于传统爬虫行为的特殊性。例如,其在获取数据后,会迅速将这些数据输入到AI大模型中进行训练,然后再输出结果。这一过程与传统爬取数据后未经处理直接搬运的方式有所不同。因此,这也可能引发一些与传统爬虫行为不同的问题,譬如:
(1)第三方平台中的公开数据能否被爬取后直接用于AI训练?此种行为是否会构成不正当竞争行为?
(2)无视AI时代新出现的“禁止AI标签”(no AI tag)来爬取数据并将其用于AI训练的行为,是否会构成不正当竞争行为?
(3)若AI训练中的爬虫行为构成不正当竞争行为,其后的使用行为是否也将构成不正当竞争行为?
未来,可以预见会有越来越多的司法案例涉及AI训练爬虫行为的不正当竞争,我们将持续关注这些案例的发展,观察我国法院如何适用《暂行规定》来评判爬虫行为在AI训练中的正当性。通过司法实践的持续更新,我们期待能够进一步明确其法律边界,为AI行业的健康发展提供更坚实的法律保障。
感谢王默、赵怡冰,实习生肖漪涟对本文作出的贡献。
扫码订阅“金杜律师事务所”,了解更多业务资讯
Hamza Aldabbas et al, Google Play Content Scraping and Knowledge Engineering using Natural Language Processing Techniques with the Analysis of User Reviews, 21 JOURNAL OF INTELLIGENT SYSTEMS 192, 193 (2020).
Behind ChatGPT’s Wisdom: 300 Bn Words, 570 GB Data, Dec. 15, 2022, https://analyticsindiamag.com/behind-chatgpts-wisdom-300-bn-words-570-gb-data/, last visited on July 30, 2024.
The Act Texts, https://artificialintelligenceact.eu/the-act/, last visited on July 30, 2024.
EU AI Act, Article 53 1(c): Providers of general-purpose Al models shall: ... put in place a policy to comply with Union law on copyright and related rights, and in particular to identify and comply with, including through state-of-the-art technologies, a reservation of rights expressed pursuant to Article 4(3) of Directive (EU) 2019/790.
Directive on Copyright in the Digital Single Market (2019/790), Article 4(3): The exception or limitation provided for in paragraph 1 shall apply on condition that the use of works and other subject matter referred to in that paragraph has not been expressly reserved by their rightholders in an appropriate manner, such as machine-readable means in the case of content made publicly available online.
EU AI Act, Article 5 1(e): The following AI practices shall be prohibited: … the placing on the market, the putting into service for this specific purpose, or the use of AI systems that create or expand facial recognition databases through the untargeted scraping of facial images from the internet or CCTV footage.
The interfaces between artificial intelligence and the Data Act, Jan. 9, 2024, https://www.taylorwessing.com/en/insights-and-events/insights/2024/01/the-interfaces-between-artificial-intelligence-and-the-data-act, last visited on July 30, 2024.
The EU Data Act (5): In addition, this Regulation seeks to facilitate switching between data processing services and to enhance the interoperability of data and of data sharing mechanisms and services in the Union. This Regulation should not be interpreted as recognizing or conferring any new right on data holders to use data generated by the use of a connected product or related service.
元数据是指是一群数据,其内容提供了有关于另一群数据的信息。即最小的数据单位,为数据说明其元素或属性(名称、大小、数据类型),或其结构(长度、字段、数据列),或其相关数据(位于何处、如何联系、拥有者)等。
The EU Data Act: A new European legal framework with rules for data access, switching cloud providers and interoperability, Jan. 24, 2024, https://www.wilmerhale.com/insights/client-alerts/20240124-the-eu-data-act-a-new-european-legal-framework-with-rules-for-data-access-switching-cloud-providers-and-interoperability, last visited on July 30, 2024.
例如物联网产品(Internet of Things, loT),如互联汽车、医疗和健身设备等。
例如调节灯光亮度或调节冰箱温度的应用程序所收集的数据(包括个人信息和非个人信息,若为个人信息时,还应当遵循GDPR的相关规定)。
The EU Data Act: What does it mean for you?, https://www.deloitte.com/lu/en/Industries/technology/perspectives/the-eu-data-act-what-does-it-mean-for-you.html, last visited on July 30, 2024.
Data Act, Article 2(12): ‘user’ means a natural or legal person that owns a connected product or to whom temporary rights to use that connected product have been contractually transferred, or that receives related services.
Data Act, Article 2(13): ‘data holder’ means a natural or legal person that has the right or obligation, in accordance with this Regulation, applicable Union law or national legislation adopted in accordance with Union law, to use and make available data, including, where contractually agreed, product data or related service data which it has retrieved or generated during the provision of a related service;
Data Act, Article 2(14): ‘data recipient’ means a natural or legal person, acting for purposes which are related to that person’s trade, business, craft or profession, other than the user of a connected product or related service, to whom the data holder makes data available, including a third party following a request by the user to the data holder or in accordance with a legal obligation under Union law or national legislation adopted in accordance with Union law;
Data Act, Article 11(1): A data holder may apply appropriate technical protection measures, including smart contracts and encryption, to prevent unauthorised access to data, including metadata, and to ensure compliance with Articles 4, 5, 6, 8 and 9, as well as with the agreed contractual terms for making data available. Such technical protection measures shall not discriminate between data recipients or hinder a user’s right to obtain a copy of, retrieve, use or access data, to provide data to third parties pursuant to Article 5 or any right of a third party under Union law or national legislation adopted in accordance with Union law. Users, third parties and data recipients shall not alter or remove such technical protection measures unless agreed by the data holder.
《数字市场法案》(Digital Markets Act, DMA)所规定的“守门人”(gatekeepers)不属于合格的数据接收者,原因在于其在数据获取方面具有显著优势。因此,为了保护中小企业,《数据法案》认为进一步将其作为合格的数据接收者可能导致数据分配的不公。欧盟委员会指定了六家“守门人”:Alphabet、亚马逊、苹果、字节跳动、Meta和微软,参见Digital Markets Act: Commission designates six gatekeepers, Sep. 6, 2023, https://ec.europa.eu/commission/presscorner/detail/en/ip_23_4328, last visited on July 30, 2024.
《反不正当竞争法》第12条:经营者利用网络从事生产经营活动,应当遵守本法的各项规定。经营者不得利用技术手段,通过影响用户选择或者其他方式,实施下列妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为:(一)未经其他经营者同意,在其合法提供的网络产品或者服务中,插入链接、强制进行目标跳转;(二)误导、欺骗、强迫用户修改、关闭、卸载其他经营者合法提供的网络产品或者服务;(三)恶意对其他经营者合法提供的网络产品或者服务实施不兼容;(四)其他妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为。
《网络反不正当竞争暂行规定》第19条:经营者不得利用技术手段,非法获取、使用其他经营者合法持有的数据,妨碍、破坏其他经营者合法提供的网络产品或者服务的正常运行,扰乱市场公平竞争秩序。
广东省高级人民法院(2022)粤民终4541号民事判决书。
Open API(Open Application Programming Interface),直译为开放应用编程接口,也称开放API、开放平台,网站服务商把网站的服务封装成一系列计算机易识别的数据接口开放出去,供第三方开发者使用。
祝建军.数据财产权益应采用反不正当竞争法保护模式[J].知识产权,2024,(06):80-92.
包括用户名、所在地、生日、简介、注册时间、工作信息、教育信息、标签信息等,微博用户在微博平台上发布的文章、视频、音乐、图片等,以及对微博内容的评论等内容。
包括对微博内容的转发、点赞、关注、粉丝等数量,为每个微博用户、微博文章等所设置的UID、ID号,微博用户等级等。
祝建军.数据财产权益应采用反不正当竞争法保护模式[J].知识产权,2024,(06):80-92.
北京市海淀区人民法院(2017)京0108民初24512号民事判决书。
浙江省高级人民法院(2023)浙民终1126号民事判决书。
Robots协议全称为Robots Exclusion Protocol,即机器人排除协议,也称作爬虫协议,是一种存放于网站根目录下的ASCII编码的文本文件robots.txt,其并不具有强制禁止访问的作用,而是靠爬虫工具的自觉遵守。通过设置Robots协议,可以告诉爬虫工具哪些网站可以进行爬取,哪些网站不能进行爬取,从而避免爬虫工具进行无意义的爬取,造成资源的浪费。当爬虫工具对一个网站进行访问时,其首先会对该网站是否存在robots.txt进行检查,若存在,爬虫工具就会按照其中的内容确定访问的范围,若不存在或内容为空白,则爬虫工具就能够访问网站上所有没有被口令保护的页面。
杭州铁路运输法院(2021)浙8601民初309号民事判决书。