近期,随着以ChatGPT为杰出代表的人工智能(Artificial Intelligence,“AI”)软件一次次“火爆出圈”,针对AI软件功能、价值、意义等多领域的讨论也从原先的仅限于技术圈内部扩散至社会全域。2023年2月27日,中共中央、国务院印发《数字中国建设整体布局规划》(“《规划》”),《规划》指出,要全面赋能经济社会发展,推动数字技术和实体经济深度融合,在农业、工业、金融、教育、医疗、交通、能源等重点领域,加快数字技术创新应用。AI作为支撑数字经济发展的重要基础设施,正在与各行业典型应用场景相融合,将为我国数字经济发展提供核心驱动力。
商业实践中,AI软件发挥作用的方式通常体现为AI企业将其研发的AI软件许可给使用者,以收取许可费的形式盈利。如何合理安排AI软件许可协议中双方的权利义务,特别是知识产权和数据相关条款如何设计,在该等业务模式下至关重要。以下,我们将基于AI软件与传统软件的区别,对AI软件许可协议中知识产权和数据条款设计所应当包含的要素进行探讨。
一、AI软件与传统软件的区别
1.软件开发方式
对于传统软件而言,软件开发者更关注的是软件的功能需求,即软件必须实现的功能。因此,软件开发者需要通过使用各种模型对相关功能需求进行描述,数据处理等规则往往已经被事先设计确定。而对于AI软件而言,功能需求相对并不那么重要,模型训练则十分关键,模型开发者通过使用大量的数据对待训练模型进行持续训练,使之归纳出处理新数据的规则。待训练模型通过学习知识成为具有推理和决策能力的训练后模型,从而实现智能化。因此,相比于传统软件,AI软件开发者更关注的是模型、训练模型的数据以及支撑模型训练的算力。
2.数据使用方式
在传统软件开发过程中,由于没有模型训练的环节,软件开发者一般不需要收集并使用大量的数据。而在AI软件的开发过程中,软件开发者则必须借助大量且高质量的数据对模型进行训练,并在训练过程中不断优化参数以提高运行效率和准确性。训练数据通常根据具体的应用场景进行确定。以计算机视觉应用场景为例,尽管利用一些现有的开源数据也可以对模型进行训练,但是这些数据通常不能很好地满足特定的视觉应用场景需求,解决上述问题的关键在于如何采集足够多的来自于实际应用场景的真实图像或视频数据,并对这些数据进行一定的处理,例如数据清洗、数据标注等。
3.软件部署方式
从软件使用者角度出发,AI软件的安装部署方式与传统软件可能并无明显差异,但是从运营方式和商业模式来看,二者还是存在一定区别。对于传统软件而言,其对算力的要求相对较低,因此通常是由企业购买后安装在其自有服务器上,相关数据也通常存储在本地计算机或服务器中。而对于AI软件而言,新兴应用场景产生的海量数据对AI算力的需求持续加大,例如云游戏、自动驾驶等对数据传输的速度和量级都提出了更高的要求,而通过云计算和云部署的方式便可以在很大程度上解决上述问题。在该等情形下,相关数据则被传输并存储在云端。
二、AI软件许可协议知识产权关注要点
鉴于上述提到的区别,相比于传统软件许可协议,AI软件许可协议在知识产权条款的设计方面也存在特殊的安排,尤其是在许可标的、知识产权权属、侵权风险以及责任承担方面。
1.许可标的及其知识产权权属
为了明确软件许可协议中不同知识产权的权属安排,我们有必要先对软件许可中常见的许可标的进行梳理。
(1)软件许可标的
在传统软件许可协议中,关于许可标的的安排一般会区分源代码和目标代码。源代码是由程序员用人类可读的语言编写的用于执行某些任务的代码,然后将文件保存为规定的格式,但该等代码未经编译无法被机器直接执行;而目标代码则是通过编译器将源代码转换而成的机器可直接执行的代码。由于目标代码通常难以被人类所理解,因此倘若需要对软件进行修改,例如增加定制化的功能模块,则往往需要对源代码进行修改。实践中,如果被许可方对软件的需求仅涉及运行和使用,一般不涉及源代码的交付;但是如果被许可方对软件的维护、调整、改进和升级有特定需求,许可方通常还需要向被许可方交付软件的源代码,并授予其源代码层面的许可。
如上文所述,在处理传统软件相关许可标的时,一种常见的思维模式是“程序员编程→源代码→编译→目标代码→机器执行”;而在面对AI软件时,上述思维模式可能需要予以进一步调整,这是因为还需要考虑到AI模型在整个软件开发过程中的作用。不同于传统软件通常直接由程序员编写源代码赋予功能,AI软件通常由算法工程师编写的训练程序训练而来,训练程序通过执行一定的算法,从训练数据中归纳出某些“推理规则”,这些“推理规则”代码化后便构成了训练后的AI模型。从上述意义上说,模型是程序产生的程序。
基于上述比较,回到AI软件许可协议许可标的的层面,应当专门对AI模型予以特别约定——如果被许可方仅需利用许可方已有的训练后模型,则被许可方根据许可协议取得训练后模型一定的使用权即可;但在很多场景下,被许可方需要的并非已有的训练后模型,而是定制化的训练后模型,对于该等定制化的训练后模型的权利归属、使用条款,双方有必要在许可协议中予以进一步约定。
(2)知识产权权属
在传统软件许可协议中,无论许可标的是目标代码还是源代码,双方均应当对相关知识产权的权属安排进行提前约定,以免后续产生纠纷。一般而言,软件许可协议的知识产权归属安排会根据时间顺序采用“三段式”的叙述逻辑,即背景知识产权、前景知识产权和改进知识产权。其中,背景知识产权是指协议一方在履行协议前拥有或取得的技术成果及相关知识产权,前景知识产权是指在双方合作期间产生的知识产权,而改进知识产权则是指对前景知识产权进行的修改、改编或提升,包括但不限于对前景知识产权相关的功能、性能、部件或模块的变更等。
在传统软件许可协议的谈判过程中,以前景知识产权为例,若许可方向被许可方提供目标代码或源代码层面的许可,相关前景知识产权的安排一般需要考虑双方的谈判地位。强势的一方通常会要求前景知识产权全部归其所有,在某些情形下可以考虑后续免费或附条件地许可另一方使用。倘若双方之间的谈判地位相当,则一般会约定由做出实质性贡献的一方享有相关前景知识产权。
而在AI软件许可协议中,由于许可标的涉及AI模型,相关前景知识产权在形成与权属约定方面则与传统软件许可协议存在诸多差异。如上文所述,模型是由训练程序从训练数据中归纳出的某种“推理规则”,在此过程中,训练数据的质量和标注精度对模型的准确性起到至关重要的作用,换言之,训练程序输入不同的训练数据后所输出的模型也不尽相同。一般而言,模型的训练分为静态训练(static training)和动态训练(dynamic training)两种,因此,模型也分为静态模型与动态模型。对于静态模型,模型训练好则长期投入使用,而对于动态模型而言,随着新数据的不断输入,通过对这些数据的整合,模型也将不断进行更新迭代。
因此,在AI软件许可中,若许可方许可的仅是静态模型,则被许可方在具体的应用场景下使用该等模型,模型不会在被使用时同步自我演化或改进,被许可方只能通过许可协议要求许可方向其定期提供更新后的模型。但是,若被许可方获得的是动态模型的许可,由于被许可方持续不断地向模型输入实际应用场景的数据,模型也将被不断训练进而形成新的版本。在该等情形下,由于模型在使用被许可方所提供的数据过程中实现了自我改进,被许可方本身便可以对该等改进所形成的前景知识产权主张相应的权利。即使在许可方较为强势进而主张相关前景知识产权为自己单独所有的情况下,被许可方也可以考虑要求许可方就最新版本的模型向自己提供一项免费的许可,对此,双方还应当在许可协议中进一步明确许可费、更新维护等相关事项。
(3)AIGC的保护
在传统软件许可中,许可方基于目标代码进行研发或创作的成果一般归属于被许可方,例如被许可方利用Word软件编写的文档在构成作品的前提下受到著作权法的保护。但是,在AI软件许可中,则面临关于人工智能生成内容(Artificial Intelligence Generated Content,“AIGC”)可版权性的讨论,对该问题的具体分析可以参见我们的上一篇文章《ChatGPT出品:谁是作者?》。整体而言,在现行法律体系下,AIGC很可能难以通过著作权进行保护,以合适的方式向AI使用者明确告知其享有的相关权益至关重要,例如在AIGC构成作品情况下的著作权归属、通过AIGC进行二次创作情况下的相关权益分配等。
2.知识产权侵权风险
当前,对AI知识产权相关问题的讨论更多围绕在AIGC“是否构成作品”以及“权利归属”等问题上,然而事实上,模型训练中可能产生的潜在知识产权侵权风险同样不能忽视。2023年2月15日,《华尔街日报》记者弗朗西斯科·马可尼发布推文称,ChatGPT模型的训练未经授权使用了大量主流媒体的新闻数据,包括路透社、纽约时报、卫报、BBC等,但从未支付任何费用[1]。
仅从我国著作权法相关法律法规(“著作权法”)来看,倘若ChaGPT模型对训练数据的使用行为无法满足作品“合理使用”构成要件,在未获得相关著作权人许可的情况下,可能构成著作权侵权。
(1)“合理使用”的适用困境
根据一般的著作权法理论,“合理使用”是指在特定情况下使用作品,可以不经著作权人许可,不向其支付报酬,但应当指明作者姓名或者名称、作品名称,并且不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益。这是因为著作权法的立法目的在于通过授予著作权人垄断权利来鼓励文学、艺术和科学领域的创作和传播,但有一些事项在立法者眼中具有更高的价值位阶,著作权人的垄断权力需要让位于这些事项(例如社会运行过程中对于知识和信息的最基本需求)。以我国著作权法为例,“合理使用”的事由包括但不限于“个人使用”“适当引用”“在时事新闻报道中使用”“在课堂教学和科学研究中使用”等。
尽管相关立法已经创设了多种可以适用“合理使用”的场景,但当我们将AI软件与“合理使用”的相关标准进行比对时,可能依然很难找到可以完全适用的条款。现行立法中与AI软件情形较为接近的合理使用情形主要包括“个人使用”、“适当引用”和“科学研究”三类,但在适用时均存在一定的困难:首先,AI软件大多数是面向不特定主体提供服务,难以符合“个人使用”的适用条件;其次,“适当引用”的前提是“为介绍、评论说明某一作品”或“说明某一问题”,ChatGPT等AI软件对作品的商业化使用行为也不符合上述目的;最后,“科学研究”对作品的使用必须是为了“学校课堂教学或者科学研究”,以及“供教学或者科研人员使用”,此外对使用的作品仅能“少量复制”,而AI模型训练由于需要使用大量的数据,对相关作品的复制并非“少量”,因此也难以满足上述要求。综上,仅从我国著作权法来看,利用已有作品进行AI模型训练的行为似乎很难构成“合理使用”。
(2)“许可使用”的现实障碍
若AI软件对作品的使用不构成“合理使用”,则必须取得相关作品著作权人的许可。但是,对于AI模型的训练数据而言,确保训练数据中包含的作品全部获得作品著作权人的许可在现实中并非易事。一方面,AI软件开发者需要花费大量的时间和成本将可能受保护的作品从训练数据中识别出来;另一方面,针对识别出来的受保护的作品,AI软件开发者还需逐一地与作品的著作权人进行协商取得其许可,并支付许可费用。考虑到不同作品许可谈判的难度以及AI软件开发的时效性,在实践中逐一取得相关作品著作权人许可的可行性可能并不高。
由此可以看出,AI软件开发过程中模型训练的特殊性不可避免地导致其可能存在侵犯第三方知识产权的风险。因此,在许可标的涉及AI模型的软件许可协议中,双方有必要对该等潜在的知识产权侵权风险以及双方的责任分配作出明确约定。知识产权不侵权保证条款是软件许可协议中的常见条款,一般而言,被许可方应当要求许可方就使用许可软件行为不侵犯第三方知识产权作出陈述与保证,并约定在侵犯第三方知识产权引发赔偿的情况下许可方所应承担的责任。
三、AI软件许可协议数据关注要点
AI软件许可标的的不同使得AI软件许可协议知识产权条款的设计应当有特殊的考量,而AI模型本身对数据天然的依赖性则要求协议双方在协商谈判时还应当特别关注数据的使用和权属、数据安全合规等在内的相关问题。
1.数据使用与权属
(1)数据使用
为了不断提升模型的性能,ChatGPT等AI模型一般还需要使用用户提供的数据作为模型训练的新数据来源。ChatGPT的使用条款规定:我们不会使用您提供给我们的API或从我们的API接收的内容(“API内容”)来开发和改进我们的服务。API内容仅用于提供和维护我们的API服务。我们可能会使用API以外的服务内容(“非API内容”)来帮助开发和改进我们的服务[2]。在《如何使用您的数据来提高模型性能》文档中,模型开发者进一步明确了使用相关数据的目的:AI模型最有用和最有前途的特性之一是它们可以随着时间的推移而改进。我们通过科学和工程突破以及接触现实世界的问题和数据不断改进我们的模型[3]。
许可方可以使用被许可方提供的数据对模型进行实时的训练以提高模型的准确性,但是在实践中,并非所有的被许可方均希望将自己收集的数据作为训练数据提供给许可方。与传统软件许可相比,被许可方的数据更容易被许可方当作训练数据用于其他模型开发,特别是,倘若许可方将利用被许可方数据开发的模型提供给被许可方的竞争对手,那么将会对被许可方的市场竞争产生巨大影响。因此,部分被许可方会在许可协议中明确约定许可方不能使用相关数据进行模型训练。即使被许可方获得的是动态模型的许可,也通常会对许可方使用相关数据的目的和范围进行限制,例如,若许可方不允许被许可方访问其全部客户群的聚合数据,则被许可方同样可以要求许可方就被许可方的数据对其他客户施加相同的访问限制。
(2)数据权属
在AIGC的可版权性成为人们的讨论焦点之余,AI相关数据的权属安排也是AI软件许可协议中双方绕不开的话题之一。正如我们在《数据交易协议:Checklist请收好》一文中所述,总体而言,数据可以分为原始数据和衍生数据。原始数据是数据采集时提供的、反映客观事物属性的记录,是不经过任何加工、创作或提取、编辑的数据。衍生数据是指基于特定的商业目的、通过运用一系列技术手段对数据进行筛选、分析、处理从而形成的数据。
AI软件的使用过程中可能涉及的数据主要有三类,包括模型训练阶段使用的训练数据以及模型使用阶段的输入数据和输出数据。其中,训练数据又包括原始训练数据和训练数据集。原始训练数据是指模型开发者直接收集的数据,理论上来说,AI模型接受的训练数据越多,其自我进化也会更快,但是这种情况必须建立在训练数据没有任何错误的基础上。因此,模型开发者往往会在原始训练数据的基础上进行一定的处理,例如数据清洗、数据标注、数据分组等,从而形成高质量和高精准的训练数据集用于模型训练。模型使用阶段的输入数据一般是具体应用场景下的原始数据,例如使用者的个人信息、受著作权保护的作品等;输出数据即为上文提及的AIGC。在动态模型训练中,模型使用阶段的输入数据和输出数据也有可能成为新的训练数据以进一步改进模型。模型开发者为了避免在AI模型实际应用过程中发生训练阶段无法预期的事件,可能会要求将使用阶段采集的数据作为训练数据来生成新的精度更高的模型。
目前为止,针对数据权属的问题虽尚未形成清晰的解决方案,但是一般认为对于原始数据权利的确认并不代表否认原始数据主体的权利。因此,就训练阶段使用的原始训练数据而言,相关数据主体应当对其享有相关权益。而对于经过模型开发者处理形成训练数据集而言,在模型开发者经过充分授权对原始训练数据进行了收集、清洗、标注等衍生开发后,模型开发者对经过自己合法数据活动形成的数据集合原则上应当享有占有、使用、收益和处分的权利。因此,在对衍生数据进行界定的前提下,各方可以基于自身的谈判地位以及各自的商业需求对衍生数据的权属进行安排。与原始训练数据类似,对于模型使用阶段的输入数据,相关权益也应当归属于输入数据主体。但是对于输出数据,在其法律属性界定尚存在争议的情况下,建议双方在协议中对相关数据的权益归属、使用方式等进行明确约定。
2.数据安全合规
如上文所述,AI模型训练、应用中涉及大量的数据,从行业维度来看,这些数据可以分为金融数据、交通数据、自然资源数据、卫生健康数据、科技数据等;从数据载体维度来看,这些数据可以分为音频数据、视频数据、图像数据、文字数据等;而从数据主体维度来分,上述数据又可以分为个人数据、企业数据和公共数据等。在AI模型训练和后续的许可中,无论是许可方还是被许可方,均应当特别注意数据的来源合规问题。此外,在确保数据来源合规的前提下,双方还应当就如何使用相关数据,使用相关数据所应当采取的安全保护措施等进行明确约定。
(1)数据来源合规
考虑到在AI软件许可协议中,数据的使用场景主要包括模型训练阶段对训练数据的使用以及模型使用阶段对输入数据的使用,且模型使用阶段收集的数据后续也可能成为新的训练数据,因此,无论是对于许可方还是被许可方,均应当确保自身使用的数据具有合法来源。一般而言,对于AI模型而言,获取数据的方式主要包括数据交易、自行采集和开放数据爬取。数据交易是指通过合法的交易方式从数据提供方处获取相关数据,自行采集是指通过APP、传感器、相机等方式直接采集数据,开放数据爬取则是指通过数据爬虫等方式获取开放的数据。对于数据交易和自行采集两种获取方式而言,最重要的是要确保如何取得相关数据权利主体的授权。而对于开放数据爬取而言,则更应当关注数据爬虫行为本身是否合法,例如爬虫所采取的技术手段是否突破数据访问控制、数据爬虫的使用目的是否正当等。
对于许可方而言,例如,在收集和使用个人数据进行模型训练时,可能存在的风险包括但不限于侵犯人格权和个人信息权。《中华人民共和国民法典》第一百一十条规定:“自然人享有生命权、身体权、健康权、姓名权、肖像权、名誉权、荣誉权、隐私权、婚姻自主权等权利。”第一百一十一条规定:“自然人的个人信息受法律保护。任何组织或者个人需要获取他人个人信息的,应当依法取得并确保信息安全,不得非法收集、使用、加工、传输他人个人信息,不得非法买卖、提供或者公开他人个人信息。”《中华人民共和国个人信息保护法》第二条规定:“自然人的个人信息受法律保护,任何组织、个人不得侵害自然人的个人信息权益。”以个人信息为例,除法律另有规定,许可方只有在取得个人信息主体同意的前提下才能处理相关个人信息。在该等个人信息来源于其他第三方的情况下,许可方至少还应当要求相关个人信息的提供方保证其提供的个人信息获得了个人信息主体的同意。
对于被许可方而言,一方面,其作为AI模型的使用方,可以在协议中要求许可方对其提供的模型不侵犯第三方权利作出陈述与保证,常见的陈述与保证条款例如:“模型的开发系根据适用法律法规的要求进行,模型的许可不会侵犯任何第三方的合法权益”。但是考虑到在不同的场景下双方谈判地位可能存在的差距,许可方同样也可以对己方的某些义务进行免除,由许可方作出的、典型的该等陈述与保证条款例如:“模型按‘现状’和‘可获得’方式予以授权,不附带任何种类的明示或默示保证,许可方对模型的使用不承担任何责任”。另一方面,在被许可方将模型使用阶段获取的数据提供给许可方以对模型进一步训练改进的情形下,被许可方同样需要履行相关合规审查义务,包括其向许可方提供数据的行为是否已获得了数据主体的充分授权,是否违反其应当履行的保密义务等。
(2)数据安全保护
由于AI软件的云计算和云部署等特点,在AI软件许可协议中,许可方的数据安全保护能力往往是被许可方关注的重点。如前文所述,在AI模型的使用阶段,其会采集各行业领域的不同类型的数据,这些数据中可能包括敏感个人信息,国家重要数据等对安全保护有特殊要求的数据。
以自动驾驶为例,智能驾驶汽车上集成的摄像头、激光雷达、导航仪等各类传感器,每时每刻都在收集车主本人、乘车人、驾驶人等的个人信息、车辆的环境信息以及车辆行驶信息等。根据《汽车数据安全管理若干规定(试行)》,车辆行踪轨迹、音频、视频、图像和生物识别特征等信息属于敏感个人信息,而军事管理区、国防科工单位以及县级以上党政机关等重要敏感区域的地理信息、人员流量、车辆流量等数据、汽车充电网的运行数据等则属于重要数据[4]。若汽车数据处理者对收集的上述数据进行不当使用,将可能导致个人信息主体的人身、财产安全以及国家安全受到损害。对此,法律法规规定汽车数据处理者在处理敏感个人信息时,应当符合特定要求,例如应具有直接服务于个人的目的,包括增强行车安全、智能驾驶、导航等;在处理重要数据时,应当按照规定开展风险评估并形成风险评估报告、报送汽车数据的安全防护和管理措施,包括保存地点、期限等[5]。
因此,在AI软件许可协议中,被许可方应当要求许可方对数据的采集、存储、使用、传输等各方面均采取充分的数据安全保护措施,防止数据被窃取、滥用、篡改或毁损,并对可能因数据安全问题导致的责任承担进行明确约定。此外,在AI软件许可领域,由于许可方很有可能是境外主体,在该等情形下,数据出境可能引发的数据安全相关问题应当引起被许可方的特别关注。倘若在使用AI软件过程中确实涉及数据出境,被许可方应当在协议中明确要求许可方遵守数据出境的合规要求和履行数据出境申报义务。例如,被许可方可以在协议中要求许可方承诺其对相关数据的使用应当遵守中国关于数据出境的相关法律法规。
四、结语
2022年7月29日,科技部等六部门印发的《关于加快场景创新 以人工智能高水平应用促进经济高质量发展的指导意见》提出,要着力打造人工智能重大场景、提升人工智能场景创新能力、加快推动人工智能场景开放以及加强人工智能场景创新要素供给。应用场景需求是技术进步的重要推动力,而如何合理安排“开发者”与“使用者”双方的权利义务则是人工智能应用场景落地的重要保障和关键一步。本文重点对AI软件许可协议中的知识产权和数据条款如何设计进行了探讨,在此基础上,交易双方可以结合具体的交易场景和交易类型进行量身打造,从而最大程度维护自身利益。
扫码下载文章
《陷入侵权风波!OpenAI遭媒体指责:白用我们的文章训练ChatGPT!》,财联社,https://m.cls.cn/detail/1270005.
https://openai.com/terms/.
https://help.openai.com/en/articles/5722486-how-your-data-is-used-to-improve-model-performance.
《汽车数据安全管理若干规定(试行)》第三条。
《汽车数据安全管理若干规定(试行)》第九条、第十条、第十三条。