标签:知识产权-知识产权交易,数字经济,电信、传媒、娱乐与高科技-数据及隐私权保护
引言
2023年7月31日,苹果APP Store宣布对中国大陆区中大量提供Chat GPT类服务的应用进行集中下架。在面向应用开发者给出的回复中,苹果官方表示相关应用未依据中国大陆地区的法律要求取得许可证,故“需下架整改,整改完毕上架”。某种角度而言,该情况可以理解为《生成式人工智能服务管理暂行办法》(“《AIGC暂行办法》”)施行在即引发的“连锁反应”。2023年8月15日即将施行的《AIGC暂行办法》是我国亦是全球针对生成式人工智能服务领域制定的首部法规,其中提出了对生成式人工智能服务的分类分级监管要求,明确了提供和使用生成式人工智能服务总体要求,一定程度上,其标志着我国生成式人工智能服务领域进入强监管和高合规标准的新阶段。
实际上,我国对生成式人工智能服务的合规监管的强化早已有迹可循。早在今年年初,国家互联网信息办公室、工业和信息化部、公安部针对深度合成服务制定的《互联网信息服务深度合成管理规定》(“《深度合成管理规定》”)顺利施行,其明确了深度合成服务相关方的义务与主体责任,强化了对互联网信息服务深度合成领域的管理。《AIGC暂行办法》将与《深度合成管理规定》一并为我国大模型领域构建更为完善的治理和监管框架。
本文将对我国监管体系项下的大模型领域的合规要素予以梳理,并重点关注现实环境下,梳理当前落地应用的大模型主要的合规义务。
一、什么是大模型?
1. 大模型——内含大量参数的深度学习模型
大模型,即Foundation Models,通常是指具有大量参数和复杂结构的深度学习模型。这些模型的参数量较大,通常需要数十亿甚至上百亿个参数,相较于传统的较小规模模型,大模型具有更高的容量和表达能力。大模型可以通过训练大规模数据集,以实现更准确的预测和更高的性能,并依据相关指令,完成各种目标任务。我们熟知的OpenAI的ChatGPT与Google的Alpha Go就是典型的语言类大模型:ChatGPT以Transformer模型为基础,具有1750亿个参数;而Alpha Go具有超过1亿个参数。
根据百度、华为等企业近期密集发声的情况来看,目前企业应用大模型主要体现为以下三种模式:一是自主构建基础大模型,但是考虑到训练大模型的成本和技术壁垒都非常高,因此只有少数企业会自建大模型。二是建立行业大模型,通常是了解行业know-how的企业,结合自身掌握的行业数据,用基础大模型精调出更贴合实际场景的垂类行业大模型。三是在基础大模型和行业大模型之上,开发AI应用,这也是目前大多数企业采取的模式。[1]
2. 以大模型为技术基石的生成式人工智能
生成式人工智能,是以大模型为技术基石、继专业生产内容(Professionally-Generated Content,PGC)、用户生成内容(User-Generated Content,UGC)之后的新型内容创作方式。在大模型的支撑下,早期生成式人工智能在文本生成领域以内容创作为主,后逐渐向音频生成、图像生成等领域推广,逐步在企业端和消费者端领域实现变现,并完成了在消费、产业、学术等诸多场景的落地和应用。目前,微软已将ChatGPT嵌入到微软各大系列产品,包括将GPT-4接入搜索引擎New Bing和Edge浏览器、推出集成New Bing和其他插件的AI助手平台Copilot以应用于Office、协作软件Teams以及其他商业应用;同时,OpenAI也正在着手打造基于语言类大模型的应用商店,打通所有接入ChatGPT的应用体系。
总体而言,大模型在自然语言处理、图像识别、语音识别等领域取得了显著的成果,带来了更精准和高效的机器学习和人工智能应用。但是,大模型的迅速推广应用引发了一系列隐患,如大模型服务被恶意利用开展违法犯罪活动、协助罪犯进行“AI”诈骗;又如部分高校师生利用大模型大量生成文章或者研究内容,在学术造假、学术不端的同时,也可能不知不觉侵犯了潜在权利人的知识产权;此外,还引发了虚假信息传播、数据和隐私信息泄露、偏见歧视等诸多问题。因此,大模型的推广应用,势必伴随着系统规范的大模型合规监管体系。
二、大模型合规要素
在我国当前的监管体系下,大模型合规要素主要涉及的范畴包括平台运营合规、内容合规、平台管理合规、网络安全与数据合规、算法技术合规、国际联网合规等方面,具体合规要素以及相应的法律法规依据详见下图:
大模型合规要素一览
三、大模型合规相关概念解析
以下,我们首先对上述合规要素提及的“生成式人工智能技术”、“深度合成技术”、“算法推荐技术”、“具有舆论属性或社会动员能力的互联网信息服务”等大模型合规的重要概念解析如下:
需要说明的是,大模型的核心概念其实是“深度学习+自动生成”,而生成式人工智能技术、深度合成技术和算法推荐技术并非相互独立,三者相互配合运作才形成了完整的大模型结构。同时,在满足一定条件的情况下,基于生成式人工智能技术、深度合成技术和算法推荐技术所提供的服务会成为具有舆论属性或社会动员能力的互联网信息服务,而该等服务需要满足特殊的合规要求。
四、大模型合规义务承担主体
1. 大模型服务提供者
大模型服务提供者,即利用大模型技术提供服务的组织、个人。具体来讲,大模型服务提供者又分为以下两类:
- 平台运营方
平台运营方是指负责大模型的商业性开发,依据相关规定取得相应资质证照,承担相应义务与责任,提供大模型技术应用服务的组织、个人。在大部分情形下,平台运营方针对的是面向终端消费者的大模型应用场景,比如百度文心一格网站,抖音快手上面的一些AI特效功能。
- 技术支持方
技术支持方是指负责大模型的技术性开发的组织、个人。技术支持方是大模型的设计者、开发者和完成者,掌握着大模型背后的核心算法和运行规则,负责处理数据训练、生成内容标记、模型优化等技术性事项。在大部分情形下,技术支持方针对的是面向企业的大模型应用场景,通常以API形式为企业等提供大模型技术支持。
在《深度合成管理规定》中,合规主体分为“深度合成服务提供者”和“深度合成服务技术支持者”,分别对应上述“平台运营方”和“技术支持方”;而《AIGC暂行办法》《算法推荐管理规定》等相关法律法规均未对“生成式人工智能服务提供者”、“算法推荐服务提供者”进行进一步区分。尽管如此,根据该等规定项下“人工智能服务提供者”、“算法推荐服务提供者”责任和义务相关的具体规定,“平台运营方”和“技术支持方”同样需要依据其提供的服务内容及类型承担不同的责任和义务。例如,负责模型训练的技术服务方应当确保训练数据的来源合法合规,而不参与模型训练、不涉及训练数据处理活动的平台运营方应当对技术支持方提供的模型进行必要的合规审查,要求技术支持方对训练数据来源的合法合规性进行陈述保证等,具体详见下文。
2. 什么是“向境内公众提供大模型服务”
根据《AIGC暂行办法》,行业组织、企业、教育和科研机构、公共文化机构、有关专业机构等研发、应用生成式人工智能技术,未向境内公众提供生成式人工智能服务的,不适用本办法的规定(第2条)。也即,需要遵守相关大模型合规义务的主体,是指向境内公众提供了服务的大模型服务提供者。若上述主体未向境内公众提供服务的,则不适用大模型相关合规规定。
基于前述规定,实践中也出现了仅面向企业端提供大模型应用服务的大模型服务提供者是否可适用前述规定、豁免相关合规义务的讨论。我们理解,从该条款的目的来看,加强大模型的合规要求与监管要求旨在规范公共层面的数据流通、传播,避免重要、敏感信息的泄露,以及防止违法、虚假信息和内容在社会层面广泛传播。因此,如果大模型服务提供者仅面向特定企业提供服务,且该企业仅在企业内部使用大模型服务,不会导致大模型服务成果向公众流通,则有可能并不适用相关合规义务。然而,若大模型服务提供者(“A主体”)作为技术支持方自研大模型,向中国境内的另一作为平台运营方的大模型服务提供者(“B主体”)提供大模型技术接口并收取技术服务费,接入了大模型技术接口的B主体进而面向中国境内的消费者提供大模型应用服务,我们倾向于认为A主体与B主体均需要履行相关的合规义务。
五、平台运营方与技术支持方的合规义务
1. 平台运营方的合规要求
(1)资质证照
为了保障大模型服务的合规发展,平台运营方在进入市场提供服务前,必须依照相关法律规定取得相应的资质证照。平台运营方作为互联网信息服务提供者,应当根据《互联网信息服务管理办法》和《中华人民共和国电信条例》,申请办理B25类信息服务业务的增值电信业务经营许可证(“ICP证”);同时,如平台运营方提供的服务具有舆论属性或者社会动员能力,平台运营方在向公众提供服务前,应当进行安全评估,并按照《算法推荐管理规定》履行算法备案手续。具体而言:
1)增值电信业务经营许可证
根据《互联网信息服务管理办法》,互联网信息服务可分为经营性和非经营性两类。经营性互联网信息服务,是指通过互联网向上网用户有偿提供信息或者网页制作等服务活动。非经营性互联网信息服务是指通过互联网向上网用户无偿提供具有公开性、共享性信息的服务活动(第3条)。国家对经营性互联网信息服务实行许可制度;对非经营性互联网信息服务实行备案制度。未取得许可或者未履行备案手续的,不得从事互联网信息服务(第4条)。因此,针对经营性互联网信息服务,应取得经营许可证。许可证类型根据相应业务而决定,例如:从事经营性互联网信息服务,需取得B25类增值电信业务经营许可证(即ICP证);从事在线数据处理与交易处理业务,需取得B21类增值电信业务许可证(即EDI证)。
结合大模型服务的特点,一方面,在平台运营方向用户提供大模型应用服务的情况下,平台运营方通过对训练数据和用户输入对话的采集和处理以及平台的建设,通过互联网向用户提供信息内容,通常情况下涉及为其他单位或个人用户发布文本、图片、音视频、应用软件等提供平台服务,即信息发布平台和递送服务;值得注意的是,大模型服务提供的内容不是经检索与排序的原始信息,而是基于对用户对话的理解和训练数据的分析、编辑后生成的文本,大模型本身也参与了信息的生产过程,这与单纯的通过信息收集与检索、数据组织与存储、分类索引、整理排序等方式为用户提供网页信息、文本、图片、音视频等信息检索查询服务存在一定差异。另一方面,对于“经营性”和“非经营性”的判断,实践中,不宜简单以服务是否收费来判断有偿或是无偿,而往往需要充分考虑是否存在变相营利的情形,与科研、公益等非经营性活动有明显区分。因此,通常而言,大模型服务往往会涉及经营性互联网信息服务,平台运营方应当取得由国务院信息产业主管部门或者省、自治区、直辖市电信管理机构颁发的ICP证。
2)算法备案
目前我国多部法律法规中均以《算法推荐管理规定》为基础,对于“算法备案”的要求予以明确,具体如下:
- 根据《算法推荐管理规定》,具有舆论属性或者社会动员能力的算法推荐服务提供者应当在提供服务之日起十个工作日内通过互联网信息服务算法备案系统填报服务提供者的名称、服务形式、应用领域、算法类型、算法自评估报告、拟公示内容等信息,履行备案手续。算法推荐服务提供者的备案信息发生变更的,应当在变更之日起十个工作日内办理变更手续。算法推荐服务提供者终止服务的,应当在终止服务之日起二十个工作日内办理注销备案手续,并作出妥善安排(第24条)。
- 根据《深度合成管理规定》,具有舆论属性或者社会动员能力的深度合成服务提供者,应当按照《互联网信息服务算法推荐管理规定》履行备案和变更、注销备案手续,同时,在完成备案后应当在其对外提供服务的网站、应用程序等的显著位置标明其备案编号并提供公示信息链接(第19条)。
- 根据《AIGC暂行办法》,提供具有舆论属性或者社会动员能力的生成式人工智能服务的,应当按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续(第17条)。
2023年6月,国家互联网信息办公室发布境内深度合成服务算法备案清单,其中包括美团在线智能客服算法、快手短视频生成合成算法、百度文生图内容生成算法、百度PLATO大模型算法、天猫小蜜智能客服算法、菜鸟物流智能客服算法、讯飞星火认知大模型算法、腾讯云语音合成算法等。算法备案已经成为相关企业保证其合规、稳定发展不可或缺的重要手续。有实务人士指出,ChatGPT本身未进行算法备案,这可能是相关应用被集中下架的主要原因。[2]因此,我们理解平台运营方应履行算法备案手续以实现平台经营合规,避免后续在通过应用商店上架过程中遇到障碍。
3)安全评估
目前我国多部法律法规中均涉及“安全评估”的要求,具体如下:
- 根据《安全评估规定》,互联网信息服务提供者开展安全评估,应当对信息服务和新技术新应用的合法性,落实法律、行政法规、部门规章和标准规定的安全措施的有效性,防控安全风险的有效性等情况进行全面评估(第5条),并且应该将评估报告通过全国互联网安全管理服务平台提交所在地地市级以上网信部门和公安机关(第7条)。互联网信息服务提供者在安全评估中发现存在安全隐患的,应当及时整改,直至消除相关安全隐患(第6条)。
- 根据《算法推荐管理规定》,具有舆论属性或者社会动员能力的算法推荐服务提供者应当按照国家有关规定开展安全评估(第27条)。
- 根据《深度合成管理规定》,深度合成服务提供者和技术支持者提供具有以下功能的模型、模板等工具的,应当依法自行或者委托专业机构开展安全评估:(一)生成或者编辑人脸、人声等生物识别信息的;(二)生成或者编辑可能涉及国家安全、国家形象、国家利益和社会公共利益的特殊物体、场景等非生物识别信息的。(第15条)。深度合成服务提供者开发上线具有舆论属性或者社会动员能力的新产品、新应用、新功能的,应当按照国家有关规定开展安全评估(第20条)。
- 根据《AIGC暂行办法》,提供具有舆论属性或者社会动员能力的生成式人工智能服务的,应当按照国家有关规定开展安全评估(第17条)。
如前文所述,目前我国法律法规仅对“具有舆论属性或社会动员能力的互联网信息服务”予以界定,而对于何为具有舆论属性或社会动员能力的算法推荐服务、深度合成服务、生成式人工智能服务,我国法律法规并未给出定义;根据我们在过往项目中的经验,在实务中,对于何为“具有舆论属性或社会动员能力”的判断较为宽泛,几乎涵盖了所有具备信息共享功能的服务。因此,我们理解,一方面,大模型服务涉及“具有舆论属性或社会动员能力的互联网信息服务”的可能性较高,需按照《安全评估规定》通过全国互联网安全管理服务平台完成安全评估;另一方面,还需按照国家网信部门的要求,按照《AIGC暂行办法》等法律法规的规定,满足针对大模型服务的特殊安全评估要求,包括主体安全保障、信息安全管理、用户安全、技术安全等等。
(2)内容合规
作为典型的互联网信息服务提供者,平台运营方需要承担我国法律对网络服务提供者设置的“监控义务”:一是审查义务,即在被明确告知违法信息存在之前,主动对其系统或网络中的信息的合法性进行审查;二是事后控制义务,即在知道违法信息的存在后及时釆取删除、屏蔽等措施阻止侵权信息继续传播。除此之外,就用户输入数据与大模型服务生成内容(“服务生成内容”),平台运营方还面临着用户输入数据合规、服务生成内容合规和知识产权保护三方面的义务。
1)用户输入数据合规
大模型的数据运用场景主要包括模型训练阶段对训练数据的使用以及模型使用阶段对输入数据的使用,且模型使用阶段收集的数据后续也可能成为新的训练数据。而平台运营方本身并不负责模型训练,故关于其数据合规义务的讨论,往往集中在模型使用阶段的输入数据。
平台运营方是典型的互联网服务提供者,需遵守《中华人民共和国网络安全法》(“《网络安全法》”)、《中华人民共和国数据安全法》(“《数据安全法》”)、《中华人民共和国个人信息保护法》(“《个人信息保护法》”)、《AIGC暂行办法》等规定的网络安全、数据安全以及个人信息保护义务。关于平台运营方的数据合规相关义务,我们将在下文进行详细讨论。
此外,平台运营方作为深度合成服务提供者,需履行《深度合成管理规定》规定的用户输入数据审核义务,采取技术或者人工方式对用户的输入数据进行审核,识别违法和不良信息。
2)服务生成内容合规
根据《AIGC暂行办法》以及网络信息安全领域的监管要求,大模型平台运营方需要保证服务生成内容合规,承担对服务生成内容的审核义务,建立健全服务生成内容治理机制,依法设立辟谣机制、设立违法和不良信息识别特征库,积极承担信息内容管理主体责任,加强平台网络信息内容生态治理,培育积极健康、向上向善的网络文化;同时,当平台运营方发现违法内容的,应当及时采取停止生成、停止传输、消除等处置措施,并向有关主管部门报告。服务生成内容的具体合规要点详见下表:
针对平台运营方的服务生成内容标识义务,该规定主要针对的是目前服务生成内容难以被分辨,甚至出现技术被滥用、误用等问题,故标识的作用在于警示和提醒用户,确保用户明确知晓该内容是由大模型生成的,因此无法保证内容的真实性。大模型经过训练后,对一些概念具备了较为稳定的“认知”,围绕相关概念的生成内容往往表现出惊人的一致性。一旦模型在训练过程中引入偏见歧视等有害信息,在模型实际应用中很可能呈现负面的放大化效应,这是极为危险的。对此,有实务人士指出:“标识AI生成、深度合成的内容,是成本最低且有望从根本杜绝上述相关问题的方法。”[3]
3)知识产权保护
如我们之前的文章《ChatGPT许可应用,知识产权和数据怎么看?》所述,利用已有作品进行大模型训练的行为很难构成“合理使用”。因此,在服务生成内容生成过程中涉及与已有作品的接触且服务生成内容与已有作品存在实质性相似的情况下,服务生成内容可能涉及知识产权侵权。平台运营方作为网络服务提供者,应当尽到前述用户输入数据审核以及服务生成内容合规方面的义务,并履行《中华人民共和国民法典》第1195条规定的“通知-删除”义务,否则可能因违反相应的注意义务而需承担共同侵权的责任。
(3)平台管理合规
根据《AIGC暂行办法》等相关法律法规,平台运营方还需承担平台管理责任,具体要点如下:
(4)网络安全与数据合规
对于平台运营方而言,在模型的使用阶段,其会收集各行业领域的不同类型的数据,因此,一方面,平台运营方需要保证对外提供的模型本身的合法合规,另一方面,面对收集和处理的海量数据,平台运营方还应当充分履行网络安全、数据安全以及个人信息保护相关义务。此外,
1)模型数据来源合法性审查
虽然平台运营方本身不负责训练模型,但是作为直接面向消费者的生成式人工智能服务的提供者,平台运营方应当对模型的开发者即技术支持方开发提供的模型的数据来源合法性进行必要的审查,对技术支持方数据安全保护能力开展尽职调查。在平台运营方与技术支持方签署的相关技术服务合同中,平台运营方可以要求技术支持方对模型训练数据来源的合法合规性进行陈述保证,明确双方的权利义务,避免因技术支持方所提供的模型本身的数据来源合法性问题影响平台运营方业务的持续开展。
2)网络安全
《网络安全法》对作为网络运营者的企业提出的合规义务可以总结为两个方面:一方面,从网络运行安全的角度出发,要求网络运营者应当按照网络安全等级保护制度的要求,履行安全保护义务,保障网络免受干扰、破坏或者未经授权的访问,防止网络数据泄露或者被窃取、篡改。另一方面,从网络信息安全的角度出发,要求网络运营者应当对其收集的用户信息严格保密,并建立健全用户信息保护制度,并采取技术措施和其他必要措施,确保其收集的个人信息安全,防止信息泄露、毁损、丢失。根据《网络安全法》,只要是由运营软硬件设备组成的、按照一定的规则和程序对信息进行收集、存储、传输、交换、处理的信息系统的主体,均属于网络运营者。因此,平台运营方作为网络运营者也应当履行《网络安全法》项下的合规义务,在安全管理层面,平台运营方需在企业内部明确网络安全的责任,并通过完善的规章制度、操作流程为网络安全提供制度保障;在技术层面,平台运营方应当采取各种事前预防、事中响应、事后跟进的技术手段,应对网络攻击,从而降低网络安全的风险。
3)数据安全
《数据安全法》从多方面规定了企业的数据安全保护义务,包括数据分类分级、安全管理制度、风险监测、风险评估等,面向消费者提供生成式人工智能服务的平台运营方作为《数据安全法》项下的数据安全合规主体,因此也应当履行《数据安全法》项下的合规义务,包括但不限于:对数据的重要程度、敏感程度等进行分级,并根据其重要程度、敏感程度的不同进行分级保护;建立健全全流程数据安全管理制度,组织开展数据安全教育培训,采取相应的技术措施和其他必要措施,保障数据安全;加强风险监测,发现数据安全缺陷、漏洞等风险时,应当立即采取补救措施等。
4)个人信息保护
《个人信息保护法》规制个人信息全生命周期的保护和处理活动,要求企业应在个人信息的收集、存储、使用、加工、传输、提供、公开、删除等方面落实合规义务。面向消费者的生成式人工智能应用服务在个人信息保护方面与其他应用服务相比有很多相同之处,包括制定用户服务协议、隐私政策,明确处理用户数据的合法性基础。在此基础上,《AIGC暂行办法》针对个人信息保护进一步规定,提供者对使用者的输入信息和使用记录应当依法履行保护义务,不得收集非必要个人信息,不得非法留存能够识别使用者身份的输入信息和使用记录,不得非法向他人提供使用者的输入信息和使用记录。提供者应当依法及时受理和处理个人关于查阅、复制、更正、补充、删除其个人信息等的请求(第11条)。可以看出,个人信息保护已成为大模型合规的关注重点。
此外,个人信息的跨境传输问题也应当引起平台运营方的关注。根据《AIGC暂行办法》,无论是中国境外的技术支持方直接面向中国境内公众提供生成式人工智能服务,还是平台运营方通过接入中国境外的API接口向中国境内公众提供生成式人工智能服务,均应当履行《AIGC暂行办法》项下的合规要求。在此过程中,平台运营方很可能涉及将中国境内用户的个人信息传输至境外。在该等情形下,平台运营方还应当按照《个人信息保护法》《数据出境安全评估办法》《个人信息出境标准合同办法》等相关法律法规履行个人信息跨境传输相关的合规要求,并根据不同的场景选择合适的跨境传输方式。
5)国际联网合规
根据《计算机信息网络国际联网管理暂行规定》及《工业和信息化部关于清理规范互联网网络接入服务市场的通知》,任何单位和个人不得自行建立或者使用其他信道进行国际联网,未经电信主管部门批准,个人、法人和其他组织不得自行建立或租用专线(含虚拟专用网络VPN)等其他信道开展跨境经营活动,否则可能面临停止联网、警告、15000元以下的罚款及没收违法所得的行政责任。因此,平台运营方自行建立信道或租用未经电信主管部门批准建立的信道使用境外技术提供方提供的技术服务,将受到相应行政处罚。为了保证合规经营,避免不必要法律风险,平台运营方应该履行相应的申请手续,租赁使用合规的国际专线。
根据我国相关法律法规的规定,我国提供国际联网服务的经营者需要具有A14-4国际数据通信业务的基础电信业务经营许可证,目前仅有三大运营商,即电信、联通与移动具有该证照。部分电信运营企业可能会持有固定网国内数据传送业务(A24-1)或国内互联网虚拟专用网业务(B13)。尽管前述两项证照里都有VPN的字眼,但这两项证照不涉及A14-4国际数据通信业务,仅能在有限范围内提供VPN服务,不能提供跨境VPN。因此,平台运营方应注意相关证照的具体范围,避免被证照名称中VPN的字眼所迷惑,确保供应商确有资格提供国际联网业务。
2. 技术支持方的合规要求
(1)资质证照
技术支持方作为算法推荐服务提供者、深度合成服务技术支持者以及生成式人工智能服务提供者,与平台运营方一样,需履行算法备案手续和安全评估义务。具体参见前序针对平台运营方的资质证照要求,在此不做赘述。值得注意的是,在实际备案和安全评估过程中,技术支持方需填报的内容与平台运营方存在差异,例如,在算法备案的过程中,平台运营方需填报关联产品及功能信息,而技术支持方需填报技术服务方式,建议技术支持方予以关注。
(2)数据训练合规
数据训练是大模型技术存在的基础,是大模型应用的底层逻辑核心,数据是大模型最底层的“原料”,而数据训练是对“原料的使用”。因此,数据训练合规是满足服务生成内容合规、知识产权合规、个人信息合规等合规要素的重要前提。一直以来,数据训练合规都是大模型监管的重中之重。《AIGC暂行办法》明确了生成式人工智能服务提供者在进行大模型训练时所应当履行的合规义务,其应当使用具有合法来源的数据和基础模型,不得侵害他人依法享有的知识产权,涉及个人信息的应当取得个人的同意或者符合法律、行政法规规定的其他情形。因此,在大模型数据训练环节,技术支持方首先应当确保训练数据来源的合法性,尤其应当关注训练数据中是否包含需要取得另行许可或授权的知识产权或个人信息等数据,对该问题的具体分析,可参见我们之前的文章《ChatGPT许可应用,知识产权和数据怎么看?》。此外,与平台运营方一样,技术支持方在大模型训练环节同样也应当履行网络安全、数据安全和个人信息保护义务。值得注意的是,此次《AIGC暂行办法》还对训练数据的质量和训练过程中的数据标注提出了更加明确的要求。
1)数据质量要求
根据《AIGC暂行办法》,生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,遵守以下规定:……(四)采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性(第7条)。
模型的开发要求技术支持方必须借助大量的数据对模型进行训练,但是,与大量数据相比,良好的数据质量对于获得预期的最终结果至关重要。自生成式人工智能面世之初,其存在的“一本正经地胡说八道”现象便引起了人们的警惕。这种虚假信息的产生很可能会误导用户,加剧社会对共享信息的不信任。如何保障生成内容的真实性,既是产业界为进一步扩大生成式人工智能商用范围需要克服的技术难题,也是监管部门需要重点考量的问题。[4]而提高训练数据的质量,就是为了尽可能提高生成式人工智能的可靠性与可信度,进而有效堵住实际应用中的风险漏洞,避免生成式人工智能被错用、误用、滥用。
2)数据标注
根据《AIGC暂行办法》,在生成式人工智能技术研发过程中进行数据标注的,提供者应当制定符合本办法要求的清晰、具体、可操作的标注规则;开展数据标注质量评估,抽样核验标注内容的准确性;对标注人员进行必要培训,提升尊法守法意识,监督指导标注人员规范开展标注工作(第8条)。
数据标注是数据训练的关键环节。所谓数据标注,指的是对未经处理的语音、图片、文本、视频等原始数据进行加工处理,使其成为结构化数据让机器可识别的过程。因此,它决定着大模型最底层“原材料”的安全属性。但是,数据标注过程中,标注人员不可避免地会将个人意识投射至人工智能的算法逻辑中,而标注过程中的人为错误会导致数据质量变差,直接影响模型的性能和预测,因此制定清晰明确的标注规则、对标注人员进行培训均是提高人工智能生成内容的准确性和可靠性的必要措施。
(3)算法技术合规
除按规定履行算法备案手续,《算法推荐管理规定》《深度合成管理规定》《AIGC暂行办法》等还为技术支持方设置了算法技术管理责任,有关算法技术管理责任的具体合规要点详见下表:
结语
飞速发展的大模型给现代产业、教育、生活、娱乐、医疗领域带来了革命性发展。我们必须承认大模型已经成为现代社会进步与发展的必要工具。然而,大模型在大幅解放生产力的同时,相关的道德、伦理、法律等问题也备受关注。因此,对大模型的合规监管日益重要。基于对人工智能的规制不应限制技术而是防止其野蛮生长这一基本原则,世界各地探寻合理的监管与合规之策,而我国在初步形成大模型合规监管体系的基础之上,也将不断细化、深化该等监管体系。因此,包括平台运营方、技术提供方在内的各主体需及时关注相关合规法律动态,在拓展大模型的应用领域的同时,确保落实相应的合规要求。
感谢实习生张颖对本文作出的贡献。
扫码订阅“金杜律师事务所”,了解更多业务资讯
参见《百度沈抖:文心大模型拥有中国最大的产业应用规模,已在十余个行业落地》,财经网,2023年7月6日,链接:http://tech.caijing.com.cn/20230706/4945904.shtml,最后访问时间:2023年8月5日。
参见《苹果集中下架中国区Chat GPT相关产品,未进行算法备案与数据跨境不合规或为主因》,世界经济报道,2023年8月2日。https://www.jwview.com/jingwei/html/08-02/552102.最后访问日期:2023年8月4日。
参见《“生成式人工智能服务管理暂行办法”解读:明确“不适用”场景,充分“松绑”AI发展》,央广网,2023年7月18日,链接:http://m.cnr.cn/tech/20230718/t20230718_526333552.html,最后访问时间:2023年8月4日。
参见《专家解读|推动生成式人工智能精细化治理》,中央网信网,2023年7月13日,链接:http://www.cac.gov.cn/2023-07/13/c_1690898363806525.htm,最后访问时间:2023年8月6日。