前沿观察,

AI开拓者指南:模型训练、应用、优化三阶段数据合规风险清单

中国 | 中文
所在网站 :    中国   |   中文
澳大利亚
中国香港特别行政区
新加坡
美国
全球

标签:知识产权数字经济人工智能

生成式人工智能(“AIGC”)作为人工智能领域的一项革命性技术,正迅速改变着内容创作的生态。AIGC技术通过深度学习模型,能够自动生成文字、图像、音频、视频等多种形式的内容,为创意产业带来了前所未有的机遇。然而,随着技术的快速发展,数据方面的问题也逐渐显现,成为制约AIGC健康发展的关键因素之一。2023年8月15日生效的《生成式人工智能服务管理暂行办法》(“《暂行办法》”)旨在通过法律手段引导和促进AIGC技术的合规使用,保护数据安全,尊重知识产权和个人隐私,同时防止数据偏见和歧视的产生。

本文将从模型训练、模型应用以及模型优化三个阶段对AIGC可能涉及的数据合规风险进行分析,并为AIGC技术支持方、AIGC平台运营方[1]以及AIGC服务使用者等提供相关合规建议。

一、模型训练阶段

《暂行办法》第七条规定,生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,遵守以下规定:(一)使用具有合法来源的数据和基础模型;(二)涉及知识产权的,不得侵害他人依法享有的知识产权;(三)涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形;(四)采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性;(五)《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》等法律、行政法规的其他有关规定和有关主管部门的相关监管要求。第八条规定,在生成式人工智能技术研发过程中进行数据标注的,提供者应当制定符合本办法要求的清晰、具体、可操作的标注规则;开展数据标注质量评估,抽样核验标注内容的准确性;对标注人员进行必要培训,提升尊法守法意识,监督指导标注人员规范开展标注工作。

结合上述规定,模型训练阶段数据合规相关的要素主要涉及训练数据来源以及数据质量两方面。

(一)数据来源

训练数据来源合法是训练数据合规讨论的起点,AIGC技术支持方往往会通过公开收集、自行采集、第三方采购等方式获取训练数据,在该等过程中其可能面临的主要风险如下:

1. 侵犯知识产权

《中华人民共和国著作权法》(“《著作权法》”)第五十三条规定,有下列侵权行为的,应当根据情况,承担本法第五十二条规定的民事责任……:(一)未经著作权人许可,复制、发行、表演、放映、广播、汇编、通过信息网络向公众传播其作品的,本法另有规定的除外;……

基于上述规定,如果AIGC技术支持方获取的数据包含受著作权等知识产权保护的材料,倘若其并未获得完整授权,往往涉及著作权等知识产权侵权。例如,在采用爬虫方式获取的情况下,无论是网络上的文章、图片、用户评论乃至网站自身的数据库,都有可能在具备独创性的情况下构成著作权法意义上的作品,不论其在原网站上是否可免费公开访问,未经许可对于该等数据的抓取和使用可能构成著作权侵权。

值得探讨的是,AIGC技术支持方获取数据后用于模型训练的行为是否适用“合理使用”。一方面,AIGC技术支持方一般会将相关训练数据复制或者下载到自己所有或者第三方服务器中进行保存以便于使用,该种行为往往涉及著作权中的“复制”行为,且AIGC技术支持方对训练数据的使用一般系用于自身商业目的之使用,似乎很难满足《著作权法》明确规定的“合理使用”的条件。但另一方面,大模型训练对于作品的复制是“中间复制”,即在大模型训练阶段,尽管可能涉及对于训练数据(其中可能含有大量受著作权法保护的作品)的复制,但该等复制件并不是大模型产品的最终形态。通常情况下,AIGC技术支持方也不会对外传播、展示该等复制件。此外,从使用目的的角度,事实上,AIGC技术支持方复制训练数据并对相关训练数据进行清洗、标注等预处理步骤,其目的是将训练数据转化为便于机器理解的数值数据,以便对其内含规律、特征进行总结和学习。因此,大模型训练是否适用合理使用原则值得深入探讨。

此外,根据《中华人民共和国反不正当竞争法》(“《反不正当竞争法》”),商业秘密是指不为公众所知悉、具有商业价值并经权利人采取相应保密措施的技术信息、经营信息等商业信息。在AIGC技术支持方获取训练数据的过程中,倘若相关数据构成商业秘密,AIGC技术支持方未能识别且未经授权使用该等数据,便可能构成商业秘密侵权,需要承担商业秘密侵权责任。

2. 不正当竞争

实践中,AIGC技术支持方往往会通过爬虫等技术手段取得训练数据,可能存在构成不正当竞争的风险。《中华人民共和国民法典》(“《民法典》”)第一百二十七条规定,法律对数据、网络虚拟财产的保护有规定的,依照其规定。这是数据权益保护的法律基础。尽管如此,该条款仅为框架性、引致性规定,并未对数据的权利属性及保护要求作出具体规定。司法实践中,对于非法爬取数据的行为,法院更倾向于援引《反不正当竞争法》的相关规定。

《反不正当竞争法》第二条规定,经营者在市场交易中,应当遵循自愿、平等、公平、诚实信用的原则,遵守公认的商业道德。使用爬虫技术绕开robots协议(尤其是目标网站所采用的Disallow语句)爬取相关数据的行为将有可能被认定为违反了上述“公认的商业道德”,进而被认定为构成不正当竞争行为,相关技术的使用方也需要承担停止侵害、损害赔偿等责任。更进一步地,如果爬虫的使用干扰了被访问网站的正常运行,或者用于替代被爬取方的服务,被认定为构成不正当竞争的可能性更高。

例如,在抓取使用房产交易信息平台房源数据案[2]中,法院认为,S公司以技术手段大规模抓取涉案数据,并将涉案数据存储在自有服务器后去除原平台网站水印、加入其他主体水印,传播至社交媒体和第三方房产信息平台等,为“虚假房源”发布提供了重要工具和便利条件,客观上助长了“虚假房源”蔓延,明显违背房产经纪行业的诚信原则和商业道德。而且,S公司在诉讼中已明确承诺立即停止被诉行为的同时,又以更隐蔽的方式变相、持续实施被诉行为,主观恶意极为明显。被诉行为抢夺了本属于L公司的用户流量,影响了用户粘性和信赖度,使消费者知情权、选择权和交易安全因“虚假房源”直接受损,使靠诚信经营获取竞争优势的经营者无法获得有效激励,破坏了房产经纪行业的竞争生态和秩序,构成不正当竞争行为

3. 侵犯人格权

《民法典》第九百九十条规定,人格权是民事主体享有的生命权、身体权、健康权、姓名权、名称权、肖像权、名誉权、荣誉权、隐私权等权利。除前款规定的人格权外,自然人享有基于人身自由、人格尊严产生的其他人格权益。《民法典》第九百九十一条规定,民事主体的人格权受法律保护,任何组织或者个人不得侵害。特别地,《民法典》第一千零一十八条规定,自然人享有肖像权,有权依法制作、使用、公开或者许可他人使用自己的肖像。第一千零一十九条规定,任何组织或者个人不得以丑化、污损,或者利用信息技术手段伪造等方式侵害他人的肖像权。未经肖像权人同意,不得制作、使用、公开肖像权人的肖像,但是法律另有规定的除外。第一千零二十三条规定,对自然人声音的保护,参照适用肖像权保护的有关规定。

实践中,考虑到训练数据可能包含了图片、影片等内容,倘若这些数据中的肖像或声音能反映自然人的特征,或者社会大众能够通过相关形象或声音与自然人的真实特征联系起来,该等形象或声音都有可能被视为属于自然人肖像权和声音权的范畴,AIGC技术支持方使用相关训练数据应当就该等自然人的肖像或声音取得授权,否则将可能构成侵权。

4. 侵害个人信息

《中华人民共和国网络安全法》第四十四条规定,任何个人和组织不得窃取或者以其他非法方式获取个人信息。《中华人民共和国个人信息保护法》(“《个人信息保护法》”)第二十七条规定,个人信息处理者可以在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息;个人明确拒绝的除外。个人信息处理者处理已公开的个人信息,对个人权益有重大影响的,应当依照本法规定取得个人同意。特别地,处理敏感个人信息还用当取得个人的单独同意。因此,如果AIGC技术支持方获取的用于模型训练的数据包含个人信息,则应当遵守上述《个人信息保护法》的相关规定,在未经用户同意的情况下收集用户的个人信息,则可能构成侵害个人信息的违法行为。

5. 处理核心数据、重要数据

《中华人民共和国数据安全法》(“《数据安全法》”)第二十一条规定,核心数据是指“关系国家安全、国民经济命脉、重要民生、重大公共利益等数据”。《数据出境安全评估办法》第十九条规定,重要数据是指“一旦遭到篡改、破坏、泄露或者非法获取、非法利用等,可能危害国家安全、经济运行、社会稳定、公共健康和安全等的数据”。目前,诸多地方、各行业以及部分先行区已出台规则或目录明确核心数据和重要数据。例如,工业和信息化部在《工业和信息化领域数据安全管理办法(试行)》中,对工业和信息化领域重要数据、核心数据的认定标准进行了细化;五部门联合发布的《汽车数据安全管理若干规定(试行)》中,划定了六条汽车行业重要数据的认定范围。倘若AIGC技术支持方用于训练大模型的数据涉及核心数据、重要数据,其需要履行一系列更为严格的义务,且各行业的具体义务履行方式各有差异,包括但不限于:(1)向监管履行义务,例如在其所在地区行业监管部门备案并持续就备案内容变化履行变更手续、开展风险评估并报送风险评估报告、定期报送数据安全管理情况;(2)数据安全管理义务,例如建立单位相关部门的数据安全工作体系并明确数据安全责任、根据数据安全级别采取相应安全措施等。

因此,AIGC技术支持方需要识别出训练数据中可能包含的重要数据、核心数据,进而根据其所属行业、地区以及保密级别针对性地履行相关合规义务。尽管如此,当前核心数据、重要数据的认定标准及目录分散在各部门规章、行业标准及地方性法规中,AIGC技术支持方可能难以确保这一识别工作的准确性和完整性,进而难以在此基础上充分履行合规义务。

6. 刑事风险

根据《中华人民共和国刑法》(“《刑法》”)第二百八十五条和第二百八十六条,未经授权获取“计算机信息系统中存储、处理或者传输的数据”,“对计算机信息系统实施非法控制”,或者对计算机信息系统功能进行干扰,情节严重的可能会受到刑事处罚。例如,倘若AIGC技术支持方故意避开或强行突破网站的反爬虫技术设置,或者侵入《刑法》第二百八十五条第一款[3]规定以外的计算机信息系统但网络爬虫过快或大量重复访问,大量占用服务器带宽和运算能力、大幅度增加计算机处理负担,进而干扰计算机信息系统正常运行且后果严重,可能会涉及刑事责任。

AIGC技术支持方在模型训练阶段训练数据获取TIPs:

  • 取得训练数据权利主体授权同意:实践中,模型训练需要海量的数据,获得每一个数据主体的授权一般难以实现。但对于某些风险较大的数据,例如生物识别、宗教信仰、特定身份、医疗健康、金融账户、行踪轨迹等信息等敏感个人信息,AIGC技术支持方应当取得相关权利主体的单独的授权同意。
  • 合法使用爬虫等技术手段:AIGC技术支持方在通过爬虫等技术手段获取训练数据时,不可突破、绕开技术措施爬取数据,并遵守Robots协议;避免爬取个人信息、他人享有著作权的作品等;避免大量、高频的爬取数据,防止破坏网站正常经营。此外,在爬取并使用开源数据集时,AIGC技术支持方还需要遵守开源许可证相关要求。
  • 避免收集处理核心数据和重要数据:原则上避免收集处理包含有核心数据、重要数据的训练数据,同时对核心数据、重要数据的识别工作进行关注,一旦用于模型训练的训练数据被识别或认定为核心数据或重要数据,AIGC技术支持方需要对该等核心数据或重要数据进行重点保护,履行数据处理者的相关义务。
  • 严格审查第三方采购数据来源:AIGC技术支持方在从第三方数据供应商处采购训练数据时,应当与第三方数据供应商签订明确的合作协议,要求其对相关训练数据的知识产权、涉及第三方的民事权益(包括但不限于人格权、个人信息等)进行不侵权的陈述保证,同时要求该等数据供应商保证授权链条的完整性。
  • 建立数据合规管理和技术应对方案:AIGC技术支持方还应当遵守相关的数据保护法规和AI伦理准则,利用技术手段建立健全风险应对方案,比如数据加密、匿名化处理等,对训练数据的使用、披露范围进行严格控制,保护相关训练数据不被未授权者访问,以降低可能得侵权风险。

(二)数据质量

训练大模型需要大规模、高质量、多模态的数据集,通常需要从各个领域和多个数据源收集数据,数据质量直接影响到模型训练的效果。高质量的数据应具备准确性和代表性,能够全面反映模型需要学习的特征和模式。数据标注的准确性对于模型的理解能力同样至关重要。标注不仅需要精确无误,还应遵循道德和法律标准,尊重数据中涉及的所有个体的权利,包括但不限于避免偏见、歧视以及确保数据的多样性和包容性。具体而言,AIGC技术支持方在训练数据质量方面可能面临的主要风险如下:

1. 标注数据质量参差不齐生成误导性内容

一方面,数据标注的不一致性可能使模型对特定类别的识别产生偏差。例如,在图像识别任务中,如果标注者对图像中的对象识别标准不一,模型可能会混淆不同类别,导致生成的内容与实际情况不符。另一方面,数据集中的错误和噪声会削弱模型的泛化能力。当数据集中包含大量错误标注的样本时,模型可能会学习到这些错误特征,而非真实的数据分布,进而影响模型在面对新数据时的表现。此外,数据标注的偏见可能导致模型生成具有歧视性的内容。如果标注者在标注过程中受到自身偏见的影响,模型可能会学习并复制这些偏见,进而在生成内容时表现出不公平。

2. 训练数据缺乏多样性导致价值观偏差

一方面,训练数据缺乏多样性可能导致模型对某些群体或文化的理解存在偏差。如果训练数据主要来源于特定地区或社会群体,模型可能会过度强调这些群体的价值观和观点,而忽视其他群体的声音,进而导致生成的内容在文化多样性和包容性方面存在缺陷。另一方面,训练数据的局限性还可能导致模型在处理复杂主题和抽象概念时表现不佳。复杂主题和抽象概念往往需要更广泛的知识和更深入的理解。如果训练数据缺乏这些方面的数据,模型可能无法生成深入、全面的内容,使得其在专业领域的应用效果受到影响。此外,训练数据的偏差也可能导致模型在生成内容时表现出不公正的倾向。如果训练数据中存在性别、种族或社会地位等方面的偏见,模型可能会在生成内容时复制这些偏见,导致生成的内容带有歧视性。

3. 训练数据时效性偏差降低模型可信度

一方面,训练数据的时效性偏差可能使模型在处理最新事件或趋势时显得力不从心。例如,在新闻报道或市场分析等领域,如果模型依赖的是过时的数据,其生成的内容可能无法准确反映最新的发展动态,从而误导用户决策。另一方面,训练数据的时效性不足可能影响模型在特定领域的专业性和权威性。在法律、医疗等专业领域,知识的更新换代非常快,如果模型所依赖的训练数据未能跟上最新的研究成果或法规变化,其生成的内容可能失去专业性,甚至产生误导。此外,训练数据的时效性问题还可能引发用户的不信任。用户期望模型能够提供准确、可靠的信息。如果模型频繁输出过时或不准确的内容,用户可能会对模型的可信度产生质疑,进而影响模型的长期发展。

AIGC技术支持方在模型训练阶段训练数据质量管理TIPs:

  • 采取严格的数据质量管理措施:对训练数据质量进行严格管理,包括数据清洗、标注者培训、多轮标注和验证等;持续监控和评估模型的输出内容,确保其质量和安全性,最大限度地减少数据标注质量参差不齐带来的风险,提高模型的可靠性和有效性。
  • 提升训练数据多样性:确保训练数据具有足够的代表性,涵盖不同的文化、地区和社会群体;对训练数据进行细致的分析和筛选,以确保其质量和多样性;对模型进行持续的监控和评估,以确保其生成的内容符合社会价值观和伦理标准。
  • 定期更新并监控训练数据:定期更新训练数据,确保其反映的信息与当前实际情况相符;建立有效的数据监控和反馈机制,及时发现并纠正训练数据中的时效性问题;加强与专业领域的合作,确保模型能够及时吸收最新的研究成果和知识更新。

二、模型应用阶段

《暂行办法》第十一条规定,提供者对使用者的输入信息和使用记录应当依法履行保护义务,不得收集非必要个人信息,不得非法留存能够识别使用者身份的输入信息和使用记录,不得非法向他人提供使用者的输入信息和使用记录。提供者应当依法及时受理和处理个人关于查阅、复制、更正、补充、删除其个人信息等的请求。在模型应用阶段,AIGC服务提供者需要处理AIGC服务使用者在使用AIGC服务时输入的相关数据,在该等过程中,AIGC服务提供者和AIGC服务使用者均可能面临一定的数据合规风险,主要如下:

(一)数据处理

1. 处理个人信息不具备合法性基础

《个人信息保护法》第五条规定,处理个人信息应当遵循合法、正当、必要和诚信原则,不得通过误导、欺诈、胁迫等方式处理个人信息。第六条规定,处理个人信息应当具有明确、合理的目的,并应当与处理目的直接相关,采取对个人权益影响最小的方式。收集个人信息,应当限于实现处理目的的最小范围,不得过度收集个人信息。第七条规定,处理个人信息应当遵循公开、透明原则,公开个人信息处理规则,明示处理的目的、方式和范围。第十条规定,任何组织、个人不得非法收集、使用、加工、传输他人个人信息,不得非法买卖、提供或者公开他人个人信息;不得从事危害国家安全、公共利益的个人信息处理活动。《暂行办法》第十一条相关规定正是对《个人信息保护法》所确立的上述原则在人工智能语境下的重申。实践中,通常由直接面向AIGC服务使用者提供服务的AIGC服务提供者履行上述义务,在AIGC服务提供者超范围或者非法处理AIGC服务使用者的个人信息的情况下还需承担相应的法律责任。

2. 数据跨境传输风险

在AIGC服务提供者通过API等方式介入境外服务商提供的服务或AIGC服务提供者将自身的服务器部署在境外的情况下,AIGC服务使用者在使用相关服务时上传的数据可能被传输至境外,考虑到AIGC服务提供者向境外提供的数据类型存在很大不确定性,因此可能触发相关的数据出境合规义务要求。根据《数据安全法》《个人信息保护法》以及《数据出境安全评估办法》等相关规定,我国明确了数据出境的三条主要路径,包括通过国家网信部门组织的安全评估、经专业机构进行个人信息保护认证、或者按照国家网信部门制定的标准合同与境外接收方订立合同约定双方的权利和义务。与此同时,《促进和规范数据跨境流动的重要规定》还规定了数据出境的几种豁免情形,例如出境数据不包含个人信息或者重要数据、或预计一年内向境外提供不满1万人个人信息等情况的,则不需要申报安全评估、标准合同备案或通过认证。

3. 数据主体权利保障缺失

《个人信息保护法》通过原则性条款明确了个人对其个人信息的处理享有知情权、决定权,以及有权限制或者拒绝他人对其个人信息进行处理,并具体规定了查阅复制和转移权、更正和补充权、删除权、要求解释权等。同时,《个人信息保护法》还要求企业作为个人信息处理者应当建立便捷的个人行使权利的申请受理和处理机制,拒绝个人行使权利的请求的,应当说明理由。个人信息处理者若拒绝个人行使权利的请求,则个人信息主体可向法院提起诉讼。因此AIGC服务提供者应审慎对待AIGC服务使用者的行权请求并及时响应,不能以存在困难为由不处理或不及时处理。

AIGC服务提供者在模型应用阶段数据处理TIPs:

  • 确保处理个人信息具备合法性基础:AIGC服务提供者处理AIGC服务使用者的输入信息和使用记录等个人信息时,应当明确并向AIGC服务使用者告知处理目的、处理方式及保存期限等,在必要的范围内基于明确、合理目的,以对AIGC服务使用者权益影响最小的方式、期限进行个人信息处理及保存,不得过度收集AIGC服务使用者的个人信息。
  • 履行数据跨境传输合规义务:AIGC服务提供者应当结合具体的业务情况和相关法律规定,酌情选择申报数据出境安全评估、与境外接收方签订标准合同、实施个人信息保护认证等方式保证数据出境的合法合规。
  • 设置个人信息主体权利响应机制:AIGC服务提供者应当对模型使用过程可能涉及的个人信息进行系统性梳理,设置并公示个人信息主体权利的响应机制,及时受理和处理个人信息主体关于查阅复制、更正补充、删除、要求解释说明等要求。

(二)数据安全

1. 输入数据包含敏感数据

AIGC服务使用者在使用模型时,倘若输入的数据包含敏感数据,例如企业内部的敏感文件、企业的商业秘密以及个人信息等,AIGC服务使用者将在不经意间面临极大的数据泄露风险。例如,在三星员工泄露商业机密的事件中,当员工在使用ChatGPT进行代码优化或提取会议纪要时,可能会将公司的机密信息提供给供应商OpenAI,从而导致泄密的风险。更进一步地,倘若AIGC服务提供者将AIGC服务使用者输入的敏感数据作为模型的训练数据,将会导致二次泄密风险。例如,亚马逊的公司律师称,其在ChatGPT生成的内容中发现了与公司机密“非常相似”的文本,可能是由于一些亚马逊员工在使用ChatGPT生成代码和文本时输入了公司内部数据信息,该律师担心员工输入的信息可能被用作了ChatGPT迭代优化的训练数据。

2. 模型数据安全事件

倘若AIGC服务提供者采取的安全防护措施不足,同样将面临多重数据泄露风险。黑客可能通过识别并利用模型漏洞,如软件缺陷或配置不当来获取未授权的数据访问权限。此外,通过钓鱼攻击或诱骗等方式也可能使AIGC服务提供者内部人员无意中泄露敏感数据。

AIGC服务提供者和使用者在模型应用阶段数据安全管理TIPs:

  • 建立外部模型使用管控机制:AIGC服务使用者应对员工使用外部模型作出明确限制,例如,禁止未经许可将内部数据上传至外部模型,并设置警报机制;又例如,对敏感数据进行加密处理,确保即使相关数据被不合规的上传,也不会泄露文件内容。
  • 提示避免输入敏感数据:AIGC服务提供者可以通过用户协议、隐私政策或其他形式提示AIGC服务使用者在使用模型时避免输入敏感数据;在输入第三方数据时还应当取得第三方的有效授权。
  • 制定数据安全事件应急预案:AIGC服务提供者应当构建数据安全管控体系,加强数据全生命周期的安全防护能力,同时,应定期审查和更新安全策略,确保安全措施的有效性和时效性;制定数据安全应急预案,加强风险监测,在发生数据安全事件时应当立即采取补救措施并向有关主管部门报告。

三、模型优化阶段

《暂行办法》第七条不仅明确了AIGC服务提供者在对模型开展预训练时应当遵守的合规要求,其同样适用于AIGC服务提供者对模型开展迭代优化等活动。在模型优化阶段,AIGC服务提供者需要关注的主要数据合规风险来自于将AIGC服务使用者输入的数据作为训练数据进行模型优化以及未向AIGC服务使用者提供关闭或拒绝处理其输入数据的路径。

(一)使用AIGC服务使用者的输入数据优化模型

AIGC服务提供者将AIGC服务使用者输入的数据用于优化模型,模型的性能随之提升,该等持续的数据迭代和模型训练形成的“数据飞轮”效应使得模型可以吸引更多的AIGC服务使用者,进而产生更多的数据用于模型优化。然而,倘若AIGC服务提供者并未取得处理相关输入数据的合法性基础,例如针对个人信息未取得个人的同意、针对可能涉及的知识产权未取得相应权利人的有效授权等,则AIGC服务提供者未经许可将AIGC服务使用者输入的数据用以优化模型,很可能构成对AIGC服务使用者或其他权利人合法权益的侵犯。实践中,AIGC服务提供者一般会通过隐私政策向AIGC服务使用者告知其输入的数据被用于训练模型的可能情形。例如,某知名大模型就在其《智能助手用户隐私协议》明确“我们搜集的上述信息(对话信息)会用于向您提供相关服务,且在经安全加密技术处理、严格去标识化且无法重新识别特定个人的前提下,我们可能会将上述信息用于提升和迭代我们产品和服务之目的”;又例如,某知名大模型在其《个人信息保护规则》明确“我们还会使用对话信息提高模型对您输入内容的理解能力,以便不断改进模型的识别和响应的速度和质量,提高模型的智能性”。

(二)未向AIGC服务使用者提供关闭或拒绝处理输入数据的路径

《个人信息保护法》分别规定了个人信息的去标识化与匿名化,去标识化是指个人信息经过处理,使其在不借助额外信息的情况下无法识别特定自然人的过程,匿名化是指个人信息经过处理无法识别特定自然人且不能复原的过程。换言之,去标识化处理后的个人信息仍属于个人信息,而匿名化处理后的个人信息不再属于个人信息。然而目前相关法律法规并对匿名化的技术要求作进一步规定,因此对个人信息采取的脱敏处理等技术措施可能仅能达到去标识化的效果,而无法实现严格意义上的匿名化。在该等情形下,即使AIGC服务使用者在相关隐私政策文件中明确了其已经对AIGC服务使用者输入数据中可能涉及的个人信息进行了严格去标识化处理,仍然可能无法达到《个人信息保护法》意义上的匿名化效果,倘若AIGC服务使用者并不希望AIGC服务提供者将其输入的数据用于进一步优化模型,根据《个人信息保护法》,AIGC服务使用者有权要求AIGC服务提供者删除其所收集并不再收集AIGC服务使用者的相关个人信息。

实践中,AIGC服务提供者通常采取的措施是在隐私政策向AIGC服务使用者提示,如果不希望AIGC服务使用者收集和处理输入数据,AIGC服务使用者应当谨慎输入,但是可能会影响部分功能的使用。例如,某知名大模型在其《个人信息保护规则》就明确告知用户“如您拒绝我们收集和处理前述个人信息,请您谨值输入前述信息,但因此您可能会影响您正常使用模型提供的部分或全部功能”。此外,还有部分AIGC服务使用者提供了拒绝处理输入数据的关闭按钮,例如某知名大模型在其《隐私政策》亦明确告知用户“如果你不希望你输入或提供的语音信息用于模型训练和优化,可以通过关闭‘设置’-‘账号设置’-‘改进语音服务’来撤回你的授权;如果你不希望其他信息用于模型训练和优化,可以通过本隐私政策第9条公示的联系方式与我们联系,要求撤回使用你的数据用于模型训练和优化”。

AIGC服务提供者在模型优化阶段处理AIGC服务使用者输入数据TIPs:

  • 履行“告知-同意”义务:AIGC服务提供者应当在隐私政策中明确告知AIGC服务使用者将会收集其输入数据用以训练模型、优化服务、改进产品等并取得其同意。
  • 提供关闭或拒绝处理输入数据的方式:AIGC服务提供者应当为AIGC服务使用者提供拒绝或关闭其输入数据用于训练的方式,例如为AIGC服务使用者提供选项或其他控制指令,且拒绝或关闭方式应当方便快捷。

结语

面对AIGC技术带来的机遇与挑战,数据合规不仅是一项法律要求,更是推动技术健康发展的基石。AIGC各主体需要在创新与责任之间找到平衡,在这个过程中不仅要警惕风险,更要积极寻求解决方案,以开放的心态和审慎的行动,共同推动AIGC技术的可持续发展。

扫码订阅“金杜律师事务所”,了解更多业务资讯

《生成式人工智能服务管理暂行办法》规定,生成式人工智能服务提供者,是指利用生成式人工智能技术提供生成式人工智能服务(包括通过提供可编程接口等方式提供生成式人工智能服务)的组织、个人。具体来讲,AIGC服务提供者又可以分为AIGC技术支持方和AIGC平台运营方两类,其中,AIGC技术支持方是指负责AIGC技术性开发的组织、个人,AIGC平台运营方是指负责AIGC的商业性开发,依据相关规定取得相应资质证照,承担相应义务与责任,提供AIGC技术应用服务的组织、个人。本文中,为便于厘清不同情形下相关主体可能面临的风险,在特指负责AIGC技术性开发的组织、个人的情形下,使用“AIGC技术支持方”的表述,其他情形不做另行区分,统一使用“AIGC服务提供者”的表述。

(2022)京73民终4201号。

《中华人民共和国刑法》第二百八十五条第一款规定,违反国家规定,侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,处三年以下有期徒刑或者拘役。

参考资料

  • [1]

    《生成式人工智能服务管理暂行办法》规定,生成式人工智能服务提供者,是指利用生成式人工智能技术提供生成式人工智能服务(包括通过提供可编程接口等方式提供生成式人工智能服务)的组织、个人。具体来讲,AIGC服务提供者又可以分为AIGC技术支持方和AIGC平台运营方两类,其中,AIGC技术支持方是指负责AIGC技术性开发的组织、个人,AIGC平台运营方是指负责AIGC的商业性开发,依据相关规定取得相应资质证照,承担相应义务与责任,提供AIGC技术应用服务的组织、个人。本文中,为便于厘清不同情形下相关主体可能面临的风险,在特指负责AIGC技术性开发的组织、个人的情形下,使用“AIGC技术支持方”的表述,其他情形不做另行区分,统一使用“AIGC服务提供者”的表述。

  • [2]

    (2022)京73民终4201号。

  • [3]

    《中华人民共和国刑法》第二百八十五条第一款规定,违反国家规定,侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,处三年以下有期徒刑或者拘役。

最新文章
前沿观察
海南自由贸易港的重点产业园区——博鳌乐城国际医疗旅游先行区(以下简称“先行区”)作为我国医疗事业的前沿阵地,近年来凭借其独特的政策优势,成为推动医疗健康产业高质量发展的重要引擎和“创新试验田”,备受医疗健康企业的青睐。近期,第二届博鳌乐城干细胞大会召开、首批干细胞治疗临床研究项目备案并公布收费标准,膝骨关节炎单次注射疗法、慢性阻塞性肺病干细胞疗法与心力衰竭干细胞输注方案这三项突破性干细胞治疗技术接踵而至,这些利好政策引人注目。本文将立足于医疗健康企业在先行区的发展视角,评析先行区内医疗政策上的创新实践以及红利政策如何赋能医疗健康企业。私募股权与基金,医疗健康与医药-医药与医疗器械

2025/04/16

前沿观察
继《关于做好不动产信托财产登记工作的通知(试行)》(京金发〔2024〕337号)后,北京市于2025年4月10日出台《关于做好股权信托财产登记工作的通知(试行)》(京金发〔2025〕40号,以下简称《通知》),明确了股权信托财产登记的总体要求、适用范围、办理流程等内容。家族财富安全与传承-境内家族信托架构规划,家族财富安全与传承整体规划

2025/04/15

前沿观察
近年来宏观经济波动与不确定性的加剧,为企业的发展带来了前所未有的巨大挑战。在商业、办公地产领域,作为承租方/商户/租户的企业亦深受影响,导致其经营状况的变化和企业发展预期的调整,由此亦直接对业主群体带来冲击。本文旨在立足法律实务,以前述市场波动背景下业主可能遇到的问题为切入点,分析业主的应对策略及可能的破局方式,希望为业主提供一份有价值的指南。公司与并购-房地产业务,房地产-房地产租赁

2025/04/15