前言
随着人工智能((AI))技术的飞速发展,生成式人工智能已经能够处理和分析海量数据,生成内容并提供个性化服务,成为推动社会进步的重要力量。作为生成式人工智能发展的重点要求,“内容合规”不仅涉及到技术层面的精确性和安全性,更关乎道德责任和社会影响,要求AI大模型在上游技术开发和下游生成、处理信息时,都应确保相关内容遵循法律法规、尊重社会伦理、保护个人隐私,避免产生有害、不当或违法的内容。
本文结合《生成式人工智能服务管理暂行办法》(以下简称“《AIGC暂行办法》”)、《互联网信息服务深度合成管理规定》》(以下简称“《深度合成管理规定》”)的相关规定,对模型的技术支持者(即直接参与人工智能大模型技术研究、开发和优化的专业人员或团队)和服务提供者(即将技术支持者开发的大模型集成整合并以交互界面、可编程接口等形式提供生成式人工智能服务的组织或个人)两类主体需要分别关注的内容合规要点进行了梳理。
一、技术支持者角度
在生成式人工智能大模型的技术开发过程中,“语料”的重要性不言而喻。“语料”是指大模型语料,即用于训练大型机器学习模型,尤其是自然语言处理(NLP)领域的语言模型的大规模文本数据集。其中,“原始语料”是指未经加工处理的原始数据或信息,这些数据或信息通常包括文本、语音、图像、视频等多种形式。对于技术支持者而言,语料,特别是原始语料,主要用于大模型的训练。
根据《AIGC暂行办法》、《生成式人工智能服务安全基本要求》(以下简称“《AIGC安全要求》”)以及其他相关法律法规与行业标准,技术支持者在技术开发、处理原始语料过程中,至少需要注意以下方面的合规要求:
(一)原始语料审核与管理
【要点】
针对所获取的原始语料,技术支持者至少需要进行初步审核与管理,确保该等用于技术开发的原始语料具有合法来源且符合其他法律法规的要求。
【相应措施】
我们将语料审核与管理的相关要点以及针对每个要点可以考虑的具体措施/要点列示如下:
(二)遵守《个人信息保护法》
【要点】
在技术开发过程中,原始语料中可能包含个人信息,处理该等个人信息符合《中华人民共和国个人信息保护法》(“《个人信息保护法》”)下的相关要求。
【相应措施】
技术开发者应当结合语料所涉及的个人信息的具体情况考虑相应的定制化措施。例如,倘若原始语料包含个人信息(即以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息),视原始语料获取模式不同,技术支持者和/或原始语料的上游供应商可能构成个人信息处理者,需就处理该等原始语料中的个人信息满足《个人信息保护法》的相关规定,包括但不限于应当获取个人信息主体同意等。
(三)避免侵犯知识产权
【要点】
除了数据之外,还需要关注语料所涉及的知识产权问题,特别是相关的著作权、商标和商业秘密。技术支持者对于其用于开展技术开发的语料应拥有原始作品的著作权或其他知识产权,或应当获得充分的许可。
【相应措施】
技术支持者在获取、处理和使用原始语料时,必须采取合法手段,确保获得的授权是完整、全面的,不仅包括对语料的复制权等著作权,还应当根据生成式人工智能的特性,结合具体的使用需求考虑获得原始语料的改编权和汇编权等权利。同时,考虑到部分语料可能还涉及商业秘密等需要保密的信息,还应当采取适当保密措施。
此外,在技术加工的各个环节都应针对知识产权的问题进行审查,从而避免行为侵犯知识产权。例如,根据《AIGC安全要求》,技术支持者应设置语料以及生成内容的知识产权负责人,并建立知识产权管理策略。因此,技术支持者可以考虑指派具有专业知识的人员或团队,负责处理与语料相关的知识产权事宜,同时建立知识产权相关管理策略,明确在技术开发过程中对于语料使用的知识产权识别、分类、审查和合规性措施,确保所有使用的语料符合知识产权相关的法律法规。
(四)提高训练数据质量
【要点】
根据《AIGC暂行办法》第七条,生成式人工智能服务提供者依法开展训练数据处理活动时,应当采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性。
【相应措施】
技术支持者应采取一系列综合性措施以提升数据的整体质量,例如事先拟定提高训练数据质量的基本要求,包括可采取的技术措施与质量提高目标,从而在实际技术开发过程中匹配恰当的措施。
(五)注重数据标注合规
【要点】
根据《AIGC暂行办法》第八条,在技术研发过程中进行数据标注的,应当履行相应的数据标注合规义务。
【相应措施】
技术支持者需建立健全数据标注管理制度,明确数据标注过程中的各项管理与安全要求,规范实践中的数据标注活动,从而全面履行其自身的训练语料数据合规义务。具体可以结合《AIGC安全要求》、《信息安全技术 生成式人工智能数据标注安全规范(征求意见稿)》等相关规定、规范中的进一步要求进行考量。例如,技术支持者在语料标准方面应实施严格的管理措施,包括制定标注规则、开展数据标注质量评估并核验标注内容准确性以及对标注人员进行选拔与培训,确保标注任务有充足合理的时间完成。标注规则需要明确标注目标、数据格式、方法和质量标准,同时区分功能性与安全性标注,并确保规则覆盖数据标注和审核环节,满足特定要求。开展数据标注质量评估核验时应采取人工抽检和审核的方式,确保标注的准确性,对违法不良信息进行严格处理,并对安全性标注数据进行隔离存储,以降低主要安全风险。
(六)遵守伦理要求
技术支持者在技术开发过程中需要特别注重所使用语料的伦理相关要求,具体而言:
【要点】
根据《AIGC暂行办法》第四条,在训练数据选择等过程中,相关主体需采取有效措施防止产生民族、信仰、国别、地域、性别、年龄、职业、健康等歧视。
【相应措施】
大模型厂商等主体在将标准语料用于大模型训练时,有必要通过机器筛选、人工核验等各类可行的方式筛除可能含有歧视的内容。考虑到在实践中大模型厂商可能会通过上游语料加工商获取语料,相关主体在与语料加工商达成训练语料采购/委托定制等合作协议时,可以考虑通过协议约定要求其先行对拟交付的原始语料、标准语料进行歧视性内容筛除工作,协助防范内容歧视风险。
(七)防止技术滥用
【要点】
关于伦理的问题,需要和技术滥用的问题并行考虑。“技术滥用”是指在开发、部署或应用人工智能技术过程中,任何违背法律规范、伦理标准或社会价值观并可能对个人、社会或环境造成负面损害的行为。
【相应措施】
对于技术支持者而言,可以从下述几个方面构建技术滥用的责任框架:
(八)提高语料数据加工的透明度和可解释性
【要点】
作为确保人工智能系统公正、可信赖的关键,人工智能的透明度和可解释性原则要求人工智能系统的决策过程、算法逻辑、数据使用和结果输出是清晰、易于理解的,并能够提供对其决策过程和结果的清晰解释。
【相应措施】
技术支持者应当考虑向用户提供针对AI输出的控制和反馈机制,增强用户对系统的信任,同时为监管机构提供必要的信息以确保合规性和伦理标准得到遵守。
二、服务提供者角度
在生成式人工智能技术支持者对相关大模型技术研究、开发和优化完成后,服务提供者会将已经搭建好的模型集成到应用程序中,并向最终用户提供终端服务。《AIGC暂行办法》明确要求,提供和使用生成式人工智能服务,应当遵守法律、行政法规,尊重社会公德和伦理道德。因此,服务提供者应当履行相应的内容相关的合规义务。具体如下:
(一)进一步的内容管理与审核
1. 进一步确保模型的合规
【要点】
服务提供者应对技术支持者所提供的模型进行一定的审查,包括其数据来源、模型是否符合《AIGC暂行办法》等相关法律规范对技术开发者数据处理的规定等。
【相应措施】
除了进行一定程度的审查之外,在与技术支持者签署的相关协议中,服务提供者也可以明确要求技术支持方具有相应的从业资质、确保数据来源合法合规且权属清晰,同时搭配相应的瑕疵担保和违约责任等。
2. 确保模型生成的内容合规
【要点】
根据《AIGC暂行办法》、《深度合成管理规定》等法律法规,服务提供者应当对生成的内容进行安全审查。服务提供者未尽审核管理义务而违反内容合规相关法律法规要求,可能面临相应的行政处罚。例如,2024年5月,因属地一AI服务企业未尽到审核管理义务、履行主体责任不到位,违规生成法律法规禁止的信息,重庆九龙坡区网信办依据《中华人民共和国网络安全法》给予其行政警告处罚,并责令该公司限期全面整改,加强信息内容审核,健全信息内容安全管理相关制度,暂停网站信息更新及AI算法生成式写作功能15日。
【相应措施】
服务提供者可采用关键词识别、人工抽检等方式对生成的内容进行安全审查,过滤掉违法不良信息以及涉及知识产权侵权的内容。当收到用户投诉或者通过其他方式被告知平台生成的内容违法时,应当及时采取停止生成、停止传输、消除等处置措施,采取模型优化训练等措施进行整改,并向有关主管部门报告。
服务提供者还可对用户输入的内容进行安全性检测,若检测出用户输入的内容可能涉及违规时,应及时向用户提供关于合规使用的指导以及风险提示,引导用户输入合法合规的内容。
3. 对生成的内容进行标识
【要点】
根据《深度合成管理规定》,“深度合成服务”是指利用深度学习技术,特别是生成对抗网络(GANs)和其他合成算法,来创建或修改数字内容,以生成逼真的图像、视频、音频或文本的服务。具体类型包括模拟自然人进行文本的生成或者编辑服务、语音生成或者显著改变个人身份特征的编辑服务等。服务提供者在提供可能导致公众混淆或者误认的深度合成服务时,还应当在生成或者编辑的信息内容的合理位置、区域进行显著标识,向公众提示深度合成情况。
【相应措施】
服务提供者可以在生成或编辑的数字内容上明确标注“深度合成”或“此内容经过合成”等字样,使用户能够一眼识别内容的合成性质。具体而言,在提供如图像、视频或音频等形式的深度合成内容时,可以在用户容易注意到的合理位置嵌入透明或半透明的水印,标明内容为深度合成,不影响观看体验的同时起到提示作用。确保用户在使用深度合成服务时,能够清楚地识别内容是否经过合成,从而做出相应的判断和选择。
4. 建立和完善用户反馈机制
【要点】
根据《AIGC暂行办法》,服务提供者应当建立和完善用户反馈机制。用户反馈机制是保护用户合法权益的重要手段,能够确保用户在遇到问题时有途径表达和寻求解决方案,也有助于服务提供者及时了解服务的优点和不足、及时管理和预防潜在的风险,从而不断改进和优化相关服务,促进内容合规的进一步完善。
【相应措施】
服务提供者可以在提供相关服务的平台的显眼位置设置便捷的投诉、举报等反馈入口,并提供在线表单、电子邮件、电话、社交媒体等多种反馈方式,确保用户可以多渠道及时反馈。对于用户的投诉、举报,服务提供者应及时受理,根据用户反馈的内容对模型和安全审查机制进行优化处理,同时也可视情况将处理结果反馈给相关用户。
5. 遵守《个人信息保护法》等相关规定
【要点】
与技术支持者不同的是,服务提供者作为直接面向用户的一方,需要特别关注用户相关的个人信息保护,在收集、使用用户个人信息的过程中,应维护用户权益、确保用户信任,遵守《个人信息保护法》的规定。
【相应措施】
服务提供者应制定清晰、透明的隐私政策,明确告知用户个人信息的收集目的、使用方式、共享范围和存储期限,并且一般仅收集提供服务所必需的最少个人信息,除获得用户的明确同意外,应限制对敏感个人信息的收集。服务提供者可以采用具有高标准数据安全措施的系统收集、存储和处理用户个人信息,防止数据泄露、滥用或未经授权的访问。另外,服务提供者亦可建立快速响应机制,确保一旦发生相关数据泄露或其他安全事件,能够立即采取行动,减轻损害。
(二)用户协议和用户权益保护的内容合规
【要点】
除了以上服务提供过程中的内容管理与审核要点外,对于服务提供者而言,面向用户的过程中还会涉及用户协议和用户权益保护的事项,亦需要考虑相关的要点和措施。
【相应措施】
1. 免责声明
服务提供者可以在用户协议中注明其所使用的数据或基础模型的来源方,并进行免责声明,服务提供者不承担因这些原始数据或模型本身的合规性问题而可能产生的任何直接或间接责任,以保护自己免受因原始语料数据的技术应用可能引发的法律问题。
2. 明确用户的权利
3. 明确用户的义务及责任承担
服务提供者应明确用户的义务,确保用户输入的内容不含有违反法律法规或公序良俗的信息,并且应当合法使用AI生成的内容,不得利用生成的内容从事违法活动或侵犯他人权利。同时,对因用户使用服务或者违反用户协议规定而引起的法律责任由用户承担。
4. 明确告知用户问题反馈和处理方法
依据《AIGC暂行办法》,人工智能大模型的服务提供者应告知用户具体的投诉路径以及平台应对投诉的处理流程、期限,并确定纠纷解决机制,包括仲裁条款等,确保用户知晓其投诉将得到有效处理。
感谢实习生刘佳振、王铭慧、徐光祖对本文作出的贡献。
扫码订阅“金杜律师事务所”,了解更多业务资讯