一、背景与问题引入
自2022年底ChatGPT发布以来,全球大模型领域经历了前所未有的快速演进。OpenAI、Google、Anthropic、Meta等国际巨头在推理能力、通用智能、视频生成等方向持续迭代,形成了“一超多强”的国际竞争格局。与此同时,中国也在多模态模型、推理优化、本地开源生态等领域取得了重大突破,涌现出如通义千问、文心一言、DeepSeek等一批具有国际竞争力的大模型项目,形成“百模大战”的局面。在这一背景下,大模型逐渐从科研探索走向商业落地,成为推动企业数字化转型和业务创新的重要工具。越来越多的企业希望通过接入第三方大模型,赋能客服智能化、产品研发、智能制造、内容生成、风险控制等各类场景,从而提升运营效率与竞争力。
然而,实践中,企业易发现接入第三方开源大模型并非简单的技术选型问题,而是涉及开源合规、数据隐私合规、知识产权保护与侵权风险防范、内容监管责任等多重复杂法律风险。尤其是当前主流开源模型在开放范围、使用限制、内容归属、数据利用政策等方面差异显著,企业若缺乏系统性合规评估,可能在不经意间引发违约风险和合规处罚,甚至损害自身品牌声誉。
因此,如何在顺应潮流引入第三方开源大模型提效的同时,确保合法合规、安全可控,已成为摆在各类大模型应用企业面前的一道核心课题,尤其是对于外资企业而言,因为模型本身的牌照以及境外服务器导致的数据跨境等原因,还会涉及要在境内使用专属模型的问题。本文将结合当前大模型技术发展趋势与典型应用场景,系统梳理接入第三方开源模型时需要关注的合规要点与风险防控策略,为企业在实践中提供参考指引。
二、第三方开源模型的典型接入方式
所谓“接入第三方开源模型”,是指企业在自身不直接训练基础大模型的前提下,通过一定的技术手段将第三方机构(如开源模型厂商、云平台服务商或其他技术提供方)发布的大模型能力引入到本地业务系统或产品服务中,用于实现自然语言理解、图像识别、内容生成等智能功能。如笔者在《从欧盟<人工智能法案>看开源大模型的法律责任》一文中所述,大模型系统往往由多种组成部分构成,具体包括推理代码、训练代码、模型权重和训练数据等,而所谓开源大模型,其开“源”的内容从“100%完全开放”到“100%完全封闭”的开放选项实际上是可以划分多个维度的。因此,根据接入模型的具体开源范围、部署位置、资源控制权、数据流向及接口形式的不同,企业常见的“接入”可以表现为API调用、本地部署、云托管、边缘计算等多种模式。
不同的接入方式不仅对应着差异化的技术架构与成本结构,更在法律维度上涉及数据控制边界、知识产权归属和侵权风险防范、输出内容责任承担、数据跨境等多重合规考量。接入路径的选择往往决定了企业对数据与模型的控制力强弱,也直接影响企业需承担的法律义务与风险敞口。因此,企业在引入第三方模型之前,必须将技术路径与合规策略一体谋划,确保“接得进、用得稳、守得住”。
(一)API远程调用(SaaS接入模式)
API远程调用是目前最便捷且普遍被采用的大模型接入方式。企业通过调用第三方平台(如OpenAI、通义千问、DeepSeek等)开放的标准化API接口,即可远程访问模型推理与生成功能,无需自建基础设施。通常,企业应用通过网络发送请求,平台基于HTTPS协议完成通信,并通过API Key实现身份认证和调用控制,从而返回推理结果。API接入的技术优势在于部署上线快速、开发维护成本低,同时支持按量计费,有利于初期小规模应用试点,且模型的更新迭代由服务商统一维护,企业无需额外投入;但其也存在明显的局限性,比如依赖网络连接稳定性、调用速率和并发数量受限、数据需传输至第三方处理而导致控制权减弱,以及功能使用受限于服务商API设计等。因此,API调用接入适用于客服智能应答、内容自动生成、数据辅助分析等场景,尤其适合对部署速度、成本控制要求较高,但不涉及高风险的个人信息处理场景的业务需求。
在通过API接入大模型服务的技术路径中,用户虽然未直接接触模型本体,大模型API的后端架构通常集成了多种开源工具链和小型模型组件,常见的技术路径包括使用Hugging Face Transformers加载模型、vLLM或TGI等推理框架调度生成流程,利用LangChain或LlamaIndex进行上下文构建,或在部分任务中嵌入如CodeT5、MiniLM、BLIP等开源模型作为辅助模块,这些开源组件在实际运行中构成了大模型服务的核心执行单元之一。另一方面,通过API接入所调用的大模型往往在训练和微调阶段大量依赖开源语料或公共数据集(如The Pile、Common Crawl等)。实践中,这些数据集可能存在版权归属不明、使用许可不明确,甚至混杂个人信息等问题。即便用户仅通过API获取生成文本、图像或代码等结果,其内容分布仍可能反映上述语料的语言风格与知识结构,从而在商用过程中可能面临间接的著作权侵权、数据合规义务,或因引用特定品牌、标识而引发的商标使用风险。
企业在考虑选择采用API调用接入模型时,应结合使用场景和目的重点关注以下法律合规问题:一是数据安全风险,需评估接入模型在数据(如客户信息、业务敏感数据)收集、传输与处理过程中的安全和合规(如是否涉及跨境)情况,并确保符合个人信息保护法等适用法律的要求;二是接入合同条款审查,需严格核查API协议/用户协议中对于输入和输出内容的用途限制、权属/许可安排及免责条款安排,避免因违反协议引发侵权或违约责任;三是内容合规责任划分,由于API服务方通常不对生成内容的准确性、合法性及知识产权侵权等方面作保证,企业需自行建立输出审核机制,防范生成违法、侵权或敏感内容带来的合规风险。
(二)本地部署(On-Premise自主部署模式)
本地部署是指企业将第三方开源大模型的代码、权重下载至内部服务器,自主搭建高性能计算环境(如GPU服务器、推理框架vLLM、Ollama等),在本地加载模型并独立完成推理处理,确保所有数据全程留存在企业内部系统中。该模式主要适用于处理中高敏感性数据的应用场景,以及需要对模型进行二次开发、自定义微调以适配特定业务需求的场合。其技术优势在于数据完全由企业自行掌控,确保符合严格的数据隐私与安全要求;同时支持深度定制和优化模型性能,提升业务适配性;且本地部署可有效避免因依赖外部API服务而带来的中断风险。然而,本地部署亦存在初期设备采购及长期运维成本高昂的劣势,对企业技术团队的硬件运维与模型管理能力要求较高,且后续模型升级与安全漏洞修补需由企业自主完成,运维保障成本较高。
企业在考虑选择本地部署接入模型时,除了本地化开发、调试和运维能力和成本外,从法律合规角度,首先需严格遵循原开源模型的许可协议条款和开发者协议[1],特别是用途限制(如禁止开发竞争性产品、分发限制及商用授权边界)及传染性要求;此外,在内容管控和知识产权方面,模型中可能嵌套的第三方训练数据集或外部开源库亦需逐一核查授权合规性,避免因附带内容侵犯第三方权利;同时应落实本地存储管理、访问控制、日志留存及应急响应机制,确保整体数据安全与合规运营。
(三)云平台私有托管部署(Private Cloud Hosting模式)
云平台私有托管部署属于平衡了API调用和本地部署模式的混合模式,是指企业将第三方开源大模型部署在云服务商(如阿里云、AWS、腾讯云)提供的专属私有资源环境中,既享受云端弹性计算能力,又能够保持一定程度的数据隔离与自主控制。通常,企业通过租用云厂商的虚拟私有云(VPC)或专属服务器,隔离出独立的计算资源,完成大模型的部署与运行,推理请求则通过安全加密通道远程调用。该模式适用于对数据安全性要求相对较高、又希望降低自建基础设施负担的大型企业,特别是涉及多地域部署、异地容灾及全球业务拓展的场景。该模式兼具API调用和本地部署模式的优势,可以显著降低企业开发运维方面的成本投入,但数据安全仍依赖第三方服务商的技术与管理水平,存在云服务中断或故障的潜在风险;此外,若使用境外云节点,还需额外处理数据跨境流动的合规问题。
企业在选择采用云托管部署接入模型时,一方面,鉴于云平台私有托管部署过程中使用的依然是第三方云服务,应当对结合应用场景考虑云托管部署的数据安全性是否可以达到要求,特别是应在合同中明确数据归属及访问控制条款,限制云服务商对数据的访问与使用权限;若云资源位于境外,还需评估满足数据出境的合规要求的实际难度;另一方面,云平台私有托管部署过程系在云服务商专属私有资源环境下部署大模型,因此本地部署模式下涉及的协议条款遵守、内容管控和知识产权方面仍然适用,特别注意对私有云服务水平、以及云平台对后续开发和运维过程中的安全事故责任承担进行明确约定,避免因事后责任界定不清导致的合规与赔偿风险。
(四)其他部署方式
除了常见的API远程调用、本地部署和云平台私有托管外,企业在接入第三方开源模型时,根据不同的业务场景与技术要求,选择大模型在本地和云端的部署方式,比如边缘计算部署(Edge Deployment)、容器化微服务部署(Containerized Microservices)和混合架构部署(Hybrid Architecture)等。
三、典型场景下接入第三方开源模型的合规要点与风险防控
在实践中,企业接入第三方开源模型的应用场景类型日益丰富,涵盖从内部效率提升到外部产品创新的多个维度。较为常见的场景如:将语言模型集成进日常办公和流程系统,用于文本处理、知识辅助、流程优化等,提高日常运营效率;嵌入客服系统,实现7×24小时自动应答高频重复问题,提升响应速度,缓解人工客服压力;在内容生产领域,通过模型辅助生成文案、图像、短视频脚本等,显著提升营销与创作效率;在研发环节,引入模型支持数据分析、概念设计、性能优化完善等,加速产品开发周期。此外,部分ToB服务商还以模型为核心构建行业化解决方案,如智能问诊、金融分析助手、电商营销内容生成平台等,将模型能力“产品化”后赋能终端客户。
这些应用场景虽形态各异,但背后均涉及模型使用的合法性边界、输入数据的合规性要求及输出内容的责任归属,构成企业开展大模型应用所必须直面的核心合规议题,就此,我们根据企业对大模型及其生成内容的利用程度从浅到深的不同阶段,将企业接入第三方开源模型分为以下三类主要应用场景:
- 场景一:企业采购内部自用。企业作为大模型使用者,通过采购第三方开源模型,支持内部办公、数据分析、内容生成等业务,以供企业内部使用。
- 场景二:生成内容对外服务。企业不仅作为大模型使用方调用第三方模型生成各类内容,还将生成内容(而非大模型本身)作为自身产品或服务的一部分向外提供,典型应用包括企业借助AI写作平台、图像生成服务、广告内容创作等完成面向最终用户的交付物。
- 场景三:调试模型对外商用。对于在业务层面具备技术集成与产品化能力的企业,可在第三方开源模型基础上的进行微调、功能拓展与系统融合,形成具有针对特定行业的垂类商用模型、生成式应用产品或定制化技术方案,从而对外输出调试后的模型进行商用。
在场景一和场景二下,企业主要作为人工智能服务的使用者,也是实践中对于各行业企业作为“用户”最为常见甚至几乎不可避免的业务场景,而在场景三下,企业调试模型并对外商用,本身即构成人工智能服务提供者,同时还可能构成技术提供者,其所面临的合规义务与大模型服务提供方更为相似。以下将简要介绍前两种场景下企业所面临的法律风险和建议。
(一)企业内部自用(大模型服务使用方)
在内部自用的应用场景下,企业作为大模型使用者,通过上文所述的不同部署方式接入第三方开源模型,用于支持内部办公、数据分析、内容生成等业务,仅限于企业内部自使,不对外提供模型服务或生成内容。实践中,企业通常会以软件平台采购的方式接入大模型服务,并将模型功能嵌入现有系统或工具中,形成定制化的内部应用体系。在此类场景下,尽管模型调用和内容生成行为仅限于企业内部,但企业仍需从合规治理全流程出发,系统识别并管控模型引入和使用过程中的关键法律风险,具体包括以下几个方面:
从模型协议维度:如前所述,一般的To C大模型涉及开源协议、用户协议及隐私政策、开发者协议等法律文件,而相较于To C大模型,具有一定购买力的企业往往会选择单独磋商大模型采购协议的条款,以获得更为有利于商用的合同条款,也可以通过合同安排避免因为模型更新而对应的协议条款变动带来的不利影响,以下仅以开源协议和用户协议进行说明。
1)开源协议:无论采用何种部署方式,企业接入并使用第三方开源模型(或组件、数据集等)时首先应严格遵循该模型所适用的开源许可证(如Apache 2.0、MIT、BSD、Llama 2 Community License等)中的条款要求。一般常见的要求包括不得超出许可范围进行模型调用,不得将模型用于禁止用途(如商业化限制、军事用途限制),以及不得在未满足相应条件的情况下对模型进行修改、再分发或衍生开发;此外,有定制化二开需求的企业应特别注意部分“传染性”许可证(如带有Copyleft义务的GPL类协议或OpenRAIL-M)还可能要求对衍生作品也进行开源,企业需结合自身商业目标审慎评估模型许可条款的兼容性与约束性。
2)用户协议:用户协议通常对模型的使用方式、地域范围、用户行为规范、生成内容的归属与使用限制、数据隐私、平台免责范围、更新和维护等作出系统性规定,企业在采购及磋商谈判时应重点关注以下几个方面:
- 知识产权:厘清平台是否保留对用户输入内容或生成内容的使用权、进一步改进和训练权,尤其是平台是否默认或强制要求将用户输入内容用于模型优化;对于模型厂商参与定制部分的前景知识产权归属,应结合支付的对价以及双方各自对于开发部分的商业诉求深入磋商,以求达成一致;
- 数据隐私:用户协议中一般会通过条款设置以明确平台与企业之间的数据处理关系,并对企业用户输入的数据授权提出要求。在审阅磋商平台协议过程中,应特别注意平台如何收集、存储和使用用户个人信息,关注平台采取的数据安全措施,以及发生数据泄露的应对和责任承担;
- 平台责任:核查平台是否就输出内容的合法性、准确性作出任何明示或默示担保,并结合业务场景对生成内容引发侵权、误导等问题的责任安排进行分担;
- 更新和维护:考虑到模型可能会不断更新和升级,应当结合费用安排对于模型平台(特别是本地部署平台)的更新、升级和运维,尤其是升级版本是否纳入范围以及运维服务的服务水平和持续性等方面予以重视。
从输入内容合规管控维度:大模型通常需要处理由企业提供的提示词、知识库内容、业务数据或训练语料等输入信息,若输入内容中涉及个人信息、敏感业务信息或客户资料,企业需履行相应的合规义务,确保输入内容处理全过程符合法律法规的要求。
- 企业应确保输入内容具有合法来源,不得使用未经授权的第三方内容,尤其是在涉及客户资料、外部报告、在线抓取内容等情形下,需审慎核查数据权属与授权范围。
- 若输入内容中包含自然人的个人信息,应满足《个人信息保护法》等法律对合法性处理条件的要求,包括取得明示同意、明确告知处理目的与范围、落实数据主体权利等。
- 企业需明确了解模型平台对输入内容的处理政策,重点关注输入内容是否会被平台用于二次训练、功能优化或商业再利用,并结合平台功能设置关闭“数据优化”选项或其他默认收集行为,以控制数据用途与流向。若使用境外平台,企业还需关注数据是否存在跨境传输行为,并评估是否应当履行数据出境相关法律义务,如开展数据出境安全评估或个人信息出境标准合同备案等。在技术控制层面,企业应优先选择支持本地部署或不涉及数据跨境传输的第三方模型,同时在内部建立输入内容的审查机制,采用人工复核与自动过滤结合的方式,防止违法或高风险数据被意外输入模型系统。
- 企业应考虑调整内部关于个人信息和商业秘密管控流程,特别是对于非本地部署的模型平台,建议设置使用模型平台时的访问权限管理、日志留存机制与数据最小化原则,提升整体数据处理过程的透明度与可控性,从源头降低因数据泄露或不当处理引发的合规风险。
从数据合规维度:在训练和使用模型平台的过程中,企业将不可避免个人信息甚至重要数据输入平台系统,如果平台服务器位于境外或者可能涉及向境外提供访问权限,则取决于模型平台与企业之间的数据处理关系,涉及数据分享/委托处理以及跨境合规问题,包括个人信息收集过程中最小必要原则,告知同意原则,以及重要数据处理和跨境相关的合规问题。实践中,考虑到大部分商业场景下输入数据本身不可控性,我们建议国内企业最好使用服务器位于境内的模型平台。
除上述外,模型平台本身作为软件的一些通用性合规要求,比如模型在算法备案、大模型备案,以及电信、公安和数据等方面的合规牌照、以及模型本身的知识产权侵权风险,也应在协议中通过陈述保证以及责任承担等方式予以规制,在此不做赘述。
(二)生成内容对外服务(大模型服务使用方/将生成内容作为对外交付物的提供方)
在该类场景中,企业不仅作为大模型使用方调用第三方模型生成各类内容,还将生成内容作为自身产品或服务的一部分向外提供,典型应用包括企业借助AI写作平台、图像生成服务、广告内容创作等完成面向最终用户的交付物。这一角色的转变意味着企业从单纯的模型使用者转向了生成内容的“提供者”,其法律责任范围也相应扩展,需同时面对输出内容本身的权利归属问题以及对外传播所带来的法律风险。
1)生成内容的权利归属:企业应首先审查并通过协议明确模型平台关于生成内容的归属安排和使用限制。不同模型提供方对生成内容的知识产权归属、使用权利、衍生作品开发权限等规定差异显著——有的平台声明生成内容归属用户所有,有的平台则保留部分使用权或附加限制性许可(如禁止商用、禁止再分发)。企业在使用之前应明确其与平台之间企业对生成内容是否享有排他性控制权,是否可以用于后续加工、集成、归档,或对外发布,避免因权属模糊或平台限制条款而引发侵权、违约纠纷。即使模型生成内容仅用于企业内部会议、文档撰写、汇报材料中,若内容带有明显的第三方风格特征、涉及知名IP、公众人物或品牌形象,亦构成商业使用,需警惕潜在的侵权风险。因此,企业应在制度层面建立生成内容对外提供的审核机制、使用规范,并视情况对生成内容进行适度加工、明确署名、标记生成方式等,以提升其可版权性与权属明晰度,降低未来潜在争议的发生概率。
2)生成内容的可版权性:尽管目前司法实践中对于人工智能生成内容的可版权性仍然存在不确定性,企业若希望就生成内容获得版权保护,则在确保平台通过用户协议等让渡生成内容归属的基础上,企业应妥善保留使用协议、生成记录、提示词设计与生成过程步骤等原始资料,必要时辅以时间戳、公证、区块链存证等方式强化归属主张。为提升生成内容的可版权性,建议企业对生成内容通过人工进一步加工调整,确保其具备独创性,符合著作权法关于作品保护的实质标准。
3)生成内容的知识产权侵权风险:目前,国内主流厂商均不对人工智能生成内容提供知识产权侵权赔偿,仅微软等针对Copilot提供版权承诺书,承诺商业用户若因使用Copilot或其生成输出而遭第三方版权侵权诉讼,微软将同意为该用户辩护并支付因案件而产生的赔偿金——前提是该用户已使用产品中内置的防护装置和内容过滤器并遵守了其他条款。因此,企业在采购大模型并将生成内容用于对外交付时,建议优先选择采用为用户提供输出内容知识产权侵权赔偿责任的大模型,并遵循其使用限制。在条件允许时,企业可选择本地部署大模型,并构建自有知识库,约束大模型仅使用自有知识库产生输出内容。此外,企业应保留好生成过程的记录,并建立知识库筛查与输出内容审核机制,重点识别是否涉及他人商标、影视角色、知名人物形象等受保护标的,尤其对公众熟知的第三方IP应保持高度敏感,尽到合理的注意义务,防止引发侵权纠纷。
4)生成内容的合规管控:由于大模型生成结果具有一定的不可控性,平台通常在协议中设有明确免责条款,不保证内容的合法性、准确性或适用性。考虑到实践中此类问题属于大模型数据训练的原生问题,任何开源模型提供方均难以对此责任兜底,因此,一旦企业基于模型生成内容向外提供服务,由于企业为该内容的提供方,企业将对所提供的内容负责。若生成内容中含有虚假、违法、歧视或误导信息,企业将面临民事索赔、行政处罚或品牌声誉受损的风险。为降低此类风险,企业应建立输出内容的审核流程,配置关键词过滤、图像识别、人工复审等防控机制;同时可考虑在对外发布内容中设置免责声明,说明内容由AI技术生成、结果仅供参考、企业不就其法律后果承担保证责任。
5)对外宣传时使用商标的风险:考虑在本场景下涉及将生成内容对外交付,企业很可能需要在对外沟通和宣传时如实地提及借助模型的情况,而实践中部分许可证和用户协议禁止未经授权使用项目商标进行商业宣传,此时应当特别注意对于模型商标的非指示性使用而导致的侵权问题。
综上所述,企业内部自用以及将大模型生成内容作为对外交付物的情形下,企业作为大模型服务的使用者,需重点关注协议约束、输入内容合规管控、生成内容的合规管控(如归属、可版权性、侵权风险、宣传口径等)。而随着企业对大模型应用从“内部工具”向“对外服务”延伸,企业可能逐步承担技术研发、服务部署等双重角色,这也将带来新的法律合规挑战。在下篇的文章中,我们将聚焦企业调试模型对外商用的场景下,企业作为技术提供方和服务提供方所面临的合规风险和风险防控要点。敬请关注。
感谢实习生苏海林对本文作出的贡献。
扫码订阅“金杜律师事务所”,了解更多业务资讯
开发者协议(Developer Agreement)一般在以下两种情形下适用:(1)平台为开发者提供API或SDK接口时,附带特定开发者条款(如OpenAI、百度、阿里平台);(2)企业参与贡献模型代码、微调结果或上传自定义数据至平台生态时,平台可能通过贡献者许可协议(如CLA)或用户生成内容条款主张权利。在单纯“企业用户自用”场景中,开发者协议通常不构成主要适用协议,但若企业通过平台提供的API进行功能集成、调用模型API接口或构建插件产品,则应查阅该平台提供的“开发者协议”或“集成商协议”,确保不违反接口使用限制、输出归属要求等约定。