欢迎访问上海社会科学院法学研究所!
当前位置:首页  新闻中心
【学术研究】政治与法律 | 孙祁:规范生成式人工智能产品提供者的法律问题研究

日期:2023-07-28来源:法学研究所

孙祁

上海社会科学院法学研究所助理研究员、清华大学社会科学院在职博士后研究人员

摘要:以ChatGPT模型为代表的生成式人工智能技术是人工智能领域里的一项突破性技术,其在满足人们多元化需求的同时也发生了技术应用的异化,使其生成的内容存在违法风险。生成式人工智能产品的提供者在数据来源、算法设计等决定人工智能生成内容的核心要素方面充当着“把关人”和决定者的角色,因此,应明确其是生成式人工智能产品的责任主体。基于此,最近发布的《生成式人工智能服务管理办法(征求意见稿)》明确规定生成式人工智能产品的服务提供者应承担产品生成内容的生产者责任以及个人信息处理者的责任,具有正当性。然而,鉴于我国现行法在数据处理和算法管理上的规范供给不足,以及在著作权主、客体范围的规定上存在局限性等问题,未来在立法上,除了应进一步明确生成式人工智能产品提供者所承担的法律责任的内涵,也应体系化地对其相关权利义务作出具体规定,以实现对生成式人工智能产品提供者法律规范的整体妥当性。

关键词:生成式人工智能;产品提供者;责任;正当性

目    次

一、问题的提出

二、生成式人工智能的生成内容存在合法性风险

(一)数据源合规性风险

(二)算法风险

(三)数据泄露风险

三、由生成式人工智能产品提供者承担相应责任具有正当性

(一)生成式人工智能技术的内在逻辑

(二)由生成式人工智能产品的生产者承担责任的原因

四、产品提供者应成为生成式人工智能生成物的著作权主体

(一)人工智能生成物应当成为著作权的客体

(二)服务提供者应是人工智能生成物著作权的权利主体

五、生成式人工智能产品提供者相关规范的完善建议

(一)规范生成式人工智能产品提供者的法律责任类型

(二)强调生成式人工智能产品提供者责任的同时应明确其权利

(三)监管机构以“全链条监管”模式,保障生成式人工智能技术发展和安全

六、结语

一、问题的提出

ChatGPT作为一种大型语言模型,具有生成性和通用性双重特征,这与从大量数据中寻找隐藏模式并形成预测的传统分析式人工智能有本质区别,以ChatGPT模型为代表的生成式人工智能可以通过学习、训练人类创造的海量语料库中的基础数据来生成新的内容,这对规范类ChatGPT模型生成式、创造性人类活动的法律提出了新的挑战。生成式人工智能的整体运作模式相比人类传统工作模式,其最大的特殊性在于,由于人工智能生成之成果所依赖的基础数据和程序计算方式由其服务提供者确定,故而,生成式人工智能产品服务提供者在很大程度上可以决定人工智能生成成果的合法性。由此,对于生成式人工智能产品及其生成成果的规范重点均应当是其服务提供者。

鉴于此,2023年4月11日,国家互联网信息办公室印发《生成式人工智能服务管理办法(征求意见稿)》(以下简称:《办法》),面向全社会公开征求意见。《办法》的颁布旨在规范生成式人工智能技术的发展,划定责任主体,制定行业底线,特别是强调生成式人工智能产品的提供者责任,《办法》第五条规定:“生成式人工智能提供者需承担该产品生成内容生产者的责任;涉及个人信息的,承担个人信息处理者的法定责任,履行个人信息保护义务。”

应当承认,《办法》第五条明确将生成式人工智能提供者确定为责任主体并划定了相应的责任范围,是对人工智能生成成果存在违法情形时的追责规则的补充和完善。然而,《办法》作为回应新问题而在短时间内快速出台的新规,难免在细节和协同规制方面存在提升和完善的空间,在责任划定条款方面仍需探讨其内涵和外延,一是,需要探讨条款中所指出的生成式人工智能产品提供者责任划定的正当性;二是,明确生成式人工智能产品提供者所承担的法律责任的内涵;三是,需要明确生成式人工智能产品提供者享有与其所承担的责任相匹配的权利,以实现对生成式人工智能产品提供者法律规范的整体妥当性。

二、生成式人工智能的生成内容存在合法性风险

因生成式人工智能所生成的内容直接与其输入数据源密切相关,且输入数据类型和输出内容携带的价值判断往往多种多样且参差不齐,这使得在技术开发与使用过程中面临全新的法律规制风险与科技伦理挑战,这类风险和挑战在数据安全领域表现得尤为突出,如数据源违规收集、算法失控、内容真假难辨、虚假信息泛滥、个人隐私保护缺位、侵害著作权等相关问题。

本文将上述数据领域的风险和挑战归纳为三大类,即数据源合规性风险、算法风险以及数据泄露风险。

(一)数据源合规性风险

ChatGPT模型在技术路线上采用自然语言处理+搜索引擎集成的架构,建构了预训练语言和人类反馈的强化学习模型,连接大量语料库,通过生成式预训练方法处理大模型序列数据来得到一种通用的模型表达。简言之,该模型使用大规模的无监督语料库来预训练,使其拥有类似人类大脑的语言理解和具有一定独创性的文本生成的能力,能够完成用户指令的任务。

依据OpenAI对ChatGPT模型的工作原理的介绍可知,OpenAI的GPT-2模型的训练语料库中的数据集包括了多种来源,其中包括:网页内容类,从Internet Archive和Common Crawl等网站中获取了40TB的文本数据,其中包括了来自全球各个国家和地区的大量网页内容,例如维基百科;书籍和小说内容,例如电子书、小说和其他书籍的文本数据;新闻文章内容,例如OpenAI使用了大量来自各种新闻网站的新闻文章,包括美国和其他国家的主要新闻网站,包括政府和未验证真伪网站信息;除此之外,OpenAI还使用了一些其他的数据资源,包括电子邮件、电视剧和电影字幕等。

值得注意的是,OpenAI未公开最新版本ChatGPT(GPT-4)模型的学习语料的数据来源。这些在预训练模型下的无监督语料库中的数据仍属于算法“黑箱”,OpenAI并未对外公示所使用的数据来源,相关训练数据库是否均获得授权还存在疑问。这就会出现如下情形,即ChatGPT模型对数据的无监管挖掘处理和生成,使用者将无从获悉算法设计者、实际控制者(生成式人工智能产品提供者)在生成内容时所使用的数据来源信息,更不清楚数据的可靠性或算法的目标,这会让使用者承担对输出的内容文本的基础语料库的数据是否存在内容不合法不合规、内容虚假或完全错误的风险。

除此之外,ChatGPT模型在预学习阶段对数据库信息无过滤机制,可能使其在运行阶段就会因为算法“黑箱”的数据生成不良、虚假或违法信息。而在预训练后的深度学习将通过前期大量的训练数据对模型进行训练,最终确保在特定输入数据下通过“黑箱”运行,得到输出结果。从技术机理上看,深度学习等算法的安全性与数据具有强耦合性,不同数据所触发的神经网络节点并不相同,测试结果也不尽相同。针对“静态”情况下的深度学习算法进行的安全测试仅能发现较少漏洞,即使进行反复训练后的结果输出也会因算法设计者、实际控制者(生成式人工智能产品提供者)以及机器的初始数据而产生不安全性。

(二)算法风险

以ChatGPT模型为代表的生成式人工智能技术的出现,意味着当今社会已经步入了一个围绕由数据、算法、人工智能体所作出的社会和经济决策而构建起来的算法社会(Algorithmic Society)。事实上,在这个社会中,数据、算法、人工智能体不仅作出决策,而且在某些情况下执行这些决策。在由算法做出自动决策的场景中,实际上包含了两项程序,一是算法的自主性学习,二是算法的设计系统。算法的自主性体现在解答人类给出的特定任务,而算法的设计系统的表示行为背后是算法提供者的意思表示。因此,算法本身就具有生成式人工智能产品意思形成的工具属性。基于这一属性,算法风险主要体现在两方面,一是算法异化,二是算法歧视。

算法歧视和异化将造成生成式人工智能产品使用者陷入“偏信则暗”的信息窄巷。算法的设计,数据的输入,结果的输出三个过程中均是背后的提供者意志领域范围内的事项,基于提供者的意志设计算法,就会出现算法的歧视和异化。

一是人工智能的歧视。人工智能算法是由人编写的,因此它们往往会反映出人类的意志甚至偏见,人工智能的歧视的本质是算法的歧视。若算法设计的提供者利用算法推荐带有个人色彩和歧视的服务,这将使得生成物具有算法歧视色彩,误导使用者对生成物的真实理解。例如,ChatGPT模型的主要特点是基于便捷的人机互动而输出的生成物,其不会像传统搜索引擎一样提供多个相关结果由使用者自行选择,若ChatGPT模型输出内容是基于前期算法所设定的歧视数据,加之模型原理是基于无监督学习和训练的方式,那么由于其获取的信息难以经过实质性筛选和过滤,就会造成输出的文本内容虚假或完全错误而违反相关法律。

二是人工智能的异化。算法本身具有自我学习功能,算法完成后是以独立的、自我运行的方式存在,那么在自我学习功能设计前的系统设计就显得尤为关键,若算法本身在设计之初就出现异化,那么算法在脱离人的掌控下进行自我学习的过程就将成为算法服务提供者实现不可告人目的的“私器”。除此之外,也存在恶意“训练”人工智能,故意异化人工智能,使其提供诈骗信息、钓鱼网站等内容的情形。

(三)数据泄露风险

类ChatGPT生成式人工智能工具一直饱受“泄露数据和隐私信息”的诟病,这是由于ChatGPT模型依托语料库中海量数据信息,其中包括大量的互联网用户自行输入的信息,因此当使用者输入个人数据或商业秘密等信息时,ChatGPT模型可能将其纳入自身的语料库留存在神经网络中而产生泄露的风险。同时,ChatGPT模型对信息、数据来源无法进行事实核查,可能存在无法识别个人数据、商业秘密、国家机密等信息进而将其泄露的风险。具体表现如下。

一是用户个人信息泄露导致的侵犯隐私权问题。OpenAI公司于4月5日发布声明,宣布了一系列整改措施,包括“保护儿童”“尊重隐私”等,其中在尊重隐私上,OpenAI方面表示,尽力在可行的情况下从训练数据中集中删除个人信息,微调模型来排除收集个人信息,并回应用户删除个人信息的请求。但笔者认为,这一份整改措施涉及个人信息数据的合规存储、处理和生成等问题仍未真正妥善解决。首先,尽管ChatGPT在回答关于隐私的问题时声称其不会记住使用者的任何信息,也不会主动提供用户个人信息。但是,它又表示与使用者对话的数据需要被存储在开发者美国人工智能公司OpenAI或使用的云服务提供商的数据中心。其次,在人机交互问答中,提问者与ChatGPT分享的隐私和个人信息可能被用于未来模型的迭代训练,ChatGPT模型训练中使用的数据大多来自互联网,后者可能包含大量的个人信息和数据,而未经使用者同意的数据抓取和训练模型强大的推理能力又极大地增加了个人信息泄露的风险。最后,含有个人信息的问答内容可能成为模型训练的基础“语料”,这使ChatGPT输出的内容包含使用者提供的个人信息或重要数据。即便泄露用户个人信息的概率非常小,但如果加以刻意引导和提示,它仍然可能用来生成包含个人信息内容的回答,带来更多的个人信息数据合规问题和法律风险问题。固然,即使OpenAI承诺删除所有个人身份信息,但未说明删除方式,在其不能对信息与数据来源进行事实核查的情况下,这类信息仍然存在泄露风险。

二是商业秘密泄露导致的不正当竞争和侵权问题。中国支付清算协会不久前发布的《关于支付行业从业人员谨慎使用ChatGPT等工具的倡议》(以下简称:《倡议》)指出,ChatGPT类智能化工具已暴露出跨境数据泄露等风险。笔者认为,中国支付清算协会发布该《倡议》正是基于生成式人工智能技术本身所带来的数据安全风险进行的风险防控措施,由于ChatGPT模型等生成式人工智能技术的训练数据中包含了公司内部的一些商业机密信息,例如客户隐私、海量数据、机构秘密等众多数据细节等等。若使用者利用该技术输入了关于涉及公司隐私的商业数据,人工智能未经使用者同意的数据抓取和训练模型强大的推理能力将加大公司商业数据意外泄露到竞争对手手中的风险。其中,韩国三星公司泄漏芯片机密就是典型例子。

三是国家秘密泄露导致的危害国家安全问题。目前,各国对国家机密文件和信息监管较严,但若片段性或零碎的信息被ChatGPT模型收集,将会与其他数据结合在一起进行挖掘分析,从而推断出可能危害国家安全、公共安全、个人和组织合法权益的情报信息。随着ChatGPT在世界范围内的普及和广泛使用,产生这一类风险的概率也将大大提高。

三、由生成式人工智能产品提供者承担相应责任具有正当性

如前文所述,《办法》第五条规定了由生成式人工智能产品提供者来承担该产品生成内容生产者的责任,笔者认为,从客观上来看,生成式人工智能产品提供者和生成内容的生产者并非同一主体,因此《办法》这一规定的正当性需要予以进一步证成。

(一)生成式人工智能技术的内在逻辑

以ChatGPT为代表的人工智能模型本质上属于生成式人工智能,而生成式人工智能目前有两种主要的框架:GAN(Generative Adversarial Network生成式对抗网络)和GPT(Generative Pre-trained Transformer生成式预训练转化器)。以ChatGPT为代表的新一代生成式技术的应用模型,其技术框架是基于第一类“生成式预训练转化器模型(GPT)”而实现生成式的内容输出,其本质是利用预训练语言模型和人类反馈的强化学习(RLHF)来确定给定指令的最适当响应,从而随着时间的推移提高模型的可靠性和准确性,生成具有类似“人类语言”特点的自然文本内容。

ChatGPT模型的文本生成是基于预训练的神经语言模型GPT构建的,利用GPT的能力对自然语言进行建模来生成自然文本,这一套系统的模型构造,呈现出“深度学习”的能力,通过神经语言模型样本自主产出内容,并进行整合和汇编,最终生成具有“人类语言”特点的文本。具体而言,以ChatGPT模型为代表的生成式人工智能技术对数据的解读训练、整合、输出与人类学习和内容表达存在相似之处,属于“人工智能生成内容”(AIGC,AI Generated Content),其生成的文本的技术逻辑是基于大量文本数据下神经语言模型的统计、应用和构建形成的,这与传统人工智能下的语言数据模型脱离语料库则无法运行不同,ChatGPT模型的文本生成已具备了模拟人脑神经网络模型的算法模型构造。

(二)由生成式人工智能产品的生产者承担责任的原因

在这种技术逻辑下,生成式人工智能技术产品本质上是生成式人工智能技术,或者说是该技术下的算法模型,如果按照技术逻辑去划定承担生成式人工智能产品的责任主体,那么生成式人工智能技术,或者说ChatGPT模型本身应当成为履行义务和承担责任的主体。显然,这一逻辑能够得以成立的前提,是以ChatGPT模型为代表的生成式人工智能是否具有法律上的主体资格。虽然国内外有学者主张可以根据物种位阶的规范主义立场,为人工智能构建一种以责任承担为基础的特殊财产性法律主体,但这类构想是对现有法理以及法律体系颠覆性的变革,在现有的法律体系下短期内较难实现。

《办法》中规定生成式人工智能产品提供者(提供者既包括个人,也包括组织)承担该产品生成内容生产者的责任,是将生成式人工智能产品提供者视为生成内容的生产者。尽管从技术逻辑来看,以ChatGPT为代表的生成式人工智能才是其所生成成果内容的直接生产者,应当作为内容生产者履行义务和承担责任,但考虑到生成式人工智能产品提供者对生成内容的基础素材和生成过程客观上具有较强的控制力和决定力,因此笔者认为,《办法》确定由其承担生成内容生产者的责任具有正当性。此外,这样的规则安排也能解决目前法律体系下无法赋予生成式人工智能独立法律主体地位的问题。

1.服务提供者是生成式人工智能产品的预训练数据、优化训练数据来源筛选和控制的主体

《办法》第五条将生成式人工智能服务“提供者”划定为利用生成式人工智能产品提供聊天和文本、图像、声音生成等服务的组织和个人,包括通过提供可编程接口等方式支持他人自行生成文本、图像、声音等的组织和个人。据此,提供者应受制于《办法》中关于服务提供者的监管要求,承担产品生成内容生产者的责任和个人信息保护义务。

作为语言生成式模型,ChatGPT模型训练数据由大型语料库中的基础数据组成。根据2022年12月中共中央、国务院印发的《关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称:《意见》)关于数据相关规定可知,ChatGPT模型训练数据的基础数据来源可大致分为三类:公有领域的数据、通过签订合同获得合法授权的数据、未经授权的数据。笔者认为,这三类数据的权利属性不仅涉及数据来源者、数据处理者(服务提供者)、数据控制者等不同主体之间的利益平衡,同时也涉及数据处理者(服务提供者)对生成式人工智能产品预训练数据、优化训练数据使用和加工行为所承担的义务和责任。

来源于公有领域的开源数据属于不受限制地使用和加工的数据。关于公有领域的数据是否可以不受限制地加工、使用,国内学术界和实务界存在着诸多争议,这些争议均聚焦于公有领域数据和知识产权保护之间的关系。笔者认为,在现有法律体系下对于公有领域数据的使用与知识产权保护的关系非二元对立,而是基于两者动态平衡下公有领域数据的公平分配和使用。那么在人工智能搜集基础数据时,对于公有领域的数据应被视为有效接触的数据、信息资源,也就是说为公有领域的数据不属于私人所有,任何人可以不受限制地使用和加工的数据,包括本身便不受法律保护的内容及已过著作权保护期限进入公有领域的数据信息,但涉及承载个人信息和影响公共安全的公共数据除外。同时,数据准确性、真实性对于人工智能和语料库模型的成功至关重要,而来源于公有领域的开源数据未必全部是准确的真实性数据,在纳入初始语料库时,只有服务提供者才能对其进行把控、选择,因此,虽然来源于公有领域的开源数据属于不受限制地使用和加工的数据,但甄别和选择数据的主体责任就落在了服务提供者身上。

通过签订合同获得合法授权的数据是基于合同约定依法使用和加工的数据。《意见》第7条指出,“在保护公共利益、数据安全、数据来源者合法权益的前提下,承认和保护依照法律规定或合同约定获取的数据加工使用权”。这在两个层面界定了数据加工使用权赋权的前提:一是在结果层面上,获取数据加工使用权不应损害公共利益、数据安全、数据来源者的合法权益;二是在行为层面上,数据处理者(服务提供者)加工、使用数据应当以依照法律规定或者合同约定为前提。《意见》强调“合理保护数据处理者(服务提供者)对依法依规持有的数据进行自主管控的权益”,因此,数据处理者(服务提供者)依据合同约定依法拥有数据使用和加工的权利,其作为权利主体“依法持有”合同约定的数据,这将成为数据处理者(服务提供者)对生成式人工智能产品预训练数据、优化训练数据的正当性依据。

未经授权的数据天然具有侵权风险。这类数据作为著作权的客体,本身受著作权保护。若以ChatGPT模型为代表的生成式人工智能的数据处理者(服务提供者)在未经授权的情况下利用“爬虫”技术获取网络数据及内容、非法获取数据库内容以及未经许可数字化非电子数据内容等方式对相关内容进行挖掘使用,并构建训练数据语料库模型,即使数据处理者(服务提供者)对其采用清洗、加工、分析等手段进行训练、汇编,但仍涉及未经授权使用受著作权保护的数据,因此这类数据作为初始数据本身就已经侵权,服务提供者再对其加工为人工智能生成物,那么这类人工智能生成物就是侵权的产物,不应受著作权保护。

由此可见,生成式人工智能产品提供者有权利对于初始数据进行筛选,提供者知道哪些数据可以合法合规使用,哪些数据不可以被使用,使用后会造成侵权,生成式人工智能其他主体没有相关权限对于初始数据的合法性进行把控和监管。固然,在利用合法合规初始数据的前提下,数据产品经营权的客体并非原始数据或者数据集合,而是经匿名化处理、加工、分析而形成的数据或数据衍生产品,后者已经实现与前置性权益的切割,成为独立的权利客体,因而,这类产品的所有者理应对产品生成全过程负责。因此,笔者认为服务提供者应当对生成式人工智能产品预训练数据、优化训练数据来源合法性负责,并享有该数据的经营权,这类权责的划定使数据的合法性以及真实性不再仅局限于被动的事后救济,而是积极的要求服务提供者对生成式人工智能产品预训练数据、优化训练数据来源进行负责。

2.服务提供者是生成式人工智能算法设计的主体

生成式人工智能主要基于深度神经网络,通过预训练、优化训练大规模的数据集,学习抽象出数据的本质规律和概率分布,并利用生成模型生成新的数据,形成最终产品。在生成式人工智能技术中可以认为,数据是产品生成的基础,而算法是加工和处理这一基础资源的技术手段,决定了生成物的价值取向和合法合规性。

由于算法所形成的“模型设计+数学规则”的高度技术性和复杂性,导致非算法专业人士尤其是普通公众,无法掌握或理解算法的运行和决策原理。而算法“黑箱”的技术壁垒又导致了非算法专业人士无法探究算法推荐服务提供者是否存在过错,这足以阻碍对算法推荐服务提供者按过错责任归责。据此,强化算法推荐服务提供者的注意义务就显得尤为重要。

生成式人工智能技术中,数据是基础,算法是加工和处理这一基础资源的核心,决定了生成物的价值取向和合法合规性。算法技术本身是中立性的,但这是基于技术本身,一旦算法走向具体应用,由于算法推荐服务提供者(人和组织)是具有价值倾向的,加之服务提供者和生产者之间存在不同利益与价值取向,这均使其难以保持中立。笔者认为,生成式人工智能算法使用的适当性在一定程度上决定了数据转化生成物是否合法合规,而产品提供者是决定算法的关键。

《办法》中规定,提供者承担该产品生成内容生产者的责任,规定了其在数据训练合法性以及算法使用适当性的义务和责任,这一规定表面看似乎扩大了提供者的责任范围,但不能否认其具有正当性和合理性,理由如下。

一是,《办法》强调服务提供者对生产者的责任体现了责任主体的可问责性。承担产品生成内容生产者的责任可以让服务提供者具有可问责性,即在提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责的要求下,当筛选和控制数据来源过程中出现合法性与真实性偏差时,监管者可以依据“事前知情”来判定控制数据来源责任主体的责任。

二是,基于“谁生成谁负责”的原则,提供者对整个生成内容的过程负责。根据《民法典》之侵权责任编“关于责任主体的特殊规定”,笔者认为,提供者对整个生成内容的过程负责是基于“谁生成谁负责”的原则,提供者作为为信息交流和交易活动的双方当事人提供服务的第三方主体,具有训练数据提供者、算法设计提供者、产品生成服务提供者等多重身份,其在训练具体数据信息是否合法、算法使用是否适当等整个生成内容的过程中作为第三方主体,应当负全过程责任。除此之外,在使用者利用生成式服务实施侵权行为的情况下,服务提供者如果没有履行相应的注意义务,也将可能承担相应的连带责任。

四、产品提供者应成为生成式人工智能生成物的著作权主体

考虑到生成式人工智能的整体运作模式的特殊性,生成式人工智能产品服务提供者在很大程度上可以决定人工智能生成成果的合法性。但《办法》中只明确了产品提供者承担责任的相关条款,而未明确其权利,一方面将导致其他主体对产品的滥用,另一方面对产品提供者有失公平。因此,应当承认人工智能生成物可以构成著作权的客体,并应赋予产品提供者著作权主体资格。

(一)人工智能生成物应当成为著作权的客体

人工智能生成的内容是否具有著作权,是一个有争议的问题。国内外学者对人工智能生成的内容是否享有著作权持截然不同的观点。

国内持否定说的学者认为,以往的人工智能大多承接体力劳动或提供信息索引和单句对话服务,算法模型产出的文本内容不具有自己本身的思想、个性以及创新,因此不具备著作权的基本要件;也有实务工作者认为,ChatGPT模型生成的文本等内容是基于大量数据的统计和应用生成的,不具有自己的思想和创新,很难构成著作权法保护的作品。国外同样也不乏持否定说的学者,例如,法国多数学者认为具有独创性的作品应当体现作者个性、思想情感,人工智能作品没有人类个性、思想情感,因此无法认定为受著作权保护的作品;同样,俄罗斯在区分知识产权和著作权的关系时,在著作权的独创性上强调“最低限度的创造性”,对著作权的独创性的理解和界定更倾向于将创造性引入独创性的判断标准中,但仍基于“人类中心主义”,即强调人的参与性,认为人工智能作品很难构成著作权法保护的作品。

然而,随着人工智能技术的快速发展,对人工智能生成的作品的保护的声音愈发强烈,一些持肯定说的国内学者认为,人工智能生成的作品不同于传统作品,虽然不可直接纳入著作权法保护,但人工智能的创造者、使用者为作品生产付出了努力,通过技术中立与类比考量尽量将其纳入既有作品类型,这类作品应当享有财产性质的著作权保护,对于无法归入法定类型的作品表达,则将其放入“其他作品”中暂时保护;国外学者同样也表达了类似观点,俄罗斯学者认为,人工智能生成的作品不同于传统作品,但享有版权,这类版权是基于人工智能技术下的输出作品的保护,如果不对这类作品进行法律保护,就很难构造完整的著作权保护体系,这些学者认为人工智能输出的作品既符合产品的物权属性,同样也符合著作权关于作品的基本规定,但权利主体的归属仍处于争议状态。

诚然,否定说论者敏锐地注意到了当前类ChatGPT生成式人工智能技术发展过程中所存在的法律主体问题,也就是人工智能技术本身决定其非法律主体,但其也忽略了生成式人工智能技术生成的一些符合著作权原则上的“类作品”的法律属性。肯定说论者基于新型创作物的考量,认为对于符合作品属性的人工智能新型创作物应视为受著作权保护的作品类型,这类基于人工智能技术创造的新型作品既无限接近或已经符合著作权法所规定作品的法定要件,同时也符合物权法中关于财产的构成要件的基本要素。事实上,在数字时代,类ChatGPT生成式人工智能技术的快速发展根本性地改变了传统工作模式,也系统性地重塑了“作品”生产与属性认定的关系。本文持肯定说,但理由略有不同。笔者认为,基于生成式人工智能技术的工作原理以及输出产品的基本属性,人工智能生成物(产品)在一定程度上属于智力成果,并具有一定的独创性,符合构成著作权法意义上作品的基本属性。

第一,人工智能生成物(产品)在一定程度上具有独创性。以ChatGPT模型为代表的生成式人工智能技术原理与传统人工智能下的语言数据模型不同,生成式人工智能技术通过生成式预训练语言模型叠加神经网络等多种模型来实现产品输出,这些模型在训练过程中会利用大规模语料库中的文本信息,包括维基百科、新闻、社交媒体等不同领域和主题的文本数据,通过预测下一个单词或多个单词来学习文本的结构和语言规则,形成预训练语言模型下的文本的正负样本。通过预处理技术构建正负样本,使用n-gram算法,过滤掉数据中出现频率比较低的单元素集合(singletons),将大量文本语句整合为最终文本内容,这些文本内容既包括基于无限制数据集生成模型,也包括受限文本生成模型。

虽然模拟人脑神经网络模型的算法模型产出的内容不具有作为人类作品的思想、个性以及创新性,但人类进行的预设算法、规则、模板步骤对人工智能生成物的产生起到了至关重要的作用。一方面,在GPT模型下生成的文本内容是基于不断的训练、学习展开的,所产出的文本是基于训练后的内容进行独立汇编所形成的。根据我国《著作权法》第15条汇编作品的法定标准,生成式人工智能对庞大信息库检索并生成符合逻辑要求的内容,实际上近似独立的汇编行为,具有最低标准的独创性;另一方面,基于设定好的生成式技术对已有作品的片段选择和整体编排具有一定独特性和创造性,并从形式和表达上与原作品存在差异,特别是在使用者有意识地参与并构思和充分提示下,以ChatGPT模型为代表的生成式人工智能输出的文本则更具独创性,在实践意义上已经符合或者无限接近著作权独创性的法律属性。

第二,人工智能生成物(产品)在一定程度上属于智力成果。当前,关于智力成果的界定存在不同声音,国内学者有人主张“智力成果是人特有的独创性劳动的产物”,认为作品的智力成果构成要件要求作品的创作过程是智力活动,只能由自然人实施,而人工智能生成物并非自然人通过智力活动形成的智力成果,从而质疑人工智能生成物的作品属性。也有学者根据我国《著作权法》智力成果的构成要件主张“将‘智力成果’解释为‘与自然人脑力创作相当的新颖性、创造性的新内容’”。

反观我国《著作权法》中将作者创作完成作品作为智力成果的构成要件,可以看出,并未规定作品的作者必须是自然人,法人和其他组织也被拟制为作者,这就意味着“智力成果”构成要件的创作主体并非只能是有脑神经元的自然人,也可以是具有构成智力成果能力的组织或法人,这就为“人工智能生成物(产品)”也可以被认定为智力成果留出了空间。笔者认为,将“人工智能生成物(产品)”认定为《著作权法》意义上的智力成果还需要考虑以下因素:一是选择空间性,即不是唯一选择或者有限选择;二是独特性,即选择之后与既有表达内容不重复;三是生成内容的可理解性,即智力成果所表达的内容是能被人类所理解的。据此,生成式人工智能产品的产出既有着“有形”形式,生成内容同样具有不重复性、可理解性,若抛开现有思维对著作权上的智力成果的传统界定,以ChatGPT模型为代表的生成式人工智能产品在一定程度上满足了《著作权法》上关于智力成果认定的基本标准。

(二)服务提供者应是人工智能生成物著作权的权利主体

关于人工智能生成物著作权主体归属的争议同样有三种观点,第一种是“人类中心主义”论,第二种是人工智能“法律主体地位”论,第三种是“法律解释”论。

持“人类中心主义”论的学者认为,人工智能是经由人类创造出来的智慧产物,属于被人类支配的客体范畴,在坚持以人类为中心构建的法律制度体系中,任何非人类或非人类集合都不能成为民事主体,人工智能也不能因为其生成物可以具有作品属性而当然地取得著作权法意义上的作者资格;持人工智能“法律主体地位”论的学者多数认为,法律主体的范围是开放的,是由社会发展的需要而决定的,人工智能技术的快速发展需要为人工智能构建一种以责任承担为基础的特殊财产性法律主体;而持“法律解释”论的学者认为,在现行《著作权法》框架下,可以通过法律解释的方式作出适当的安排,至于是将著作权归属于人工智能的提供者、生产者还是使用者,意见尚未统一。诚然,这三类观点均肯定了人工智能生成物著作权的法律属性,但对于人工智能生成物著作权主体资格问题有较大争议。事实上,这一争议产生的根本性原因在于能否在著作权法上创设一种新的独立法律主体以突破现有法律体系对主体范围的限制。

笔者认为,就目前人工智能发展的现状而言,无需对现有著作权法进行重大修改,只需要确定著作权归属于人工智能的提供者、生产者还是使用者,并对内涵和外延进行法律解释即可。

首先,人工智能非自然人,本身无法成为法律主体,更不能成为权利主体。《办法》规定,生成式人工智能产品提供者(提供者既包括个人,也包括组织)承担该产品生成内容生产者的责任,正是基于“人类中心主义”论,认为人工智能非自然人,本身无法成为法律主体,更不能成为权利主体,但人工智能输出作品的行为需要进一步明确和解释。

其次,人工智能输出作品的行为构成了其主体(生成式人工智能产品的提供者)的法律行为要件。我国《著作权法》并未规定作者必须是自然人,而是将法人和其他组织拟制为作者。鉴于此,笔者认为,人工智能虽然不能成为法律主体,但其输出作品的行为是受算法支配而表现在外面的活动,这种行为构成了其主体(生成式人工智能产品的提供者)的法律行为要件。换句话说,人工智能本身没有行为能力,是由人工智能的提供者赋予它的算法和数据来决定的,其后续的行为认知是基于人工智能的设计者、制造者对自己行为的法律意义和结果的认识,基于此,人工智能服务提供者就应享有著作权主体资格。

最后,生成式人工智能产品提供者享有“类著作权”下的权利与责任。生成式人工智能产品提供者作为人工智能输出作品行为主体,在符合我国《著作权法》关于作品属性的规定时,生成式人工智能产品提供者所产出的产品则应该受著作权保护,同时,生成式人工智能产品提供者应当享有著作权的主体资格。根据“权利之所在,责任之所在”的基本原则,谁最终享有ChatGPT类产品生成内容的权利,谁便需要承担生成内容可能引发的法律问题的相关责任。《办法》中只规定了其义务和责任,尚未对其享有的权利进行细化和解释,这就会出现未对生成式人工智能产品提供者赋予相关权利而只让其履行义务承担责任的权利与责任失衡的问题。

五、生成式人工智能产品提供者相关规范的完善建议

(一)规范生成式人工智能产品提供者的法律责任类型

《办法》中虽然提到了“服务提供者”的概念,但是并未对其进行定义,在法律责任中也只进行了原则性要求,未对具体行为的法律责任进行细化和规范。笔者认为,《办法》应明晰规制对象边界,厘清与《中华人民共和国网络安全法》(以下简称:《网络安全法》)《中华人民共和国数据安全法》(以下简称:《数据安全法》)《中华人民共和国个人信息保护法》(以下简称:《个人信息保护法》)等法律、行政法规的关系和承担责任的边界,以实现在权利和责任规则适用上有序衔接和有机联动。

一是,生成式人工智能产品提供者民事责任构成具有主客观性质,需要从产品提供者主观状态、客观行为两个方面出发,依过错责任原则,从违法行为、因果关系、损害事实等方面,对生成式人工智能产品提供者侵权行为进行分析,确定其民事责任承担形式。第一,从生成式人工智能产品提供者违法行为入手,生成式人工智能产品提供者没有履行通知——删除义务、使用未经授权使用或未得到相关人员的明确同意的个人信息等行为,可以视为违法行为,需要承担侵权责任。例如,ChatGPT模型生成的文本内容包含未经授权使用或未得到相关人员的明确同意的个人信息,这可能会违反《个人信息保护法》第10条、《网络安全法》第42条、第43条等等;第二,从因果关系视角进行分析,若生成式人工智能产品提供者已知算法存在侵权行为,但没有采取必要措施,且造成使用者合法权益受到损害的,可认为两者存在因果关系,产品提供者须承担民事责任。

二是,应以民事责任、行政责任为主,刑事责任为辅,以避免刑法越位,规制泛化,扼杀技术创新。目前我国刑法规定了网络服务提供者拒不履行信息网络安全管理义务罪,该罪处罚的是网络服务提供者不履行信息网络安全管理义务,防止其他主体妨害信息网络安全管理秩序且情节严重的行为,而ChatGPT模型提供的信息服务是网络服务提供者自营服务的组成部分,ChatGPT模型只是经营工具而非法律主体,防止ChatGPT模型提供违法有害信息不属于履行信息网络安全管理义务的行为。如果认为有必要动用刑法手段防止ChatGPT模型引起广泛的、十分严重的危害,有必要对其提供者规定服务安全管理责任,并予以充分、合理的刑法规制,但需要注意的是,刑法应始终保持内在谦抑,避免其规制的泛化,扼杀技术创新。在其他部门法足以规制人工智能风险时,应避免刑法的越位。

(二)强调生成式人工智能产品提供者责任的同时应明确其权利

《办法》中明确了生成式人工智能产品提供者的具体义务和责任,既要保障数据来源的合法性又要确保算法使用的适当性,但尚未明确其权利规范。笔者认为,在生成式人工智能产品提供者履行义务的前提下,若使用者利用该产品实行侵权等其他不合法不合规的行为时,生成式人工智能产品提供者作为产品的责任主体,基于“谁投入、谁贡献、谁受益”原则,应当有权依法对产品的使用享有一定的收益,也有权暂停使用者利用生成的产品所进行的侵权行为。因此,为了更系统的规范生成式人工智能产品的使用,需在《办法》中明确提供者的权利。

一方面,明确生成式人工智能产品提供者的合法数据资源的持有权。在具体内容上,《办法》应当明确生成式人工智能产品提供者的合法数据资源的持有权的具体形式:一是自主管理权,即对数据进行持有、管理和防止侵害的权利。二是数据流转权,即同意他人获取或转移其所产生数据的权利。三是数据持有限制,即数据持有或保存期限的问题。对于自己产生的数据,本人持有不受保存期限的限制。对于他人产生的数据,应按照《个人信息保护法》的相关规定进行处理。比如,《电子商务法》要求商品和服务信息、交易信息的保存时间不少于三年,《网络交易监督管理办法》要求平台内经营者身份信息、商品和服务信息、交易记录等数据保存时间不少于三年。

另一方面,明确生成式人工智能产品提供者的产品的经营权。在具体内容上应遵循《意见》中“谁投入、谁贡献、谁受益”的数据经营原则。具体来说,生成式人工智能产品提供者产品的经营权主要是指服务提供者拥有对其研发的数据产品进行开发、使用、交易和支配的权利,其核心是处分权和收益权,也就是提供者作为产品的所有者,对合法处理数据形成的数据产品和服务依法享有自主使用,取得收益、进行处分的权利。数据产品的经营权的客体并非原始数据或者数据集合,而是经匿名化处理、加工、分析而形成的数据或数据衍生产品,后者已经实现与前置性权益的切割,成为独立的权利客体,一旦使用者利用生成式人工智能的人类反馈的强化学习模型对其进行有意训练,不断输入假数据、个人隐私信息等非法数据,引导生成式人工智能按照使用者的意思进行输出内容,若明确了生成式人工智能产品提供者的产品经营权,服务提供者就可以禁止使用者输入不当内容。因此,笔者认为,生成式人工智能产品提供者应当可以对产品的处分和收益主张权利。

(三)监管机构以“全链条监管”模式,保障生成式人工智能技术发展和安全

监管机构应加强事前、事中、事后全链条监管,保障生成式人工智能技术的发展和安全。

第一是事前监管,健全生成式人工智能技术的管理制度和政策法规。建立健全生成式人工智能技术的管理制度和政策法规,包括标准、规范、指南等,明确各个环节的责任、权限和相应的保障措施,保障整个生成式人工智能技术的生命周期。应建立一套完整而严格的技术标准体系,以确保生成式人工智能技术的质量、安全和稳定性。这些技术标准通常涉及算法设计、数据集质量、模型性能评估等方面。制定规范指引,建立符合技术标准的生成式人工智能技术治理框架,指导实施相关技术的具体操作方法和流程。明确各个相关方的责任和权限,包括技术研发机构、应用企业、管理机构等,以确保技术的全链条管理和实现最佳治理结果。建立一系列安全保障措施,并对应用于监管领域的相关责任进行明确规定。

第二是事中评估,建立有层次的协同监管制度。一是建立有层次的生成式人工智能市场准入清单制度。当前,ChatGPT模型尚未对中国地区全面开放,如未来ChatGPT进入中国市场,须符合监管部门就进入中国市场提供网络信息服务的准入条件,并由国家网信部门制定人工智能系统风险等级清单和相应的技术审查机制,旨在进行技术安全审核和评估。根据风险清单和技术审查机制建立有层次的市场准入清单制度,要求高风险人工智能系统的供应商在投入市场前按相关规定提交评估,若系统投放目的或性质有根本改变则须重新评估。二是,建立多方监管制度。一方面,制定监管政策和规定,明确监管机构的职责和授权。政策和规定应该涉及技术开发、测试、部署、应用等各个环节,以确保技术的透明和公平,防范技术的不当滥用。另一方面,完善个人信息保护投诉、举报工作机制,通过使用者举报和政府主动审查相结合的方式,保证已投入市场的生成式人工智能技术未偏离法治轨道。

第三事后追责,细化并规范责任承担机制。明确生成式人工智能产品提供者和使用者在其对人工智能支配力所及范围内各自承担责任,按照“谁支配、谁负责”原则,明确责任承担机制,即“风险属于谁的管辖范围,谁便需要对风险及由此产生的结果来负责”。

六、结语

以ChatGPT为代表的生成式人工智能技术具有极强的虚拟性、互动性、广域性和即时性,在增加监管难度的同时,所带来的法律风险和社会挑战也不断增加。为应对这一挑战和风险,我国颁布了《办法》,对人工智能追责体系进行补充和完善,整体上及时解决了技术快速发展与立法滞后之间的矛盾和问题,但《办法》仍有较大的提升空间。考虑到信息(数据)集合的巨大财产价值,以及技术在实践中导致各类风险的现状,在规制生成式人工智能产品提供者的义务和责任时,更应明确生成式人工智能产品提供者主体的相应权利,实现对生成式人工智能产品提供者法律规范的整体妥当性。


作者:孙祁(上海社会科学院法学研究所助理研究员、清华大学社会科学院在职博士后研究人员)

来源:《政治与法律》2023年第7期“实务研究”栏目。因篇幅较长,已略去原文注释。

返回顶部