本文刊载于2024年5月29日《民主与法制时报》第3版:科技与法治
核心提示:人工智能快速发展也意味着其中存在更多已知与未知的风险,这对法律回应和规制方式提出了挑战。应在法律层面对企业收集数据的技术应用及数据过滤保护机制进行更细致的规定与严格监管,并完善制度体系。
武丹/制图
5月14日凌晨,美国人工智能OpenAI在官网发布了旗舰生成式人工智能模型“GPT-4o”,其中的“o”代表“omni”(全能),指的是该模型处理文本、语音和视频的能力。和2022年11月上线的人工智能聊天机器人ChatGPT相比,它具有与人类相似的对话能力,具有幽默感,可以现场自拍,并提供描述,包括你的穿着,甚至伴随着现实世界中几乎所有的倾向,比如打断、理解语气等。此外,除响应速度更快外,GPT-4o似乎很容易捕捉到情绪,并根据用户的要求调整语气和风格,甚至还在回应中加入了音效、笑声和歌声。有媒体认为,这预示着强人工智能——生成式人工智能领域再次迎来了历史性时刻,这引发了人们的广泛关注、讨论。近年来,随着人工智能技术的快速发展,它可以为人类社会提供极大便利,以ChatGPT为代表的强人工智能除可以实现传统人工智能的功能外,还可以进行自我学习、撰写论文、编写代码、起草法律意见书、智能诊疗等,应用场景广泛,对社会发展变革产生了深刻影响。但是,机遇总是与挑战并存,人工智能有如一把双刃剑,其快速发展及更新换代必然也意味着其中存在更多已知与未知的风险,比如:潜在的数据隐私、“算法歧视”、知识产权等方面的法律风险等,这对法律回应和规制方式提出了挑战。
强人工智能可能带来的风险与挑战
相比于传统人工智能,强人工智能带来的挑战与风险可能更明显。本文主要从数据隐私、“算法歧视”与知识产权三个方面对生成式人工智能可能引发的风险和争议进行分析。
首先,数据安全问题。ChatGPT等生成式人工智能意味着相比传统人工智能,其数据收集和爬取能力更强大,除使用者提供的数据外,网络平台本身的海量内容均可能被其收集读取用于内容生成,从而可能引发数据侵权、泄露和侵犯隐私问题。ChatGPT等生成式人工智能的升级迭代需要大量数据支撑,这些数据通常来自公司购买或其自行采集和爬取。这两种方式均存在数据侵权和隐私泄露风险,公司购买的第三方数据可能存在权属不清问题;自行采集的数据,由于生成式人工智能用户受众十分广泛,使用者涵盖政务处理者、公司员工和个人用户等,这使得其收集到的数据和信息十分庞大。其中,所储备的数据一旦因不明攻击等原因被泄露,则可能危害国家安全、泄露商业机密、侵犯个人隐私等。此外,在数据收集过程中,人工智能本身也可能存在不当收集的情况,如违规收集用户未授权的数据,突破用户知情同意原则自行爬取数据等。其次,ChatGPT等生成式人工智能可能存在“算法歧视”。生成式人工智能往往基于海量数据和强大模型算力生成文本,其生成的内容受研发者和使用者提供的数据及模型多次训练而形成,这使得其“算法歧视”更隐蔽。目前,生成式人工智能的训练数据和语料库多来自西方国家,与我国价值立场并不一致,因而在生成内容上可能潜藏价值歧视风险,比如主要倾向于西方国家的价值观。同时,生成式人工智能的使用者少有社会弱势群体用户,如残障人士、不会使用电子产品的老年人群体等。因此,生成式人工智能在收集数据及输出数据时可能因“数据鸿沟”的存在而对这部分人群的权利形成歧视。最后,强人工智能的快速发展给传统知识产权保护体系带来很大挑战。和传统简单完成人类指令的“弱人工智能”不同,生成式人工智能基于数据读取和模型训练具有类人性的抽象思考能力及解决问题能力。从外观上看,它似乎具有人类所拥有的自行“创作”能力,其生成的内容归属应当属于使用者还是人工智能本身,这值得思考。此外,生成式人工智能输出的内容均基于海量的数据收集和爬取,这之中可能存在未经授权的内容被人工智能读取收集并用于文本内容的输出,且并不标注出处,这是否侵害原数据作者的知识产权?现行法律法规该如何规制这种行为并制定保护措施呢?这些问题都对传统知识产权保护体系带来挑战,需要现行法律和规范进行回应和规制。
强人工智能到来,法律如何应对
针对ChatGPT等生成式人工智能可能带来的各类法律风险,世界各国大多表现出谨慎态度并积极制定法律法规进行引导和规制。如美国政府已开始研究是否需要对ChatGPT等人工智能工具进行审查;意大利、德国监管机构已发布ChatGPT禁令;近日,欧洲议会通过全球首个人工智能监管法案《人工智能法案》。2023年7月,我国国家网信办联合国家发展改革委、教育部、科技部、工信部、公安部等七部门发布并施行《生成式人工智能服务管理暂行办法》(以下简称《办法》),进一步规范生成式人工智能的发展。可见,世界各国对人工智能风险规避均十分重视。但要想更好地发挥强人工智能在人类社会中的作用,实现其最大程度合理应用,且规避潜在风险,还应以更加科学直接的法律方式进行治理。
首先,细化《办法》规定,保护数据安全。尽管现行《办法》确立了对数据的保护立场,如规定“使用具有合法来源的数据和基础模型”,但具体性与可操作性有待进一步提升。对此,应在法律层面对企业收集数据的技术应用及数据过滤保护机制进行更细致的规定与严格监管。在数据收集方面,要求恪守用户知情同意原则,禁止突破用户的知情同意原则违法收集未授权信息。同时,规定在用户使用生成式人工智能时,开发者须在软件端明确告知其享有的信息自决权和删除权等个人信息权益,使用户提升个人隐私保护意识。在与国家安全、商业机密有关的数据上,要求人工智能开发者设置严格的过滤和保护机制,从而有效预防数据隐私泄露。需要注意的是,生成式人工智能在数据处理、应用形态上更复杂,相关立法部门要随时关注技术演化走向,从而更好地制定与数据保护有关的规则。其次,完善制度体系建设,避免“算法歧视”。《办法》对防止人工智能“算法歧视”已有条款规定,比如在第四条第四项规定:“在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,采取有效措施防止产生民族、信仰、国别、地域、性别、年龄、职业、健康等歧视。”但该规定与数据安全的相关规定一样,较为原则,缺乏具体的规则引导和规制。避免“算法歧视”,应加强和完善反歧视的制度体系建设,这包括企业内部的伦理审查监督制度及监管部门和中立第三方的监督审查体系。法律应规定企业自身在算法设计时,将公正、平等的原则贯彻其中,在模型训练时,要特别注意性别、年龄、职业、国别等可能产生歧视的因素。同时,制定监管部门以及外部中立组织定期抽查算法模型的规则,通过监管机构或中立第三方组织定期对生成式人工智能的算法进行审查,以监督是否存在“算法歧视”问题。在对生成式人工智能涉及的知识产权争议问题上,应当明确人工智能对数据使用的界限,保护知识产权。目前,大多数观点并不认为生成式人工智能具有“独立创作”能力,它与具有情感、价值判断和思想的“人”创作的内容和过程并不相同。因此,由人工智能生成的文本仍应当由使用者享有其知识产权,并不能被看作独立的创作者。在知识产权保护方面,为防止人工智能对未授权内容进行违规数据收集和爬取,侵犯原作者的知识产权,应在法律中明确生成式人工智能收集和读取信息的边界,对于挖掘未经权利人授权的数据和内容形成文本的,予以惩处。
(陈宇超,上海社会科学院法学研究所)
来源:民主与法制时报