【内容摘要】生成式人工智能的技术跃进架空了个人信息处理的告知同意规制和最小必要原则,引发了虚假信息生成和个人信息泄漏的广泛风险迭代问题。传统个人信息的权利保护路径面临认知和结构困境,无法应对生成式人工智能给个人信息保护带来极大挑战。以风险控制为导向的个人信息保护机制不强调信息主体对个人信息的绝对控制,旨在通过识别、评估、分配和管理将风险控制在最小范围内,可以灵活和实用地平衡生成式人工智能应用中的信息利用和风险控制,提供有效的解决方案。在风险控制理念下,对告知同意规则和最小必要原则进行风险化解释与调试,并建立从预防到识别再到控制的虚假信息生成风险的全过程应对机制,以及基于风险的个人信息保护合规管理体系,是当前的最优选择。
【关键词】生成式人工智能 chatgpt 个人信息保护 风险控制
文章来源:《政法论丛》2023年第4期
因篇幅所限,省略原文注释及参考文献。
在2023年初,chatgpt凭借其卓越的自然语言处理能力成为人工智能领域的重要里程碑,引起了社会生产生活和未来科技发展的颠覆性变革。然而,以海量语料库数据为基础的生成式人工智能在为社会带来积极变革和影响的同时,也引发了诸多个人信息保护层面的问题。2023年3月20日,chatgpt发生了一起严重的信息安全事故,部分用户的聊天记录片段、用户信用卡信息(包括最后四位数字、到期日期)、姓名、电子邮件地址和付款地址等敏感信息遭到泄露。3月31日,意大利数据保护当局gpdp宣布,由于openai未经同意收集、使用和披露个人信息,即刻对chatgpt施加暂时限制,成为全球范围内第一道针对chatgpt的政府禁令。而当前诸多迹象预示生成式人工智能应用即将迎来大规模普及。这意味着,生成式人工智能给个人信息保护带来的潜在风险可能伴随人工智能技术的发展而持续发酵。为促进生成式人工智能的健康发展与规范应用,国家网信办联合国家发展改革委、教育部、科技部等七大部门于2023年7月13日公布《生成式人工智能服务管理暂行办法》,并自2023年8月15日起施行。人类社会在迎接新兴人工智能科技发展同时,须直面与冷静审视生成式人工智能技术的正当性,须前瞻性思考、设计与配置与之匹配兼容的个人信息保护系统制度。
一、生成式人工智能开发凸显个人信息保护风险
以chatgpt为代表的生成式人工智能产品首先于2022年底在美国推出,目前已被广泛用于智能办公、智慧科研等许多领域,或将成为推动第四次工业革命的关键因素。从生成机制来看,生成式人工智能本质上是一种“生成型预训练语言转换器”。生成式人工智能技术服务提供者通过各种方式收集海量数据来形成语料库,再通过连接大量的语料库来训练模型,以使其能够学习和理解人类语言,并进行交流对话和内容生成。这一过程中伴随着循环式的数据收集与分析,涉及大量的个人信息处理活动,无疑将给个人信息保护带来相应风险及多重挑战。
(一)告知同意规则被架空的风险
告知同意是我国个人信息处理的核心准则,这一规则要求信息处理者在处理个人信息时须履行告知义务,并征得信息主体明确同意,方可进行处理,其目的在于确保信息主体对其个人信息的处理过程具有充分的控制权和知情权。《网络安全法》一度将告知同意作为个人信息处理的唯一合法性基础,后来颁布的《个人信息保护法》尽管规定了更加多元化的合法性基础,但仍保留了告知同意基础性的地位。然而,在生成式人工智能的开发和应用过程中,尤其是语料库构建与更新的过程中,告知同意规则往往无法得到有效的贯彻。
生成式人工智能语料库的构建与更新可以分为被动和主动两种类型。被动的语料库构建与更新指大量用户通过对话框自行输入信息,系统自动将该类信息保存并纳入语料库。生成式人工智能技术的高度自动化和复杂性特点使得其难以在自动收录用户个人信息时向信息主体提供充分、全面的告知,让信息主体完全了解个人信息的处理过程和结果,从而造成对告知同意规则的违背。以chatgpt为例,openai的服务条款规定openai可以广泛使用用户输入和输出的内容,将其纳入语料库并用于改进chatgpt。chatgpt用户在首次注册账号时将收到来自系统的个人信息收集提示,用户点击弹窗下方“下一步”即视为对其个人信息收集的同意许可。然而,从弹窗提示和openai隐私政策具体内容来看,均只涉及到基本的信息收集事项,不涉及具体的个人信息处理方式和算法规则,而这恰恰是生成式人工智能个人信息处理中最为关键的内容。尤其是在语料库模型训练方面缺乏透明度和公开性,这导致用户无法全面了解其个人信息的处理流程、用途、保存期限等关键信息,从而无法判断自己的信息是否被合理使用和保护。可见,openai在收集用户个人信息时未完全履行告知义务。同时,由于用户只能选择接受隐私政策并同意信息处理,否则将无法享受由chatgpt提供的服务,用户的同意实际上并不是真正的自主选择,往往只是一个形式上的程序。
主动的语料库构建与更新则包括数据爬虫、图书数字化、收集学术文献数据等方式,其中以数据爬虫为主。openai官方网站的“我们的方法”页面表明,为支持其人工智能系统的训练和发展,openai使用数据爬虫技术来获取大量的文本数据。这些数据来源包括博客、bing搜索引擎、维基百科等公共网站和在线资源,以及专业非营利性组织如mon crawl通过其他渠道获得的数据。数据爬虫技术可以通过程序自动地收集互联网上的大量数据,这种收集方式的优点在于其能够快速、高效地获取大量的数据,使得模型的训练和表现更加准确和可靠。然而,这些数据中可能存在个人信息,其来源难以追溯和验证。生成式人工智能通过“灌入”这些数据,未经告知和征得信息主体同意,直接架空个人信息处理的告知同意规则。可见,在生成式人工智能语料库构建与更新的过程中,无论是被动的个人信息“输入-收录”还是主动的数据爬取,告知同意规则均在一定程度上处于缺位状态。
(二)最小必要原则被虚置的风险
最小必要原则要求信息处理者在处理个人信息时,必须有明确、合理的处理目的,并且该目的必须与个人信息的处理直接相关,同时采用对个人权益影响最小的方式进行处理。该原则包括三方面的内容,即最小化、相关性和合比例性。最小必要原则源自传统的比例原则,是国内外法律实践中被普遍接受的个人信息处理原则,我国个人信息保护法草案历次审议稿中均包含关于最小必要原则的规定。然而,在生成式人工智能应用实践中,存在着信息收集超出必要范畴、信息处理期限不明、信息用途不清晰等问题,这些问题导致最小必要原则难以得到有效的贯彻。
首先,最小必要原则中的信息处理最小化要求个人信息处理应限制在为实现特定目的所必不可少的范围内,即离开某项个人信息的处理,就无法合理地通过其他手段实现目的。信息处理最小化可进一步细化为最少数量、最少类型、最短存储时间、最小共享范围、最低处理频率等具体内容。生成式人工智能作为一个超大型语言模型,通常需要逾亿万单词的人类语言数据支持。海量训练数据的收集是其获取语言生成能力、上下文理解能力和世界知识能力的关键前提,但也可能因此在信息处理数量、频率、类型等方面违背信息处理最小化要求。例如,在生成式人工智能应用实践中,由于其数据处理方式的复杂性和不确定性,往往难以确定个人信息的处理期限。当生成式人工智能的应用场景发生变化或数据集需更新时,信息处理者可能需要重新处理之前收集的个人信息。这种情况可能会导致信息主体只同意了一次处理,却面临自己的个人信息被无期限处理的情形,这与个人信息处理的最小必要原则不相符。其次,根据《个人信息保护法》第6条第1款,最小必要原则中的相关性要求必须是直接相关,即实现处理目的与个人信息处理之间具有必然的、紧密的联系。在语料库构建过程中,生成式人工智能有时会收集与处理目的无关的个人信息,例如用户的搜索记录、设备信息、通信信息,用户的时区、地点、国家、日期和具体接触时间等。这些信息的收集与最终的文本生成服务之间缺乏必要联系,违背最小必要原则中的相关性要求。最后,最小必要原则中信息处理合比例性要求个人信息处理所带来的风险与特定目的实现所带来的利益相比须符合一定比例。然而,生成式人工智能语料库数据中包含大量敏感的用户个人身份信息,如姓名、电子邮件地址、电话号码等,而这些信息并非实现优化模型目的必不可少,一旦这些敏感个人信息泄露或被不当利用,容易导致自然人的人格尊严受到侵害或者人身、财产安全受到危害。因此,处理敏感个人信息所带来的风险与实现特定目的所带来的利益(优化语言模型)相比显着不合比例,不符合最小必要原则中最小化、合比例性两个子原则的要求。
(三)虚假信息生成与累积的风险
生成式人工智能强大的泛化和生成能力也为个人信息保护带来一系列负面影响,尤其是大量虚假信息生成与累积。根据《个人信息保护法》第8条,处理个人信息应当保证个人信息的质量,避免因个人信息不准确、不完整对个人权益造成不利影响。然而,据美国新闻可信度评估与研究机构newsguard测试,chatgpt模型能够在极短时间内改变信息,生成大量令人信服但缺乏信源的内容。究其原因,生成式人工智能生成的内容是基于对语料库的学习和预测,是一种经验的再现,并非从语义和逻辑角度进行推理和判断的产物,对于生成内容本身的真实性和准确性,生成式人工智能无法进行判断。这一特点可能导致生成式人工智能产生大量虚假信息,从而侵害个人信息权益,甚至造成对公共利益和国家利益的危害。
事实上,虚假信息生成与累积、乃至泛滥已开始对社会和个人产生严重影响。近期,一起由信息来源不实引发的chatgpt编造法学教授性骚扰丑闻事件,再次凸显生成式人工智能所带来的信息可信度和可靠性方面的潜在风险。这种看似中立可信的技术能力实则对判断能力不足的用户产生极大了误导性,同时也对相关信息主体的个人信息权益、名誉权、隐私权以及其他人格权造成损害。可以设想,如果虚假信息被误用于学术研究,将会严重影响科学研究的严谨性,并导致相关政策制定缺乏合理性。更为严重的是,恶意用户行为者或团体可能会利用该技术故意制造和传播虚假的新闻和信息,甚至生成不端或仇视性的信息,以操纵舆论。这将严重影响政治稳定,破坏公众对政治体系和社会价值观的信任。
在当今全球各种思潮、文化和价值观念相互碰撞的背景下,人工智能技术面临着被政治操纵、用作意识形态宣传的风险,我国在生成式人工智能开发与应用中应当重点关注防范。西方发达国家掌握大数据和人工智能核心技术,按照其自身价值观制定全球政治秩序和规则,裁剪符合自身意识形态标准的数据库,加剧全球信息体系和政治秩序中的不平等和垄断现象。在这种背景下,生成式人工智能技术服务提供者可以通过操纵算法或裁剪数据库的方式,在模型中植入某些价值观。如果开发者持有历史错解、文化偏见或种族歧视的价值观,这些观念可能会最终呈现为不实或仇视性的文本信息,并通过模型与用户的互动产生潜在的不利意识形态影响。在当今高度互联的社会中,生成式人工智能大面积生成虚假信息已经不再是单纯的个人信息权益问题,而是关系到国家安全和稳定的核心议题。2016年微软的聊天机器人tay被黑客攻击,并被恶意操作,在网上传播种族主义和仇恨言论便是先例。meta开发的聊天机器人meta ai也有类似的经历。
(四)个人信息泄露频发的风险
个人信息泄露频发风险是生成式人工智能将给个人信息保护带来的又一大痛点。当前,生成式人工智能应用中的个人信息安全面临来自人工智能系统内在隐患与外部风险的双重考验。chatgpt开发者openai的首席技术官米拉·穆拉蒂率先表示,必须谨慎使用chatgpt,切勿在其上上传敏感信息或核心数据,以免信息泄露,导致损失。为此,许多互联网公司纷纷向员工发出相关警报。微软基于预防商业机密泄露的考虑,已宣布禁止公司员工向chatgpt分享公司敏感数据。同样,亚马逊公司律师也警告员工“不要与chatgpt分享任何亚马逊的机密信息,因为他们有可能将其用于训练未来的模型。”事实证明,这种担心并非多余。近日,就在gpt-4最新发布之际,chatgpt出现严重技术漏洞,用户在社交媒体上表示看到其他人的历史搜索记录标题。openai随即立刻关闭chatgpt,当用户再次打开该系统时,历史聊天记录侧边栏已被替换为“历史记录暂不可用,我们正在努力尽快恢复这一功能”。该事件正是由内部开源数据库错误所致,随后openai首席执行官sam altman在社交媒体发文,宣布修复程序已验证完成,并对此“感觉十分糟糕”。可见,与其他人工智能技术一样,生成式人工智能模型本身存在着漏洞和安全隐患。诸如模型设计不当、存储系统错误、算法漏洞等都可能导致用户个人信息泄露频发。此外,黑客入侵人工智能系统的技术已催生出一个庞大黑色产业链,犯罪分子通过植入病毒性插件侵入数据库,也将对用户个人信息安全造成严重威胁。
其次,从运行角度来看,生成式人工智能还存在着一种高频、渐进的个人信息间接泄漏风险。生成式人工智能需要从大量数据中学习和生成模型,并不断改进模型,以提高生成文本的准确性。这就意味着,上一版本中收集的个人数据可能被用于模型训练并在未来版本中进行输出,从而间接导致个人信息泄露。例如,在chatgpt中输入的文本可能包含具有隐私敏感性的信息,如医疗记录、司法文书、个人通讯记录等,而模型可能会学习到这些信息并在模型输出的结果中泄露这些信息。这种个人信息泄露乃至频发的风险,与生成式人工智能内在运行机理紧密关联,为生成式人工智能所特有,并且一定程度广泛存在于海量用户“人机对话”的过程中。只不过囿于生成式人工智能的高度复杂性和黑盒特性,其内部机制和应用过程往往难以被完全理解和掌控,从而使这种间接泄露及频发境况很难被发现和察觉。
生成式人工智能语料库中的个人信息泄露及其频发境况无疑会给用户带来隐私威胁、精神焦虑,甚至是财产、声誉和信任上的损失。如被不法分子滥用,进行信息关联和深度信息挖掘,严重时还可能威胁到国家数据安全和总体国家安全。伴随人类社会迈入数字文明时代,数字、信息堪称数字文明时代的“新石油”,数字、信息安全问题更是不容置若罔闻。
二、生成式人工智能的个人信息保护二元路径
基于上述,生成式人工智能无疑将对个人信息保护带来诸多挑战,亟需寻求切实的治理路径进行应对。综合而言,在实现个人信息保护与利用的平衡、信息安全风险合理分配及实践效果上,风险控制路径更具有优势。同时,将其嵌入生成式人工智能,以保护个人信息、防范规制风险具有其正当性和可行性。
(一)个人信息保护的二元路径
综合而言,目前个人信息保护存在二元路径:权利保护路径和风险控制路径。其中,“权利保护路径”起源于20世纪60年代的“公平信息实践”,其核心思想是保障信息主体对其个人信息的掌控和自主决定权。该路径遵循“权利确认-权利行使-权利救济”这一基本逻辑,属于以个人为中心的法律范式。随着个人信息保护领域的不断深入和发展,权利保护路径已经被广泛接受和认可。欧盟法律更进一步确认个人信息保护权为一项基本权利,从而进一步巩固权利保护模式的地位。然而,随着大数据时代的到来,权利保护路径也面临着越来越多的批评和挑战。一方面,虽然权利保护路径彰显信息主体的法律地位,但其相关权利保障机制却将主要保护责任转移给了信息主体,这种“赋权即责任”的模式导致了信息安全风险的不合理分配。另一方面,囿于信息主体存在有限理性以及大数据技术给告知同意原则带来结构性变革,以信息主体为中心的权利保护路径在应用中实则存在难以克服的负担和实践问题。
在这一背景下,风险控制作为一种新的概念被提出,并逐渐应用于个人信息保护,最终成为国际趋势。“风险控制路径”旨在通过不同的机制、模式和手段对个人信息保护相关的风险进行识别、评估、分配和管理,以保障公民权利、社会利益和国家安全等法益的不受侵犯。在风险控制路径下,个人信息权利不再具有绝对性,更多的体现为一种风险规制的工具。风险控制路径在个人信息保护领域的发展历程可以追溯到20世纪90年代。1995年,欧盟通过《数据保护指令》,并引入风险管理的理念,要求数据控制者采取适当的技术和组织措施,以保护个人数据不受损害。此后,欧洲各国陆续出台针对个人信息保护的法律法规,并将风险控制路径作为一种重要的保护手段。尽管我国《个人信息保护法》未明确指出采用风险控制路径,但从“敏感个人信息”和“一般个人信息”分类保护等具体内容规定来看,仍然对风险控制路径进行回应。作为一种新兴的保护理念,风险控制路径在未来生成式人工智能个人信息保护中毋容置疑将发挥重要作用。此外,在最新发布的《生成式人工智能服务管理暂行办法》的第二章第五条中,明确提及加强各机构在生成式人工智能的风险防范领域的通力合作,亦印证了个人信息保护的风险控制路径的重要性与必要性。
(二)生成式人工智能的个人信息保护:嵌入“风险控制路径”的正当性
相较于以权利保护为主的路径,风险控制路径在个人信息保护方面具有截然不同的特征,基于以下考量,无疑在推进生成式人工智能的个人信息保护过程中,将风险控制路径嵌入其中,具有其自身正当性。
其一,风险控制路径更有利于实现生成式人工智能技术利用与个人信息保护的衡平。在当代社会,我们需要在维护个人权益和推动社会经济发展之间找到平衡点,过度追求个人信息的绝对保护可能会忽略经济和社会发展的利益。在数字化浪潮中,数据和个人信息成为经济和社会发展的重要基石和创新驱动力。数据创新融合了人工智能、物联网、区块链等前沿技术,正在重构人类社会和产业形态。我国的《网络安全法》和《数据安全法》均明确规定数据开放和利用的政策支持,特别强调匿名化数据的自由利用,为企业拓展数字化业务和推动技术创新提供重要机遇。生成式人工智能以数据信息为燃料,为人类提供了前所未有的创造力和生产力,在未来,生成式人工智能将会在内容创作、图像生成、语音合成、自然语言处理、医疗诊断等多个领域发挥重要作用。因此,在生成式人工智能开发与应用的过程中,我们需要辩证看待其中的个人信息保护与发展问题。因此,在制定个人信息保护策略时,应兼顾生成式人工智能的经济和社会价值。如果采用权利保护路径则过度强调个人信息的控制,不仅会导致高昂的实施成本,可能还会制约数据的流通和利用,从而对生成式人工智能的开发与应用形成阻碍。相比之下,风险控制路径不强调个人信息的绝对控制,旨在通过风险管理和风险规制的方式将生成式人工智能应用中的个人信息处理风险降低到可接受的范围内。这种方式在保障个人信息安全和隐私的同时,能够有效利用数据这一宝贵资源推动社会和经济的可持续发展,避免个人权益保护对技术创新和公共利益造成抑制。
其二,风险控制路径更有利于实现生成式人工智能信息安全风险的合理分配。在当前风险社会中,生成式人工智能的社会价值不断凸显,其用户群体持续扩大,随之而来的个人信息保护风险也逐渐演变为一个重要的社会问题。因为一旦生成式人工智能发生信息安全事件,可能会危及上亿个用户群体,对整体社会秩序和公共利益乃至国家利益造成不利影响。正如前文所述,生成式人工智能应用中的个人信息安全风险在整体上已经上升到国家层面的意识形态安全、国家信息安全以及网络空间安全。此时,传统的权利保护路径已经不再适用,因为它通过某些机制将技术带来的风险不合理地转嫁给每一个独立的信息主体,从而导致生成式人工智能信息安全风险的分配失衡。相较之下,基于风险开启理论和获利报偿理论的风险控制路径,强调由生成式人工智能技术服务提供者和监督机构承担风险控制的主体责任,对信息处理活动进行价值判断,从而将生成式人工智能应用中的个人信息保护纳入到全社会风险控制的范畴中。在这种保护方式下,生成式人工智能带来的个人信息安全保护责任不再是信息主体的单一责任,而是一个需要多方参与和共同承担的社会责任,是一种更符合信息安全风险分配原则并且可实现期待性更高的保护路径。
其三,风险控制路径更有利于实现生成式人工智能应用中个人信息的高效保护。根据社会学家乌尔里希·贝克的观点,现代化进程中科技和经济全球化的发展所带来的各种风险难以预测和计算。这些风险不受时间、空间和社会界限的限制,无法完全消除,其绝对性不可避免。此外,现代社会的复杂性决定了风险之间必将相互渗透和影响,这是现代社会不可避免的趋势。一旦人们对此形成了正确认识,“相对安全”便取代“绝对安全”,成为生成式人工智能个人信息安全风险治理的理性目标。生成式人工智能正在不断迭代升级,其带来的个人信息非法收集、泄露、滥用、虚假信息生成等问题已经显露,其他潜在风险和问题或许正在酝酿之中。传统权利保护模式以一种定型化的刚性方式,为个人信息保护划定最低的限度,无法有效应对复杂的信息生态环境和生成式人工智能可能带来的新型信息安全威胁。而风险控制路径更注重个人信息保护的动态性,以量体裁衣的灵活模式,根据生成式人工智能应用的具体情况进行风险把控。这种方式考虑技术、市场、法律、管理等多个维度,能够对生成式人工智能带来的信息安全风险进行全方位、动态化回应,能够更好地适应信息化、数字化时代的发展,应对生成式人工智能带来的新型信息安全威胁,保障个人信息的安全和隐私。
三、风险控制路径的四层次体系展开
针对生成式人工智能应用中个人信息保护的复杂性,风险控制路径应基于下述四层次体系展开:
(一)促使告知同意规则的“个人控制中心向风险控制中心”转变
告知同意规则包含“告知”与“同意”两个层面,前者要求信息处理者必须向个人信息主体明示信息处理的范畴、方式、目的等影响个人信息主体作出同意决定的内容,后者则要求信息处理者的处理行为必须征得个人信息主体的明确甚至是单独同意。对于生成式人工智能中的个人信息收集而言,原则上同样需要遵守告知同意规则。《生成式人工智能服务管理办法》也明确将授权同意作为生成式人工智能开发与运行的基本准则之一。但正如前文所述,生成式人工智能语料库数据收集的强制性和无形性使得告知同意规则基本处于虚置状态。若遵循严格的告知同意原则,生成式人工智能技术服务提供者必须对所有信息主体进行一一告知并征得明示同意,对于收集敏感个人信息的情况还需征得信息主体的单独同意。显然,采用强告知同意规则可能会导致生成式人工智能无法正常运行,并且个人也将因此承担冗长的隐私协议解读负担。因此,为保障个人信息权益得到切实有效保护,同时促进生成式人工智能技术的持续健康发展,需要对告知同意规则进行风险化解释和调试,推动告知同意规则由“个人控制”为中心向“风险控制”为中心转变。
告知同意规则的风险化解释和调试指将可能引发的风险作为个人信息处理合理性的判断标准。具体而言,如果信息主体对生成式人工智能技术服务提供者的信息收集行为未做出明确同意或明确拒绝的意思表示,但通过个人信息保护影响评估能够确认信息处理行为不会带来超出合理范围外的风险,那么可以推定其默示同意。这一做法与美国所采用的“择出式知情同意机制”相类似,即企业在采集用户个人信息时并没有征求同意的义务,只需要在采集行为发生前或发生时向用户进行信息披露。从美国联邦立法到州立法,择出式知情同意机制始终占据主导地位,这一机制更有助于提升用户行为信息的商业化利用效率。需要注意的是,所谓“择出同意” 即使信息主体被认定为默示同意,其在信息处理过程中仍享有选择退出的权利,可通过新的意思表示推翻之前的默示同意。在生成式人工智能应用中同样如此,在后续语料库数据存储、语言模型训练等环节用户仍有权撤回(默示)同意。为此,应当要求生成式人工智能技术服务提供者提供便捷的撤回同意的方式,以辅助用户行使这项权利。
相反,如果评估确认风险等级较高,除了征得信息主体的明确同意之外,生成式人工智能技术服务提供者还应当启动增强性告知程序,充分发挥告知规则在个人信息保护中的风险交流作用。具体来看,除个人信息处理的范畴、类型、目的和必要性等基本内容之外,还应就以下内容进行补充告知:首先,算法逻辑。这要求生成式人工智能技术服务提供者就个人信息与模型训练的相关性进行说明,包括“人机对话即信息收集”这一事实以及个人信息的准确性将影响生成内容质量这些重要事项,以为用户进行风险判断提供指引。其次,次级处理者的名称、处理目的、期限、方式等相关内容。以openai为代表的生成式人工智能技术服务提供方将其全部或部分处理活动委托给次级处理者,而用户并没有与这些第三方订立任何信息处理协议,这可能会给个人信息保护带来超出预期的风险。因此,在评估确认风险等级较高的情况下,生成式人工智能技术服务提供者应当向信息主体详细披露次级处理者的信息处理情况,使信息主体能够全面了解风险和后果,从而做出决策。
(二)推进最小必要原则的风险化解释
与告知同意规则着力于事前保护不同,最小必要原则主要强调信息主体合法权益的事中和事后保护,其通过相关性、最小化、合比例性三方面的要求来规制信息处理行为,在个人信息保护体系中发挥了不可或缺的重要作用。然而,最小必要原则的要求与生成式人工智能实现其主要处理目的之间存在巨大张力:生成式人工智能的运行机制决定了其需要大量数据驱动的模型训练,而这一过程容易导致超出必要范畴收集个人信息、信息处理期限不明、信息用途不清晰等问题,与最小必要原则要求产生冲突,使最小必要原则的应用在实践中受到限制。为化解这一困境,可以采用风险化转型的方式重新解释最小必要原则,即以场景分析下的风险控制为基准,推动最小必要原则向“合理必要”的转变。通过这种方式,可以在保留和承认最小必要原则的前提下,避免其僵化应用对生成式人工智能技术的发展造成限制。
此时,最小必要原则将被视为一种风险预防和预警机制,要求生成式人工智能技术服务提供者在处理个人信息时,必须将潜在风险控制在合理水平内。这将促使最小必要原则的灵活使用,使其得以更好地适应生成式人工智能的实际应用场景。与我国形成鲜明对比,欧盟法律体系下相关原则更加灵活。例如,欧盟gdpr规定了平衡测试的机制,要求数据处理者在权衡个人信息保护和处理的必要性和合法性时,需要考虑利益平衡和风险评估等因素,以确保个人信息合理利用和保护的动态平衡。实际上,最小必要原则在我国实践中的僵化适用已受到众多学者质疑。有学者认为,应将“禁止过度损害”作为最小必要原则适用的一个重要考虑因素。也有学者提出,在特定情形下应当以“有限性原则”替代最小化原则,这些主张实际上都蕴含着风险控制的思维。可见,在生成式人工智能应用中,有必要将最小必要原则的风险化解释视为一项应时而生的必要措施。
与此同时,还需要明确一些具体情形作为限制以平衡最小必要原则被风险化解释带来的不确定性。具体来看,包括以下方面:首先,个人信息的收集仍需以实现生成式人工智能运行目的为限,非实现该目的所必须的个人信息不应收集。例如,搜索记录、设备信息和通信信息等个人信息与实现生成式人工智能运行目的无关,收集此类信息无法构成“合理必要”,反而增加安全风险。其次,个人信息处理的时限亦须符合最小必要原则。根据《个人信息保护法》第47条,当生成式人工智能所存储的信息过期或不再与其训练和应用有关时,存储机构有义务在合理时间内删除或进行去标识化处理。删除机制是最小必要原则和目的限制原则的具体体现,在生成式人工智能信息储存时间难以确定的情形下,这一机制应当得到切实落实,以降低信息累积带来的风险。最后,应严格控制敏感个人信息的收集和处理。敏感个人信息使得“基本权利面临高风险损害”,全球个人信息保护体系均特别关注敏感个人信息的收集和处理,尤其是欧盟gdpr直接确立了敏感个人信息处理的“一般禁止、例外允许”的原则性规定。因此,生成式人工智能技术服务提供者必须严格控制敏感个人信息的收集和处理。即使在特定情况下难以避免收集敏感个人信息,也应尽可能避免将其用于模型训练,以降低敏感个人信息泄露的风险。
(三)建立虚假信息生成风险的全过程应对机制
在《生成式人工智能服务管理暂行办法》总则第四条第一款中,明确阐述了生成式人工智能的生成内容限制,尤其是不得生成煽动颠覆国家政权、推翻社会主义制度,危害国家安全和利益、等虚假有害信息。因此,为了有效防控生成式人工智能带来的虚假信息生成风险,首先需明确风险来源,并清晰界定规制的对象范围。生成式人工智能核心技术基于算法模型和庞大的数据集,这是导致虚假信息生成的主要风险源头,应着重对这两方面规范,并坚持从预防到识别再到控制这一风险控制思路,建立虚假信息生成风险的全过程应对机制。具体说,该应对机制应包括以下方面:
其一,建立可信的数据来源和算法模型。数据来源和算法模型分别是生成式人工智能的基础和核心技术,直接影响了生成式模型的质量和可信度,建立可信的数据来源和算法模型可以减少误差和漏洞的产生,从源头防范生成式人工智能生成虚假信息。根据《互联网信息服务深度合成管理规定》等相关规定,可以从以下方面来建立可信的数据来源和算法模型。一方面,应当确保所使用的数据来源的合法性和合规性,符合数据保护法、隐私保护法和知识产权法等相关法律和规定。并且应当通过数据清洗、数据归一化和数据转换等措施,以减少数据中的误差,确保数据来源的质量和准确性。当前,以chatgpt未代表的生成式人工智能既未公开其数据获取方式,也未标明语料库数据获取来源,致使语料库中数据和信息来源的合法性和真实性无从判别。为确保生成内容的真实、可信,应当根据上述规定强化这方面的合规要求。另一方面,应当使用正则化和交叉验证等技术减少算法模型过拟合,以确保模型在面对各种攻击和恶意操作时也能保持其准确性和可靠性。同时生成式人工智能技术服务提供者应当定期对其产品进行合规审查,识别和解决潜在的技术安全隐患,以保障生成文本的真实性和避免潜在的风险。
其二,建立透明、可解释的算法模型。为保证生成式人工智能生成内容客观、真实、可信,建立透明、可解释的算法模型尤为重要。与其他语言模型一样,生成式人工智能并非完全客观、中立的工具。其对世界的“认识”取决于算法和设计者所做的决定,如使用哪类数据进行文本训练或使用何种生成方式进行内容回复。生成式人工智能算法的难以理解和非直觉性特点为其价值判断和意识形态安全风险带来了挑战。为此,算法透明原则应运而生,旨在揭开算法生成内容的真实面貌,从而增强其可解释性和可问责性。遵循该原则,通过公开和披露算法设计原理、数据输入输出等要素,可保障算法公正性和可信性,确保生成内容的真实性和客观性。在此基础上,为用户赋予获取算法解释的权利,将用户协议转化为实质上的平等,进而形成用户对虚假信息生成风险的主动防御。为了更好地实现算法透明和可解释的原则,一些国家和组织也发布了相应的指导方针。例如,英国信息专员办公室在2020年发布了《人工智能决策说明指南》,其中涵盖了ai决策说明的六种类型,为生成式人工智能技术服务提供者提供参考和指导。我国可以此为参照构建完善生成式人工智能算法解释相关规则。
其三,进行深度合成标识。深度合成标识是控制生成式人工智能虚假信息传播的重要手段之一,可以帮助监管部门有效追踪虚假信息的来源,提高虚假信息的识别率,促进生成式人工智能的透明化。《互联网信息服务深度合成管理规定》《生成式人工智能服务管理办法》等相关规定反复提到对深度合成内容进行标识。生成式人工智能技术服务提供者应当对生成内容中可能导致公众混淆或者误认的,在生成内容合理位置、区域进行显着标识,向公众提示深度合成情况。尤其是在涉及医疗、金融、教育等问答的时候,应进行更加显着的风险提示。然而,现有规定只是概括性的,并未对深度合成标识的技术标准和规范进行明确规定。未来还应建立成式人工智能技术行业深度合成标识的技术标准和规范,明确该行业深度合成标识的要求和实现方法,提高深度合成标识的可行性和普适性,以促进深度合成标识规定在生成式人工智能应用中的切实落实。
其四,建立虚假信息鉴别与处置机制。在部分虚假信息已经生成的既定事实下,为了及时发现和处置生成式人工智能产生的虚假信息,减少其对社会、经济和个人造成的负面影响,还应当构建虚假信息鉴别与处置机制。通过建立用于识别违法和不良信息的特征库、建立健全虚假信息质疑和辟谣机制、对接信息发布平台实施暂停服务等措施及时识别和控制虚假信息,并防止其进一步扩散。此外,还应建立严格的责任制度。生成式人工智能研发人员、所有者、运营者和发布平台根据其过错在各自责任范围内承担虚假信息生成的法律责任。在责任分配时应遵循支配原则,即风险属于谁的管辖范围,谁便需要对风险及由此产生的结果来负责。
(四)健全基于风险的个人信息保护合规制度体系
随着《个人信息保护法》的正式实施,越来越多的企业开始建立个人信息保护合规管理体系,以规范企业内部的个人信息处理行为,预防个人信息泄漏等安全事件的发生。尤其对于大型个人信息处理者来说,建立个人信息保护合规管理体系是实现个人信息安全保障的必要之举。《个人信息保护法》第58条明确规定对“超大互联网平台”课以“建立健全个人信息保护合规制度体系”的义务。因此,生成式人工智能服务提供者作为大型个人信息处理者,同样应承担起健全个人信息保护合规制度体系的义务。今后应努力在生成式人工智能信息安全保障体系中嵌入个人信息保护合规内容,并着重从以下两方面入手:
其一,建立生成式人工智能个人信息保护影响评估制度。风险评估是所有领域中风险控制的核心组成部分,它迫使信息处理者“识别、评估并最终管理个人信息处理给权利和自由带来的高风险”,有助于从源头上减少个人信息泄漏风险的发生。在生成式人工智能应用中,涉及敏感个人信息处理、利用个人信息进行自动化决策、委托处理个人信息等多项信息处理高风险情形,更容易造成个人信息泄露,应当将个人信息保护影响评估作为信息保护合规的一项核心任务。英国信息专员办公室(ico)在2022年发布的《如何恰当且合法地使用ai及个人信息》中明确指出,数据控制者在使用ai系统之前应进行个人信息保护影响评估,并根据实际情况采取与其风险相适应的措施降低可能的损害。我国国家互联网信息办公室等部门于2023年7月13日公布的《生成式人工智能服务管理办法》暂未涉及生成式人工智能个人信息保护影响评估,相关内容尚需参照《个人信息保护法》第55条和第56条的规定。
但总体看,我国《个人信息保护法》中的个人信息保护影响评估制度仍较粗疏,在生成式人工智能应用方面需进一步完善。其中最关键的是缺乏向公众强制披露的机制,公共监督缺位将导致难以确保个人信息保护影响评估风险预防工具朝着公共利益的方向发展。对于该问题,《信息安全技术个人信息安全影响评估指南》已明确规定一系列措施。在生成式人工智能的个人信息保护影响评估中,可以该指南为参照,公开个人信息保护影响评估报告或组建公众代表委员会,确保评估过程接受外部监督。
其二,设置生成式人工智能个人信息保护独立监督机构。根据《个人信息保护法》第58条的规定,大型互联网平台企业需承担设立独立监督机构的特别义务,以确保其个人信息处理符合合规要求。此项义务的适用标准包括三个方面:提供重要互联网平台服务、用户数量众多、业务类型复杂的个人信息处理者。基于此标准,《互联网平台分类分级指南(征求意见稿)》和《互联网平台落实主体责任指南(征求意见稿)》对其进行了进一步详细阐述。以chatgpt为代表的生成式人工智能作为一种新型的人工智能技术,仅用两个月时间便获得了一亿的用户量。其个人信息处理量与大型互联网平台企业相似,并且广泛应用于推动经济发展、保障民生、维护国家安全等重要领域,属于“提供重要互联网平台服务”的信息处理者。因此,生成式人工智能应设立独立监督机构以监督个人信息保护情况,充分履行社会责任。
鉴于生成式人工智能应用中的个人信息处理往往伴随高度复杂的算法和技术,独立监督机构人员应当包括具备相应专业知识和技术能力的专业人员。在职责范围上,独立监督机构应当从制度合规、技术合规和组织合规三方面着手,对生成式人工智能应用中的个人信息安全事前防范、事中规制和事后处置的合规情况进行监督。包括个人信息保护负责人的设立、个人信息跨境安全评估、个人信息安全事件应急预案、合规审计、发布个人信息保护社会责任报告等。总体来看,对生成式人工智能技术服务提供者施加个人信息保护特别义务,是风险控制的重要措施。
结语
生成式人工智能既有为人类生产生活与社会变革带来诸多便利的一面,也存在对人格尊严侵害的一面。近来chatgpt用户个人信息泄漏及虚构法学教授性骚扰事件接连发生,深刻揭示了生成式人工智能的威胁范围和对社会稳定的潜在危害,也让个人信息保护及其风险防范机制的脆弱性暴露无遗。
尽管个人信息保护制度存在被技术侵蚀的风险,但我们不能放弃这些制度,而应该在风险控制的基础上进一步转型,以更好地保护个人信息权益和尊严。未来,我们需要加强对人工智能伦理和隐私保护问题的研究,推动更加完善的个人信息保护制度的建立,以保障人类尊严与科技进步的平衡发展。