生成式人工智能数据训练的著作权困境与破局之策

发布日期：2026-06-01 16:34 浏览次数: 信息来源：方琴

【内容提要】生成式人工智能数据训练阶段涵盖前端收据采集、中端数据学习与处理及后端数据输出三个阶段。数据获取阶段难圆合法性问题，学习处理阶段的“算法黑箱”及生成内容的“实质相似性”亟待厘清。传统的权利保护思路均存在局部不适配问题，难以支撑海量数据训练学习模式的需求，无法为著作权人提供周延保护。为纾解数据训练行为的著作权之惑，宏观上有必要将生成式人工智能数据训练行为从“传统话语体系”转向“数据要素”语境。另外，单一化规则设计无法满足当前的实践需求，探索合理使用+法定许可双轨制动态适用机制，在增加适用弹性的基础上，重新分配各主体的权利义务关系，共同参与建立权利人付酬机制的适宜之策，使数据训练在合法合规的框架下不断演进发展。综合考虑海量数据训练的运行特征、传统授权模式的实际不适性、合理使用和法定许可制度利弊以及中国实际战略要求的基础上，发现对生成式人工智能数据训练的问题并非一朝一夕能够解决。数据训练行为的内容会随着人工智能的发展而发生改变，故构建“合理使用配合法定许可动态适用”的制度，将治理时期按实际国情划分为初期阶段和成熟阶段，以求实现前期技术的正当发展和后期各方利益的兼顾。

一、问题的提出

OpenAI公司自2015年成立以来，致力于研究人工智能技术的发展，旨在推动全球产业结构变动，让全人类生活迭代升级。历经8年时间，ChatGPT模型繁衍至第四代，渗透到各个行业领域，经过大数据集“投喂”后，ChatGPT可以实现处理多种语言和推理任务，包括但不限于问答、翻译、写作乃至“创作”。与此同时，我国亦一直致力于人工智能的研发与深度探索，2025年年初发布了Deepseek，其效能可与ChatGPT相比肩，创造了以十分之一训练成本打破人工智能行业顶源级的“巨头”模型，日活跃用户（DAU）从2024年12月的34.7万激增至2025年2月的1.19亿，刷新ChatGPT的用户增速记录，重塑国内AI竞争格局，一举成为行业“领军人物”。当国人皆在为这一技术的诞生而狂欢时，应当更加审慎。因“法学的使命不是赞赏科技发展带来辉煌的成就，而是要审视科技可能带来非理性的后果，以及如何通过法治降低科技发展可能带来的风险与非理性”。从宏观上而言，人类将会面临传统社会结构解构升级，同时，人类的主体性地位可能会面临风险，AI与企业深度融合，未来某些岗位将直接被AI取代。微观上讲，将Deepseek的技术处理过程公开化，置身于更为复杂的法律风险中，不论是预训练或者随时性训练过程，稍稍不慎，便会落入科技进步与版权保护的双重困境。

生成式人工智能训练时所使用的数据集的质量直接决定着模型的学习成果，我国《生成式人工智能服务管理暂行办法》第7条要求提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责。以二者模型为例，ChatGPT是闭源式模型，对于技术的处理全然不予公开，Deepseek是直接嵌入联网搜索，同步学习最新网络内容，且是开源模型，对于技术的推理过程直接向提问者展示。如何预防Deepseek开源模型的法律风险是当前亟须解决的问题。以 Getty Images 诉 Stability AI 案为例，Getty Images 指控 Stability AI 未经授权使用其拥有版权的数百万张图像来训练 AI 模型，侵犯了其著作权。由于生成式人工智能数据训练的规模巨大、使用目的具有特殊性，传统合理使用判断标准难以直接适用，导致这一问题在法律认定上存在不确定性。例如，美国版权局认为人工智能生成的内容不具有可版权性，而中国部分司法案例则倾向于根据用户在生成过程中的参与程度来判断著作权归属。这种不确定性使得生成内容在使用、传播过程中容易引发著作权纠纷，阻碍了生成式人工智能技术的进一步应用和发展。人类社会的向前发展既要保护个体权利，也不能阻滞新兴产业的发展。基于此，本文所探讨的内容旨在为重新审视人工智能产业技术发展与著作权人利益平衡之间的关系，以期为我国人工智能治理提供借鉴。

二、生成式人工智能数据训练不同阶段的著作权侵权风险

从人工智能的基础模型而言，主要分为决策式和生成式，决策式人工智能是以条件概率分布模型为基础，专攻预测和分析方向，样本模型可以追溯。常见的决策式人工智能是推荐模型，根据用户日常浏览的页面，猜测用户喜欢的内容，此种模型是用来准确预测的。生成式人工智能也被称为AIGC（AI Generated Content，人工智能生成内容），遵循的是若干个变量所呈现的概率分布。Deepseek采用了Transformer架构，并经过监督微调（Supervised Fine-Tuning,SFT）和强化学习（RLHF, Reinforcement Learning from Human Feedback）优化，能够处理复杂的自然语言理解和生成任务。豆包大语言模型同样采用的此学习模型，结合了无监督学习和监督学习进行训练。相比于决策式人工智能，生成式人工智能产出结果与训练数据可能既不相同也不相似，或者既相同又相似，更有必要对训练数据加以规制。

（一）数据收集阶段

从狭义上而言，生成式人工智能数据训练仅仅特指模型学习阶段，不包括前端数据收集和后端数据生成流程，但笔者以为，生成式人工智能数据训练理当涵盖上游和下游端。生成式人工智能的数据训练是一个复杂而精妙的过程，其原理基于机器学习和深度学习理论，旨在让人工智能模型从海量数据中学习模式、规律和特征，从而具备生成新内容的能力。这一过程主要包括数据收集、数据处理与学习以及内容生成三个关键阶段，每个阶段都蕴含着独特的技术逻辑和操作流程。

网络爬虫技术的广泛应用使得未经授权的数据爬取现象日益凸显，成为引发著作权纠纷的重要源头。首先，数据共享平台所开放的数据会被直接引入到人工智能中，此类型数据不在著作权法保护范围类。若想让软件有市场竞争力，仅仅依靠最基础的共享数据，远不能达成目标，开发公司转而购买数据，或者通过将先有权利人的著作权经过技术处理，“复制”成为开发者所需的数据。前者由于需向著作权人支付一定报酬，自然不会有侵权之说，后者绕过权利人的方式，因未获得著作权人的许可，不论获取的手段是否合法，均会构成侵权。

在生成式人工智能数据训练的情境下，未经授权的数据爬取行为通常具有规模大、范围广的特点。此种规模性的数据爬取行为侵犯了著作权人的复制权，应当来说，复制权可谓是著作权人最为核心的权利，除符合法律规定的情形外，任何人不得以任何形式，不经授权即复刻著作权人的作品。未经授权的大量数据被直接输入至开发者的程序模型中，与传统意义上的复制行为并无二致。2019年，北京淘友天下科技发展有限公司开发运营的脉脉APP，通过技术手段绕过新浪网的反爬虫措施，大量抓取并使用新浪网用户信息数据。新浪公司认为，淘友天下公司的行为未经授权，擅自复制并使用其网站上受著作权保护的用户数据，侵犯了其复制权和信息网络传播权。二审法院认定，在OpenAPI开发合作模式中，第三方通过OpenAPI获取用户信息时应坚持“用户授权”+“平台授权”+“用户授权”的三重授权原则。新浪微博将用户信息作为其研发产品、提升企业竞争力的基础和核心，实施开放平台战略向第三方应用有条件地提供用户信息，目的是保护用户信息的同时维护新浪微博自身的核心竞争优势。第三方应用未经新浪微博用户及新浪微博的同意，不得使用新浪微博的用户信息。尽管此案围绕数据权益展开，但爬虫技术获取用户信息的模式，与生成式人工智能数据收集“原材料”具有相似场景，为人工智能数据收集侵权提供了实践依据。

（二）数据训练阶段

任何一款人工智能产品在呈现在大众视野之前，必定受到开发者的学习训练，通过算力从海量数据集中获得规律，模型便会按照开发者的意愿服务于市场发展。训练过程不可能为外部人所知悉，此过程可以说是开发者的商业机密，也伴随着一定的“算法黑箱”。训练阶段是体现人工智能产品质量高低的核心时期，特别依靠开发者的技术处理能力，即代码模型。这一过程并不涉及对原始数据的直接复制，经过识别与转码后，最终能生成与原先数据不一样的内容。有学者认为，经过转码过后的内容具有新的原创性表达，那么此时的转码行为完全可能符合侵犯权利人改编权的构成要件。但是这一说法仍存在局限性，生成式人工智能的训练过程并非是统一的技术路径，若如此，Deepseek也会和国内绝大部分人工智能产品大差不差。在“谷歌图书案”中，谷歌对大量图书进行数字化扫描，并提供片段预览和搜索服务，这一行为被美国作家协会等权利人指控侵犯复制权和演绎权。谷歌则辩称，其行为属于合理使用，目的是为了提供搜索和知识检索服务，具有 transformative（变革性/转换性）。该案经过多年的诉讼和和解，最终谷歌与权利人达成协议，建立了数字图书馆，并向权利人支付一定的费用。这一案例反映了在数据训练阶段，复制权和演绎权侵权判断的复杂性，以及如何在著作权保护与技术创新之间寻求平衡的难题。

（三）数据输出阶段

在生成式人工智能数据输出阶段，生成内容与“原材料”实质性相似的判定最为关键，亦是著作权人进行事后救济的不二途径。对于何为实质性相似，在先权利人可能会发觉生成内容与其作品在表达上具有高度相似性，公众无法辨别生成内容是否侵犯了某些著作权人的权益。不可置否，生成式人工智能的场景判定过程充满了复杂性及不确定性。

实务中，判定实质性相似，通常采用“整体观感法”和“抽象过滤分析法”相结合的方法。顾名思义，“整体观感法”是以公众视角为准，对作品整体感受作出判断，倘若，不特定的人对于生成内容与原作品在阅读体验上是否产生类似的感受。一部文学作品中，被控侵权作品的剧情发展、人物塑造、核心主线可以让读者产生雷同的阅读感受，可能会被认定为实质性相似。“整体观感法”亦有弊端之处，强调观者的整体感受，是粗疏的观察方法，以社会观众最为质朴的体验为准。“抽象过滤分析法”较之于前者，判定方法更为客观、科学，适用范围更广。此方法称之为“三步检验法”，首先，由主张侵权的一方把所需要著作权保护的要素提取出来，这些特定的表达是权利人所要保护的作品特征，其次，是将不具有保护性质的表达人工剥离出来，这需要具备一定的专业能力，最后，是将被诉侵权作品和原作品两相比较，这一步亦从普通观众的角度来观察、体味，是作为一个成年人所应当具有的判断。通过这种方法，能够更准确地判断生成内容是否抄袭或模仿了原作品的受保护表达。

然而，在生成式人工智能的场景下，这两种方法的应用也面临着窘境。由于人工智能生成内容的独特性，其可能融合了多个原作品的元素，且经过算法的处理和转换，使得传统的实质性相似判定方法难以直接适用。人工智能在生成古言诗句时，可能从大量的古诗中提取信息，然后进行重新组合和表述，生成一篇新的古诗。这篇古诗也许在内容上或者是核心要义上和原作者的生平、创作的古诗有一定关联，但是在最终内容的呈现、表达的方式上又不同，可以说既相似又不雷同。此种情形下，很难简单地通过“整体观感法”或“三步检验法”来判断其是否与原作品构成实质性相似。此外，实质性相似判定还存在主观性和不确定性。不同的法官、观察者可能基于自身的知识背景、审美观念和判断标准，对作品是否构成实质性相似得出不同的结论。这也给生成式人工智能数据输出阶段的著作权风险评估带来了困难。

三、生成式人工智能数据训练的传统制度之惑

（一）思想-表达二分法边界模糊

应当说，人工智能自问世以来，最先面临的著作权法冲击便是生成内容的权属争议，通过前期大量的学习，经操作者输入相应的“口令”，人工智能可以完全承继著作权人的思想，但是创作出各种各样的表现形式。产业端层面对于人工智能时期，“投喂”的大量数据集本身破坏了先有权利人的权益，故而，人工智能一经问世，便有“非法之起”一说。

著作权只保护思想的表达，但是不保护思想本身。对于生成式人工智能的内容是在学习了无数的数据集之后的表达，表达方式会依据学习模型产生与原作完全不一样的表达，继承了先有权利人的思想，但表达方式是多样的。生成的内容，哪些属于思想，哪些是思想的表达，是当前人工智能所面临的挑战之一，因为只有思想的表达才受到著作权法的保护。倘使按照原先的思想与表达的二分法，在生成式人工智能种可能遭受无法解释的困境，即需要明确区分生成内容的过程中，其中哪些部分属于思想的表达。要明白的是，人工智能在学习海量作品的过程中，是通过开发者设置的固定模型，再按照操作者的指令，最后输出与原先内容相类似的内容，同一段材料，操作者所需要的表达风格不一样，生成的风格也会不一样。人工智能所提炼的原作品的思想，并未直接窃取权利人的作品，生成的新内容应当是独立于先有作品的表达，在数据训练的语境下，人工智能通过在大量既有作品中提取抽象内容，深度学习后，再添加属于公共领域的作品创作元素进行创作。

从先有权利人诉讼的层面而言，法院对于著作权侵权采取“不告不理”的态度，著作权人作为原告诉至法院，负有证明其权利受侵害的责任，即要举证证明侵权人侵犯了所属的著作权，并且内容上存在“实质性相似”。然生成式人工智能的训练时期是不透明的程序开发阶段，开发者不可能也不会将训练数据公之于众，至于最终的人工智能产品面向公众，在操作者的指令下生成的作品，原告如何证明具有“实质性相似”，这带来了著作权人的举证困难，著作权人很难证明或者无法证明侵犯了其权利，因其根本无法将“似是而非”的内容进行比对。应当说，不论是开源性的Deepseek或是闭源的人工智能软件，在生成内容上是具有瞬时性的，思想和表达的界限在生成式人工智能上被予以弱化，训练数据的合法性检验陷入窘境。所以，一直被倡导的思想-表达二分法能否适用于人工智能领域，或者说新形势下，著作权法的保护原则是否需要加以变更，不局限于保护作品最终呈现的内容。

（二）法定许可制度的不足

作为缓和新兴产业与传统行业矛盾的法定许可制度，有利于调整新旧产业交替之间的利益冲突。从历次修法的角度而言，法定许可制度每次修法关注了新时代下的需求，在既尊重版权的情况下同时保护社会的新需要。著作权法的法定许可规定了在某些特定的情形下，可以未经著作权人的同意使用其作品，但必须向其支付报酬。尽管法定许可会释放“自由空间”，生成式人工智能训练数据不需要逐一获得权利人的授权，将训练数据从繁冗的授权手续中解救出来，相对于权利人而言，已经向其支付一定报酬，应当说，法定许可制度极好地平衡了科技创新与保护版权之间的关系。目前，法律上一共规定了六种适用情形，与合理使用制度不同的是，合理使用是版开放式的条款，生成式人工智能训练数据若依靠法定许可制度，需要单独设立条款。

倘使将生成式人工智能训练数据纳入至著作权的法定许可范围内，的确保护了先有权利权人的权益，但会严重阻滞人工智能的开发。训练所使用的数据是不可估量的，海量的数据集究竟如何确定法定许可的具体数额，况且，人工智能是通过无差别地学习数据中的规律，形成一套独立的输出式模型。开发者所支付的报酬费用应当是非常高昂的，极大削弱了研发者的积极性，不利于平衡生成式人工智能产品的技术发展。从理性经纪人角度而言，如在训练时期，研发者所支付的法定许可费用远远大于产品的未来预期效益，便不会有开发者愿意开发生成式人工智能。仅仅将其划入法定许可框架内，将会让人工智能产品落入支付高额法定许可费用的窠臼中。

（三）合理使用解释的困境

著作权法第二十四条规定了12种合理使用的具体情形及1个兜底条款，以此作为著作权侵权的豁免事由。12种情形本身即存在相互解释的困境，勿论生成式人工智能的训练数据。除去兜底条款，能够与训练数据有关系的条款分别是第一款“个人使用”，第二款“适当引用”，第六款“科研使用”。不可置否，从法律条文的文义解释出发，似乎有些牵强。对于第一款的“个人使用”，此条款的终极目的是“为了个人”，此处的个人，笔者以为应当是特定的自然人，不包括企业为了发展自身的产品而使用，个人使用著作权人的作品是为了学习或者是欣赏，开发者使用训练数据是为了研发智能产品，最终产出的人工智能软件是为了其商业目的，故而，主体上和目的上不同。第二款的“适当引用”，为了评论或者介绍某一作品，并且要求“适当引用”，训练数据需要海量数据集，不可能仅是适当引用的程度，对原有作品至少是绝大部分直接使用。第六款的“科研使用”，从使用主体上看，是教学或者科研人员，使用目的是为了课堂教学和科研，尽管开发者中不乏科研人员，但是他们是受企业的委托，最终也不能纯粹为了科学研究，而是实现企业的商业目标。综上，在现有法律框架下，无法直接将生成式人工智能的训练数据归入到合理使用的12种情形中。

当前，国际上判断是否属于合理使用依据“三步检验法”。第一步是特定条件下的使用，所谓特定条件下是指情况特殊，所使用的数据数量很小，范围可控，但人工智能训练数据所使用的数据一定是庞大且不可估测的；第二步是不影响作品的正常使用，即要求使用人不得侵害先有权利人的合法利益，但生成式人工智能训练数据本身侵犯了版权人的复制权；第三步是不得损害权利人的合法权益，不得损害便带有非营利目的，然人工智能的软件开发公司一定是有商业性质。“三步检验法”相互紧密联系，不可切割而看，生成式人工智能训练数据无法满足“三步检验法”的要求。

四、生成式人工智能数据训练的应对路径

数字时代的到来，引发了新一轮产业更迭。各个国家都在部署人工智能产业链的发展与升级，以期在“赛博朋克”的赛道上抢占先机。我国司法实践中，理应以更多裁判要旨回应社会公共利益的需求，让新技术获得适宜的“生存空间”。

（一）宏观选择——数据要素转向缓解二者权利失衡

技术虽在更迭，但立法折始终坚持“创作者中心主义”，通过不断修改著作权法的内容，以期消解版权人和新兴产业群体间的矛盾。AI时代的到来，意味着著作权人对其作品的实际控制权再次被削弱，即便是著作权人发现作品被当作人工智能的“原材料”，也很难举证。在此情形下，若依旧通过传统的市场交付规则约束人工智能开发者的权限，扩大著作权人的作品权利，不利于人工智能技术产业的发展。当前，人工智能已经渗入人类生活的方方面面，自动驾驶、疾病诊断及远程医疗、教育、农业等领域都已经离不开AI的辅助，某种程度上说，人工智能带来了新一轮产业翻新的同时，给人类生活亦带来了福祉。

面对如此重要的人工智能产业，有必要“给予”产业开发者自由权限，以保证人工智能产业生生不息。数字时代，应打破传统意义上的著作权侵权体系，构建宏观的数据要素制度体系，适应市面上的人工智能产品。无论聚焦于著作权或者个人信息保护权，都没法逃脱现有权利制度下既有理论的窠臼，倘使纵观全局，以数据要素对待生成式人工智能的全过程，是具有可行性的。数据本身具有独特的社会生产价值，在AI时代，放大了其公共属性价值，若要推动生成式人工智能产业的发展，势必要打破数据在先权利的“绝对保护”，让数据的效能得以释放。不论是合理使用或是法定许可，均没有考虑到市场交易规则下，不可能对规模化地适用数据进行量化，客观上也无法获得先有权利人的许可。两者权利产生矛盾，亟须借助于新的豁免规则，实现利益最终平衡。

强调生成式人工智能的数据要素转向，并非不重视先有权利人的权利。为保护在先权利人的权利，要增强其自我保护能力。首先，先有权利人要享有绝对的知情权，数字时代，受制于信息鸿沟与交互缺失的影响，知情权是为了让著作权人通过事后救济方式获得补救，是表达拒绝、删除的前置条件。需要明确的是，要解绑知情与同意的关系，削弱权利人同意的要求，赋予权利人对作品的实际控制权。其次，数据在先权利人不仅仅是著作权人，还有具有竞争关系的人工智能开发商。对于非自然人主体，以平台经营为主的服务提供者，不宜享有对“原材料”抓取的拒绝权与删除权，否则会阻滞数据产业的发展，形成数据孤岛的局面。最后，人工智能数据训练存在算法“黑箱”，为矫正数据训练程序的非法性，开发者有必要向在先权利人披露“算法”基本情况，但无需穷尽演示算法的过程，防止开发者陷入沉重的披露环节中。

（二）初期阶段——创设研发性合理使用例外+政府资金投入

现有法律规定下，无法将生成式人工智能数据训练行为纳入合理使用的话语体系中。合理使用制度旨在调整著作权人和其他权利人的利益平衡关系，在此基础理论上，著作权人与生成式人工智能开发者之间的利益冲突得以调和。著作权法的立法初衷是为了繁荣和发展社会主义科学文化，既要保障著作权人的作品，也要保护社会公众的利益，让公众有接触、欣赏、学习作品的机会。广义上而言，生成式人工智能产品开发者本身亦属于社会公众的一员，若能直接在立法上增设合理使用的条款，有利于避免产生“算法黑箱”，助力文化繁荣。新修订的著作权法，专门增设了一条“兜底条款”，以“法律、行政法规规定的其他情形”回应不断发展的时代需求。相比于欧洲大陆法系国家，我国规定的12种特定情形，数量实在令人堪忧。故而，若在现有体制下，通过合理使用制度豁免生成式人工智能数据训练的侵权责任，只能通过单独设款或“兜底条款”解释两种路径。我国著作权法自1990年颁布以来，历经三次修法，可见，法律为了社会稳定性，一般不宜修动，单设法条虽然具有可操作性，但任意修法有违立法初衷。“任何扩大解释都必须严格基于对法定列举类型的类推，而不得脱离既有规定进行法官造法”，对于“兜底条款”进行扩大解释，法官恐落入“造法”的诟病中。

既如此，从《实施条例》着手单设条款规定“为人工智能科研创新需要，对于已经公开发表的作品，可不经著作权人许可合理使用，但著作权人明确声明不予使用的除外。”将数据训练行为的“临时性复制”行为排除出“复制权”的控制范围，同时，数据输出的内容不允许与原作品具有高度相似性。直接使用合理使用制度难以满足先有权利人的利益，因此，可以建立以政府作为引导机制的“双轨制”补偿体系（如图4-1所示）。

图1

首先，政府专门设立“基金池”，确保著作权人的利益得到补偿，创作积极性不受到打击。生成式人工智能在研发阶段的登记费用、申请费、语料费、场所、环境等，尽可能由政府提供税收减免政策支撑。需要明确的是，在初期阶段，政府专项基金支持是有限度的，作为短期的过渡手段，需建立审慎的审批浏览，防止不法分子借此机会直接窃取大量“原材料”。其次，人工智能产业联盟参照文化产业发展专项资金管理办法，按作品数据库调用频次，年度分配给权利人。当然，开发者不能对所有已经公开发表的数据进行收集，权利人已经明确禁止使用的，开发者需建立过滤系统，保证权利人的退出权限。为了让后续数据来源更加清晰，可以增加标识功能，便于计算作品的调用频率，计算支付费用。

（三）成熟阶段——转向法定许可制度

生成式人工智能产品的初期，理应由政府调节市场利益分配规则。当人工智能发展成熟时期，政府这张“无形之手”是时候退出。生成式人工智能的开发者最终通过产品更新换代、走向市场，实现利益变现，发展至中后期，已经具备支付报酬的能力。当生成式人工智能可以独立完成市场内部循环时，无需占用国家资源来平衡二者利益关系，发展中后期，适宜考虑法定许可制度，重新制定方案，为生成式人工智能数据训练行为保驾护航。

在此含义下所讨论的生成式人工智能数据训练行为应当具有普适价值，即为了全人类社会更加幸福美好，市面上某些所谓的“人工智能”产品，带有不纯粹目的，非法搜集著作权人已经公开发表的作品的，此种行为不受法律保护。一套成熟的学习模型涵盖了先有权利人已经公开发表的作品，可以满足法定许可制度的客体条件。之所以在生成式人工智能发展的成熟时期，引入法定许可制度，是为了规避传统的先授权后使用的模式，让人工智能开发者对于数据的使用尽可能完全与及时。转换为“先使用后付费”的思维模式后，从而实现资源利益的最优化。与合理使用制度不同的是，著作权法并未有“兜底条款”，若要在成熟期适用法定许可制度，需要在著作权法中明文规定。鉴于著作权法不宜任意修动，可通过单独的司法解释条文进行明确，通过“事后补偿”的方式，尽可能给予著作权人心理安慰，让其保持继续创新的精神。

图2

在法定许可制度中，著作权人不享有定价权，支付费用的标准由政府统一把控。由于排除了著作权人对作品享有的绝对控制权，权利人失去了谈判的资格，支付的报酬往往难以充分满足著作权人。故而，在法定许可制度下，要进一步完善付费保障机制。首先，完善以区块链技术为主的储存与溯源机制，区块链技术能够为生成式人工智能构建一个可信、可追溯的数据生态，从源头解决伦理和版权问题。利用区块链的不可篡改时间戳证明数据使用的先后顺序，确定每个作品的使用时间以及调用频次，便于对先有权利人的经济利益进行计算，降低作品使用的证明责任。其次，强化著作权集体管理机制。在生成式人工智能法定许可制度下，著作权集体管理需从“被动确权”转向“主动治理”，通过“技术+制度”双轨制实现。一方面，打破当前著作权集体管理者的垄断地位，维护著作权人在获取信息及维护自身权益的能力。另一方面，可以通过成立新的集体管理组织或者由著作权管理协会，加强法定许可收费标准、支付方式、运行管理等流程，使付费透明化，避免“暗箱操作”。最后，可以将生成式人工智能数据训练行为的举证责任倒置，进一步鼓励数据开发者在提取数据时做到溯源与跟踪，提高数据采集的透明度，有利于形成闭环的付酬机制。

五、结语

技术迭代的指数级加速将不断冲刷现有规则体系，每一次的迭代挑战都呼唤着前瞻性的制度创新。2023年8月15日，我国《生成式人工智能服务管理暂行办法》正式施行，明确提出实施“包容审慎”的监管方式，要求提供和使用生成式人工智能服务应尊重知识产权，依法开展预训练、优化训练等训练数据处理活动。然而，随着大数据、人工智能等颠覆性技术的快速发展与广泛应用，人类将被迫解决由科学进步引发的新型社会问题。生成式人工智能对现有法律框架提出了新的挑战，有必要重新解构著作权法、个人信息保护法的内容，平衡好版权保护和AI科技创新的关系，真正实现训练数据有法可依。

（作者单位：海陵区人民法院）

【打印此页】【关闭窗口】

泰州市中级人民法院

生成式人工智能数据训练的著作权困境与破局之策