我的位置: 上观号 > 上海市法学会 > 文章详情

黎浩田|何以促进:元宇宙支撑技术的治理逻辑与规范路径——以生成式人工智能为例

转自:上海市法学会 2025-06-25 07:49:38

生成式人工智能是元宇宙的重要支撑技术,其治理问题长期以来备受学界关注。近期,为了达致法治需求与规范供给之间的平衡,以“政策话语之规则转译”为重心的人工智能治理范式应运而生,形成了聚焦“促进与发展”的多元学说,主要包括“数据要素促进论”“创新资源保障论”及“风险规制过剩论”。然而,训练数据的短缺并不因数据收集端的适度放宽或单靠“大规模数据微型权益融合”的制度探索而得到根本缓解。相反,全球模型开源所致的模型商业开发与应用门槛降低需要更为精准的规制,以引导创新应用和产业发展。同时,由于规范供给的粗疏与缺漏,现行促进型制度在实际运行中暴露出诸多问题,导致公共数据开放对高质量数据集供给的贡献有限、算力资源结构性供需矛盾突出、智算中心和新兴产业相关投资亦效果不彰。在法治逻辑的审视下,以“促进”为导向的规范供给之功能应界定为支持、引导和规范。具体而言,基于训练数据制度促进的逻辑重塑,构建支持数据标注产业生态建设和鼓励训练数据集开源的数据法律制度。对算力互联互通制度目标偏离现象进行纠偏,构建适应差异化计算需求的算力治理机制。对产业投资基金的功能异化趋向进行矫正,形塑以回归投资本质为中心的监管制度体系。

一、问题的提出
昔日,“元宇宙”这一概念一度无处不在,遍布于学界与公众视野,成为热议的焦点。如今,“元宇宙”热似乎在学界的研讨中备受批判,暂时淡出了很多研究者的视线。需要指出的是,学界对于元宇宙的认知往往未能触及其作为技术集合的本质,即遵循技术渐进主义的发展轨迹,由连续的技术突破和社会适应所勾勒。在这一进程中,每一个阶段有不同的技术能力和人的需求,依托于当时的科技、工具与方法所实现的数字化终局,便构成了所处时代的元宇宙。当前,生成式人工智能的技术迭代,为元宇宙的发展奠定了更真实的技术支撑,其带来的内容生产变革也将极大地促进增强现实(AR)与虚拟现实(VR)的应用。譬如,在AR/VR领域内,三维(3D)内容的创作素来被视为一项耗时且充满挑战的任务,其成本之高,难以实现元宇宙愿景中海量虚拟内容的个性化规模化创造。然而,Meta公司最新披露的研究成果——Meta 3D Gen模型,以其革命性的速度和效率,改变了这一现状。该技术能在短短六十秒之内,从文本描述直接生成端到端的高品质3D资产,其速度较之传统替代方案提升了数倍。对此,或许会有人提出质疑:即便生成式人工智能能够带来内容生成的多样性和个性化,且其生成质量逼真,但这一元宇宙关键支撑技术的落地应用之日似乎遥不可及,甚至可能迎来又一场技术泡沫的破灭。目前,生成式人工智能端侧模型能力的提升和模型成本的大幅降低一定程度回应了这种质疑。一方面,国内初创企业面壁智能开发的端侧多模态模型仅8B参数就实现了对GPT-4V模型的超越。另一方面,国内人工智能企业深度求索创新模型架构,将显存占用较传统MHA架构大减至5%-13%,并将计算量降至极低水平。这些生成式人工智能的最新进展无疑为人工智能赋能元宇宙发展奠定了坚实的技术基础,并为大规模应用提供了现实可能性。随之而来的问题是,如何治理生成式人工智能这一元宇宙支撑技术,在规范其发展的同时推动元宇宙产业的应用落地?
对于生成式人工智能,我国持续追踪前沿技术进展并针对性立法,已逐步构筑起一套日趋完善的法律规制体系,“促进科技向上向善发展”。同时,作为人工智能领域“世界领先的追赶者”,我国也尤为重视以产业政策为主导激励市场创新的促进型制度建设。例如,在中央层面,多部委联合印发的《元宇宙产业创新发展三年行动计划(2023—2025年)》,提出强化人工智能技术在元宇宙中的集成突破。在地方层面,北京、上海和浙江等多个省市相继出台的元宇宙产业发展政策都提到促进生成式人工智能的发展。现实中,中央和地方产业促进政策的频频出台与“元宇宙风险规制”的理论研究形成了较为强烈的反差。元宇宙的应用探索与产业实践毕竟刚刚展开,系统的理想化的元宇宙规制体系构建仍然依赖于元宇宙技术本质的“外部窥探”和近乎“天问式”的内部猜想。这些理论暂未回归到“如何促进产业发展和预防技术风险”这一经典命题的解答。以生成式人工智能为例,理论界普遍采用的“风险规制”范式虽然很大程度上确保了生成式人工智能的发展不偏离“以人为本”的轨道,但其无法有效回应立法者和产业界通过法律制度促进技术创新,进而推动元宇宙产业发展的迫切需求。有鉴于此,一些学者在深入反思风险预防范式和市场激励范式的基础上,提出了“综合治理范式”。这一范式旨在通过人工智能的多维规制体系,协调技术发展与应用安全之间的内在张力。这些学者提出相关立法应转向“技术促进”和“产业发展”,意图通过制度规范确保创新资源的可获得性和可利用性。需要强调的是,这种转变也存在一定风险,即行政力量的介入及“国有资产管理式”策略可能会影响市场在资源配置中的决定性作用,导致供需错配下的算力中心重复建设、生成式模型预训练所需算力资源分散、公共数据开放对训练数据的贡献不足等诸多问题。归根结底,这种观察视角的局限性在于忽视了数据和算力这些基础性的要素资源在推动技术创新发展中必须以市场需求为导向,不可光在供给端进行宏观意义上的创新资源保障,而是需要借助市场机制根据要素需求端的实际情况进行高效配置。概言之,学者们提出的生成式人工智能治理范式仍需应对两大核心难题:一是如何界定商业资本驱动下技术发展的边界,把握好数据合规、算法备案和模型备案的监管尺度,并且在预防风险的基础上,引导商业模式朝着更为安全稳健的方向发展;其次,如何厘定政府在促进技术发展中的介入限度,为产业发展与技术创新构建法治化的制度体系,确保市场在创新资源的配置中起决定性作用。
尽管不同治理范式为技术发展与市场秩序提供了理论指导,但在实际操作中,制度的落实往往面临多重困境。这些困境不仅关系到技术发展的边界和政府的介入限度,还涉及数据资源的有效供给、算力资源的高效配置以及个人信息与著作权等数据来源者的权益保护。因此,为了将学者们提出的生成式人工智能治理范式有效应用于现实,宜正视当前制度构建中亟须规范填补的漏洞之处。在我国,生成式人工智能的促进与发展在制度构建上遭遇若干现实困境,其中以下几点尤为突出:其一,数据市场法律制度之缺陷,在于侧重对企业数据资源的存量盘活,而对公共数据开放后的数据复用性和模型开发所需前沿数据这一增量的生产关注不足,这在一定程度上制约了生成式人工智能所需数据资源的有效供给。其二,全国一体化算力网建设之困境,在于对大规模并行计算所需物理集中和算力生产、调度和服务本可一体化这些实践原则的背离,致使算力基础设施建设与算力市场实际需求并不完全适配,进而导致模型初次训练所需算力短缺和其他计算活动所需算力过剩的结构性供需矛盾。其三,在个人信息保护与著作权制度的探讨中,对生成式人工智能模型预训练与后训练、基础模型的二次预训练与后训练,以及基础模型能力调用后的具体应用这三种产业实践的区分不足。这种区分的缺失,或将导致对生成式人工智能风险的认知偏差,可能在制度完善过程中产生误导效应。
对此,既有研究中的“数据要素促进论”“创新资源保障论”及“风险规制过剩论”提出了部分解决方案。然而,这些研究在应对现实困境时却存在局限:既未对当下正在运行的促进型制度展开全面、细致地分析,亦未回答这些制度在哪些情形下由于何种规范供给的粗疏与缺漏造成前述困境。因此,本文拟通过法治逻辑的深入审视,批判性地反思现有治理范式的不足,并进一步探讨如何通过支持、引导与规范三重功能的促进型规范供给,促进生成式人工智能赋能元宇宙产业应用落地。同时,本研究还将针对生成式人工智能数据标注产业生态建设、算力互联互通制度以及产业投资基金运作中所面临的具体困境进行深入剖析,以期为人工智能立法提供具有实践指导意义的制度建议。
二、促进生成式人工智能发展的学理反思
“人工智能已成为当前国际技术竞争与规则博弈的关键领域”。在这一领域,生成式人工智能模型正日益成为推动行业进步的核心驱动力。然而,在全球技术竞争日趋激烈的背景下,国内基础模型的发展相较国际先进水平仍然存在显著的代际差距,这无疑构成了生成式人工智能赋能元宇宙产业发展的重大挑战。对此,现有的“数据要素促进论”因部分偏离产业需求而显示出局限性,“创新资源保障论”则因资源配置低效而暴露出隐忧,“风险规制过剩论”则因忽视技术发展失序之风险而需批判性反思。

(一)
“数据要素促进论”之局限:偏离产业需求

在以GPT、Stable Diffusion和Qianwen为代表的生成式人工智能模型兴起后,有学者认为法律制度是造成中文人工智能训练数据问题的重要原因,进而制约了所谓“人工智能大模型”的发展,并主张设计“促进人工智能发展的数据制度”。此种“数据要素促进论”明确指出人工智能三要素之一的算力主要涉及硬科技问题,算法则与数据密切相关。故而,法律制度对人工智能发展之促进,尤应聚焦于数据要素。但是,持“数据要素促进论”的学者们往往未能深刻认识到这一点:促进生成式人工智能发展并不依赖于放松对个人信息和著作权作品用于模型训练的监管,亦难以单靠大规模微型权益融合的数据法律制度所能完全解决。生成式人工智能的模型训练过程对数据的依赖性,与以往的传统人工智能技术有着较大的差异。此种差异性之认识,对于确保立法步伐紧跟技术前沿之进展,以及促进生成式人工智能赋能元宇宙应用落地具有重要意义。
一方面,持有“数据要素促进论”立场的学者,对个人信息保护立法的赋权理念及其对人工智能发展所生之影响,常表现出一种值得深思的理论倾向。此倾向认为,现行法律中宽泛的个人信息范畴和处理活动范围,可能无形中限制了数据合理运用的空间,从而对生成式人工智能的发展构成阻碍。然而,此种见解未能充分洞察到,生成式人工智能基础模型之训练并非依赖于对个人信息数据的利用。生成式人工智能基础模型的预训练阶段是决定模型能力最重要的阶段,而这一阶段所需的数据特征,则宜成为构建数据要素促进型法律制度的核心考量。前OpenAI首席科学家Ilya Sutskever在Simons Institute的讲座中指出,现实世界的数据往往是相互关联的,存在大量的深层共同模式和规律。如果能够用无监督学习去发现和利用这些规律,就能极大地提高学习的效率和泛化能力。这也是GPT等大型语言模型能够在各种任务上展现惊人性能的原因:它们通过海量数据的无监督预训练,学会了训练集的种种内在规律性,而这种规律性在相关的数据间具有通用性。与过去依赖用户行为和偏好数据的搜索系统和个性化推荐不同,生成式人工智能基础模型的预训练更加注重对知识性内容的吸收,甚至基础模型训练过程中过多的个人信息可能会引起不必要的偏差,影响模型的泛化能力和准确性。这种转变催生了对数字、代码和语言等数据类型的定制化需求,这些数据提供上述规律性知识,而用户个人的行为数据或偏好信息在此阶段则作用不大。正因如此,“对个人信息与著作权作品应在数据收集端适度放宽”之观点有值得商榷之处,并且这种观点可能会得出与产业发展所需的“规范供给”不相匹配的结论。
具体而言,在生成式人工智能模型的预训练阶段,个人信息的引入并非必要,但这并不等同于在模型开发的后续阶段,尤其是当人工智能系统组件在实际应用中得到增强和扩展时,可以完全避免对个人信息数据的处理。随着产品功能的不断优化和完善,对个人信息数据的利用成为提升应用功能和产品用户体验的关键因素。此外,无论是预训练阶段还是其他训练阶段,均可能对个人信息权益、隐私权和知识产权造成潜在的负面影响。生成式模型存在记忆训练数据集中部分内容的现象,可能允许攻击者提取其中潜在的信息(包括个人身份信息),扩散模型甚至可能在生成时重现训练数据中的图像,北京互联网法院审理的“TrikAI”绘画大模型被诉侵权使用训练语料案,正是这一问题的具体体现。目前,艺术家们越来越关注图像生成模型的进步,这些模型具备模仿并复制艺术家独特风格的能力,其在商业领域的应用,有可能“对原始艺术作品的市场地位构成替代,从而对著作权权利人的利益造成实质性的损害”。这一现象显然与人工智能法(学者建议稿)中所提出的建议相悖,该建议稿指出,在利用他人享有著作权的数据进行人工智能模型训练时,应确保使用行为与数据的原始使用目的或功能不同,且不得影响数据的正常使用,更不得无理损害数据权利人的合法权益。尽管产业界已经着手开发多种防止风格模仿的保护工具,但现有的措施容易被规避,这使得艺术家们在风格模仿面前显得尤为脆弱。上述事实和案件均表明在模型的二次开发训练及其具体应用过程中,对于人工智能应用而言放宽个人信息收集或许会带来益处,但对于基础模型的预训练而言,这种放宽并不显著提升其性能。在推动人工智能的持续进步时,必须审慎地考量数据收集的合理使用标准,对数据来源者的著作权及个人信息权益的保护不可松懈。
另一方面,部分持“数据要素促进论”者致力于研究如何推动“数据使用合理性制度边界”“大规模数据微型权益融合”以及“通过数据交易、公共数据开放等法律制度提升高质量训练数据的供给水平”,但大多未关注数据生产供给层面生成式人工智能数据标注市场最近进展,也存在偏离产业实际需求的趋势。目前,数据交易市场未能为生成式人工智能模型提供高质量的训练数据。以北京国际大数据交易所为例,这家致力于建立集数据登记、评估、共享、交易、应用、服务于一体的数据流通机制的数据交易所,其数据交易平台IDEX系统中的人工智能、科技、金融和工业等数据专区至今仍处于“敬请期待”的状态。在由上海数据交易所打造的全国数据要素交易流通全程服务平台中,虽然包含了用于大模型训练的语料库,但从其语料专区全部155条数据产品交易挂牌信息来看,数据集的内容多涉及农民工、跨城通勤、住房金融、外卖小哥数量、招投标和企业相关信息等,距离生成式人工智能模型训练所需的经过权威认证或凝聚共识的知识、科研属性的数据、科研期刊论文和具有中式价值观的语料仍有较大差距。与此同时,在数据确权的呼声下逐步展开的数据知识产权登记实践中,登记的数据集包括能源监测数据、企业用水行为分析数据、船舶实时报位分析数据、地址钻孔数据集、知识产权大数据分析数据集和医疗大模型训练数据集。虽然其中部分数据集确实适用于模型训练,但这些并非生成式人工智能训练数据的主流供给渠道。尽管数据确权被视为“可以激励数据生产”,但能否真正满足生成式人工智能的发展需求仍需进一步观察。此外,在近期兴起的企业数据资产入表实践中,所入表的数据多为企业用水数据、公交数据、集装箱码头生产操作系统数据、停车应用场景数据等。这些数据虽然在特定的行业或场景中具有一定的应用价值,但其大多并非生成式人工智能模型开发所需的高质量训练数据,难以满足模型开发的复杂需求。虽然有学者提出了一系列关于数据资产入表的法律配置方案,但需要注意的是,数据的价值并非源于简单的入表操作,而是在不同应用场景中展现出的独特价值差异性。数据资产入表虽然在财务报表上为企业提供了便利,帮助其在融资和估值方面取得优势,但这并不能解决企业在数据资产管理和运营上所面临的挑战。更为关键的是,如何通过持续的运营活动,帮助那些对数据资源运营尚不熟悉的企业更好地管理和利用其数据资产,从而实现收益的增长和价值的提升。目前,这方面的实践探索仍然相对匮乏。

(二)
“创新资源保障论”之隐忧:资源配置低效

基于对风险规制和市场激励治理范式的深刻反思,有学者提出,鉴于人工智能技术本质上是一个复杂性工程,单一的治理范式难以全面推动人工智能技术的创新进程,因此主张采纳一种更为综合的治理方式。这种“风险预防—市场激励—创新资源保障”的治理范式将风险规制的预防功能、市场机制的激励功能以及对创新资源的保障功能有机结合,构成了一个理论上较为完善的框架。特别是,倡导综合治理范式的学者主张以政府必要干预理论为指导,围绕算法、算力和数据三大创新要素,确保人工智能科技创新的要素供给。然而,尽管对平衡多个目标的需求已广泛达成共识,上述观点尚未深入探讨如何实现从“技术安全法”向“技术促进法”重心转变的法理逻辑和制度路径。对基于综合治理的具体落实机制及其在实践中的效果的分析仍显不足。这种分析的缺失,也与“公共数据开放”和“算力一体化建设”等促进型制度在具体实施中实际效能与预期目标之间的差距相呼应,以下将据此展开创新资源配置低效现状的详细分析。
无论是人工智能法(学者建议稿)第21条、人工智能示范法2.0第18条,还是立法专家们后续提出的《关于人工智能立法的重点制度建议》(又称“AI十二条”)中的第三个条款,都明确提到应推动公共数据的开放共享以及在人工智能场景中的创新应用。然而,当前公共数据供给实践中出现了一种趋势,即用“数据产品”替代“原始数据资料”向社会供给,这引发了在数据服务与数据要素供给之间如何取得平衡的问题。这种趋势意味着需要重新审视公共数据开放的价值目标,以便与适当的手段选择相匹配。有学者在其研究中指出,应警惕政务数据开放运营制度的目标偏离,关注“数据产品”替代“原始数据资料”供给所带来的风险,以确保数据的复用性不被削弱。国家数据局在对“数据要素X”的理念阐述中强调了数据复用的价值,即数据应在多主体、多场景中实现广泛应用。在生成式人工智能模型的训练过程中,公共数据的多场景复用是提升模型多样性与创新能力的关键。
然而,当前公共数据的场景化应用往往过度,“强调对特定场景和领域的准入要求,弱化了对市场需求的征集匹配”,使得数据只能被多主体“使用”而非真正“复用”,从而陷入了“一场景一授权”的局限。这种局限性带来的后果在生成式人工智能领域尤为显著,具体表现在以下几个方面:其一,多场景复用的理念难以实现,直接限制了模型获取多样化数据的机会。模型的有效性依赖于广泛、丰富的数据集,而过度场景化的数据应用使得公共数据只能服务于特定应用场景,无法跨领域、多角度地被模型利用。这不仅减少了模型训练的数据量,还限制了模型的创新能力和泛化性能,使得模型在应对多样化需求时表现不足。其二,削弱了公共数据在不同场景中的广泛适用性。由于每个场景都需要单独的授权,公共数据难以在多个应用场景中得到统一管理和高效利用。这种“一场景一授权”的模式使得数据使用者必须不断重复申请授权,增加了数据使用的复杂性和成本,进而阻碍了数据在更广泛领域中的复用潜力。而生成式人工智能模型的训练往往需要跨领域、多场景的数据支持,数据的广泛适用性不足将显著降低模型训练的效果。其三,缺乏制度设计的规范化,导致公共数据开放的工作被简化为行政化的事务性操作。这种操作思维在数据的市场推广、质量反馈、需求匹配以及市场流通等环节表现尤为明显,使得数据上线后无法发挥其最大价值。数据的质量和适配性直接影响模型的训练效果,如果数据上线后的质量反馈和需求匹配工作不到位,模型将难以利用高质量、适配性强的数据进行优化和迭代,从而降低其实际应用价值。其四,部分地区有失偏颇的公共数据开放策略削弱了其对生成式人工智能模型训练的潜在推动作用。公共数据开放如果仅限于“上线”而忽视了后续的市场流通和反馈机制,模型将难以充分利用这些数据进行深度学习和创新应用。
众所周知,算力是推动元宇宙产业和生成式人工智能技术发展的基础性要素。在人工智能立法的讨论中,学者们在《关于人工智能立法的重点制度建议》提出了加强算力基础设施建设的建议,意图通过建立算力基础设施资源调度机制,推动公共算力资源平台的建设与利用,“构建全国一体化算力网”。这些制度建议旨在为生成式人工智能的发展提供充足的算力资源保障,然而,在实际操作中,这一战略可能面临资源配置低效的问题。时下,尽管全国各地的算力建设如火如荼,但高端计算资源的分散化和部分地区出现的“县域建设模式”可能导致难以形成有效的资源配置。不少省市投入大量资源建设地方性的市域和县域智算中心,尽管这类项目能够增强地方的算力基础设施,但也使得算力资源无法集中于高效的大规模算力集群之中。边际成本因此难以降低,且服务能力与市场需求的匹配度低,最终导致资源利用率不高,产值增长缓慢,投资回报缺乏保障。这些现象直接反映了算力资源在全国范围内的低效配置问题。
进一步而言,当前国内算力资源的保障路径主要分为两大体系:一是由国家层面统筹规划,力图通过智算中心的建设,构建起全国一体化的算力网络,目前已逐渐在推理阶段为生成式人工智能提供算力支撑;另一则由云服务、自动驾驶及智算芯片企业自发推动,通过自行购置算力芯片及利用算力裸机租赁市场,形成专注于训练阶段的大型算力集群。然而,这两条路径在获取高端算力芯片资源方面呈现出了竞争态势,特别是在对生成式大模型训练至关重要的高端算力领域。由于美国对我国实施出口管制,高端算力芯片的供应链受到了严重制约。尽管英伟达为中国市场特别开发了数款算力芯片,这些应急之举仍未能全面迎合国内日益膨胀的大规模并行计算需求。目前,国内能够部署万卡规模算力集群的企业凤毛麟角,而这些企业亦倾向于将算力资源优先用于自身的生成式人工智能模型训练。例如,阿里云已中止对外提供A100云服务器的算力服务,以便集中资源以满足自身需求。虽然市场上小规模算力资源充足,但这些资源多集中于小规模计算和大规模超算领域,难以填补大规模并行计算的需求缺口,而这一缺口对于通用大模型训练至关重要。随着市场对高端算力的渴求日增,供需之间的鸿沟愈发凸显,算力资源基础设施建设及利用机制的效能亦面临着严峻的考验。在此背景下,如何优化算力资源的配置,提升资源调度的智能化水平,已成为推动算力资源保障的法律制度建设之关键所在。
质言之,学界所倡导的构建全国一体化算力网络的制度构想,虽然与政策实践相契合,但在解决规范政策实践中所暴露的问题上尚显不足。因此,在这些制度构想具体实施时,仍需矫正目前算力资源配置上的“供需错配”之倾向。除大规模并行计算之外的算力资源若过度扩张,众多效能不彰、叠床架屋的智算项目必会导致财政资金的虚掷,以及经由非法渠道偷运高端芯片扰乱算力资源调度等市场失范行为。举例而言,部分地区省市在推进智算中心建设时,不惜投入巨资且将建设任务逐层外包。与此同时,亚洲其他国家的小型企业则通过不正当手段将英伟达芯片私运至中国。此等行径严重破坏了市场秩序,对算力基础设施的稳健建设造成了不小的冲击。职是之故,在深入讨论算力资源保障议题时,应当首先着眼于资源配置的效率及市场秩序的法治化保障。学界所提出的加强算力基础设施建设之建议,虽富有远见,但在具体操作层面,算力资源的供给与需求之间仍旧存在不匹配的问题。鉴于此,立法相关制度建议亟需更多聚焦于如何借助促进型制度的法治化手段,确保资源的合理配置与高效运用,防止因无序扩张所引发的资源浪费与市场失衡现象。

(三)
“风险规制过剩论”之省思:技术发展失序

当前,学界中有不少声音认为,人工智能治理的风险规制范式在促进生成式人工智能产业发展与应用时显得有些“冗余过剩”,而对于规范层面亟待填补的新增量,其回应却显得力不从心。此种“风险规制过剩论”主要是对“超前式规制”“假想式规制”进行理论反思。特别是,眼下关于元宇宙和生成式人工智能的风险研究数量颇为可观,这些文献通常强调风险的提前预防,其核心理念是尽早防范未来可能出现的威胁。然而,这种前瞻性方法有时可能与技术发展的实际进展脱节,导致“法律底座”的构建显得过于理想化,忽视了法律规范应基于技术发展的现实状况及近期趋势,以及对这种客观现实的深刻洞察来省视现有规范的不足,进而针对性开展规则形塑。前述的脱节现象可能导致基于风险方法的理论框架在与现实情况的契合度上产生偏差,因为这些研究往往依赖于碎片化的风险相关技术事实。申言之,上述论断并非否定风险方法的治理范式,而是探讨在生成式人工智能模型不断迭代更新的背景下,如何重新审视和定位这一范式,理性审视逐渐兴起的“风险规制过剩论”所主张的“预防型法治”导致监管严厉制约技术进步和产业发展。需要强调的是,风险规制范式不仅仅是为了防范潜在的技术威胁而存在,同时也应为技术创新提供一个可预见的、稳定的“法治化营商环境”。
人工智能法(学者建议稿)与人工智能示范法2.0作为学术探讨的范例,展示了对风险预防治理模式的深刻反思。然而,“促进和发展”在立法中的重视并不意味着可以放松对生成式人工智能应用的监管要求。部分主张“风险规制过剩论”的研究者未能洞察到更精细化的规制要求乃是产业可持续发展模式所不可或缺的。随着生成式人工智能“规模法则”的持续验证,全球的生成式基础模型企业正致力于训练和优化更强能力且参数更小的模型。这些模型的不断迭代与技术突破,无疑带来新的挑战。例如,尽管当前仅少数企业具备强大的模型自研能力,然而,随着开源模型技术的提升及其影响范围的扩大,二次训练的技术门槛正逐渐降低,这意味着模型部署应用的普遍化和此前较小风险的扩大化已成为新的现实问题。换言之,法律规范不仅应着眼于未来潜在风险的防范,还应关注当前技术发展的现实状态,以及由此衍生的实际需求与挑战。因此,风险规制范式在当前的人工智能治理中仍应予以坚持,唯有如此,才能引导产业应用在商业逐利与技术门槛降低的双重驱动下朝着构建可信人工智能和安全元宇宙应用的方向迈进。从生成式人工智能模型首次预训练到构建基于生成式模型的元宇宙应用设备,形成了由多个环节构成的产业链。在这一产业链上,风险的规制需将生成式人工智能从开发到应用过程中存在的不同风险点与相关安全技术的发展趋势综合考量。以争议较大的数据收集端是否放宽合规要求为例,由于相关安全技术尚未成熟,且规制大部分技术门槛低但应用广泛的二次开发或API调用行为并不会抑制技术的原创性创新。故此,在保护个人信息权益、隐私和著作权的前提下发展生成式人工智能的应用方为上策。
一方面,许多生成式人工智能模型的训练数据部分来源于无差别的网络抓取,其中可能包含从个人网页、社交媒体、在线论坛的个人资料,甚至内部电子邮件等在线数据库中抓取的敏感信息。这些数据可能包括个人身份信息的各种类型,如姓名、电话号码、地址、教育背景、职业、家庭成员和宗教信仰等。由于生成式人工智能模型在推理阶段的输出中可能会重现训练数据中的图像、文本和个人身份信息,即使某些信息片段看似无害,但在结合其他信息时,可能会产生重新识别的风险。这是因为信息组合可能揭示个人身份,使其容易被识别。另一方面,生成式人工智能模型的具体应用可能对个人信息、著作权作品和隐私的保护构成威胁。像KIMI智能助手、即梦AI画图、可灵视频生成和星野AI陪伴等生成式人工智能的具体应用,由多个组件构成,基础模型仅为其中一部分。若无其他组件的配合,基础模型无法独立形成完整的应用系统并有效运作。在模型推理阶段,用户输入通常会在基础模型处理前由生成式应用系统的其他组件进行预处理,如通过数据库、互联网搜索或检索增强生成(RAG)来丰富信息。如果用户恶意诱导,尽管有相应的模型安全机制,仍难以完全避免个人信息泄露的问题。具体而言,个人信息可能以多种方式在由基础模型支持的应用组件中显现。例如,用户在查询时输入自己或他人的个人信息,使用检索增强生成(RAG)技术的应用程序可能从包含个人信息的文档中检索内容。即使在匿名数据集中,少量的属性组合也足以将匿名数据重新识别为特定个体。这引发了前所未有的数据隐私问题,这些问题与以往社交媒体所面临的问题并不完全相同。社交媒体中,用户通常是在意识到风险的情况下自愿分享私人信息。然而,基于网络大规模数据训练的基础模型,扩大了受影响的数据主体范围,远远超出了模型的实际用户群体。如今,任何在互联网上留下个人信息痕迹的个体,都可能面临个人信息泄露的风险。因此,不应简单地放宽个人信息保护的合规要求,以免导致质量不佳的产品在市场中取代优质产品。仅严格输出端的合规要求而放宽收集、使用端的合规要求,即便短期内可能看似促进了技术创新或市场繁荣,实则蕴含着长远的风险,包括但不限于用户隐私泄露、信任危机以及低质量产品因忽视合规而泛滥市场,最终损害整个行业的可持续发展。
在生成式人工智能领域,随着模型与算法双重备案、深度合成备案等制度的日益严格监管,国内生成式人工智能模型公司凭借创新的数据利用技术与方法,成功在维护个人信息权益、隐私权以及著作权的基础上,探索并孵化了更为可持续的商业模式,同时引领了安全技术领域的快速发展。AI⁃Waves所倡导的LPA(Localized Persona Adaptation)技术,正是这一创新实践中的代表。LPA技术通过其独特的设计理念,巧妙地平衡了个性化模型能力与用户数据相关权益之间的关系。其采用端云结合的方式,将用户的个性化数据严格限定在本地设备中,避免了数据上传至云端可能引发的隐私泄露风险。这一举措不仅显著增强了用户数据的安全性,也确保了人工智能系统能够依据每位用户独特的偏好、需求及价值观,提供更加精细化、个性化的服务体验。更为重要的是,LPA技术的商业应用实践,深刻体现了强化模型训练数据收集端与处理端监管要求的必要性及其正面效应。若强化模型训练数据收集端和处理端的监管要求,那些能够在保护用户个性化数据的同时,持续优化产品体验、提升服务质量的企业,将更有可能脱颖而出,形成“良币驱逐劣币”的市场机制,从而推动整个产业向更加安全、可持续的方向发展。譬如,广州互联网法院判决模型生成奥特曼侵犯著作权后,加强版权保护措施已成为绘画模型行业的通行做法。
三、促进生成式人工智能发展的法理逻辑
传统的促进型规范供给往往倾向于“鼓励宣示”与政策措施的“法律化”。然而,若要真正推动技术进步并将产业政策切实落实,这种以“鼓励宣示”与“政府职责分发”为主要特征的促进型立法,其效果常常不尽如人意。实际上,促进型规范供给的功能不应止步于此,而应涵盖以下三个关键维度:其一,通过供给以鼓励与激励为核心的规范,为创新要素的保障提供制度构建的规范指引,以支持模型、数据和算力等相关产业的发展;其二,通过供给以约束与规制为核心的规范,以引导技术创新和产业应用朝向安全优先的方向发展;其三,通过开展对产业政策和促进型制度的规范化,以巩固政策落实和促进型制度运行的法治基础。

(一)
促进型规范供给的多重功能:支持、引导与规范

生成式人工智能的发展依赖于产业的繁荣,而产业的繁荣则仰赖于高效、有序的市场环境的形成与持续,而这一市场环境的构建与维系必然有赖于法治。在推动生成式人工智能发展以赋能元宇宙产业应用的过程中,制定模型开发与应用行为的规制框架及对产业政策和促进型制度的规范化,其重要性甚至超越了传统依赖立法手段保障创新要素供给的“政策法律化”。对产业政策和促进型制度的规范化,以及以约束与规制为核心的促进型规范,其目的在于对现有制度机制进行规范与约束,以规避因制度失灵而可能引发的诸多弊端。尽管表面看来,此种做法未能带来制度构建的对策建议,但其能够有效应对当前创新要素保障和市场激励效果不佳的现实挑战,并避免促进型制度失灵所可能带来的各种风险。质言之,促进型规范供给的功能在于确保“促进型”制度能够有效运行,且不偏离其既定初衷与目标。因此,促进型规范供给应当涵盖支持、引导与规范三重功能,以真正推动生成式人工智能的稳健发展。当前,已有研究主要集中于如何通过激励与鼓励支持技术与产业的发展,并已形成颇具成果的立法建议,因此,以下部分重点探讨以约束与规制为核心的促进型规范及对产业政策和促进型制度的规范化。
一方面,在推动生成式人工智能赋能元宇宙应用的过程中,以约束与规制为核心的促进型规范对于确保技术安全与产业健康发展至关重要。在学界普遍认知中,生成式人工智能模型的生命周期通常被划分为预训练阶段、以微调与对齐为代表的后训练阶段,以及推理阶段的模型应用。然而,这种阶段划分仅适用于少数具备自主研发大模型能力的全球领先企业,与实际的产业实践并不完全对应。此种认知若未加审慎考量,可能导致偏颇的规范供给判断,难以有效指导相关法律规范的构建。事实上,国内具备预训练经验的团队数量寥寥无几,仅有十个左右,这些团队通常掌握着大模型产业链的核心训练方法。不仅如此,许多通过算法模型双备案审查的企业实际上是在开源模型基础上进行二次预训练。尽管这些二次开发行为在一定程度上推动了技术的扩展与应用的多样性,但其潜在风险不容忽视。尤其是在二次预训练与后训练阶段,其技术门槛远低于基础模型的首次预训练,导致具备二次训练能力的主体数量激增。由于二次预训练的门槛相对较低,相关主体往往为了提升应用表现而在数据合规性上做出妥协,甚至不惜牺牲个人信息权益、隐私保护与著作权保障。这类现象一旦泛滥,将严重威胁生成式人工智能的发展。因此,在此背景下,以约束与规制为核心的促进型规范显得尤为重要。相比之下,自主研发基础模型的实体通常具备更为强大的安全技术保障与合规能力。例如,Anthropic提出的“宪法性AI”方法,通过更高层次的原则来引导与规范人工智能行为。这类商业实体不仅在技术层面积淀深厚,且在保障数据安全与知识产权方面也更为领先。由此可见,适度放宽数据收集端合规要求应仅限于自研基础模型的预训练阶段,以确保创新之余,亦能在更高层次上保障数据安全与隐私保护。而在随后的二次预训练、后训练阶段及调用API商业应用的阶段,随着技术门槛的降低与应用场景的广泛拓展,数据合规的要求不仅不应放宽,反而应更加严格,以防范潜在风险,并确保整个产业的可持续发展。这一系列规范正是以约束与规制为核心的促进型规范的应有之义,旨在引导技术创新与产业应用向安全优先的方向发展,从而维护产业的健康与可持续发展。
另一方面,在推动生成式人工智能赋能元宇宙应用的过程中,产业政策与促进型制度的规范化极为迫切。以智算中心建设为例,国家发展改革委等五部委于2023年底联合发布的《深入实施“东数西算”工程,加快构建全国一体化算力网的实施意见》,通过约束性条款明确限定了“八大枢纽、十大集群”作为关键算力网络节点的布局原则,旨在统筹规划,避免盲目扩张。然而,以2023年为例,青岛市宣布了总额达17.7亿元的元宇宙智慧算力中心建设计划,而南昌市亦公布了4.5亿元的江西人工智能计算中心建设规划。进入2024年,这一趋势并未减弱,马鞍山市雨山区推出了5亿元的《图灵小镇人工智能算力中心项目》《竹溪县数字经济产业园一期(竹溪县国芯一号智算中心)项目(EPC)》也达到2.86亿元。并且,在智算中心建设的浪潮中,众多地方政府产业投资基金的大规模注资已成为一种趋势。前述政策中的约束性条款未阻止部分地方政府为解决智算芯片“卡脖子”问题而积极建设算力中心。究其根本原因,在于规范供给稍显粗疏和滞后,以及算力制度建设的规范化不足导致具体落实层面的漏洞过多。现行规范虽对关键算力网络节点的布局与数量进行了宏观统筹,却未能细致预见并有效规制实践中频发的重复建设问题。这间接纵容了资源浪费与无序竞争的现象,亟待通过更为精细、前瞻的制度设计加以弥补与改进。时下,正出现一种趋势,地方政府积极争取超长期特别国债额度,专项用于国家重大战略实施和重点领域安全能力建设,包括算力中心和智算中心的建设。同时,自2024年8月1日起施行的《公平竞争审查条例》对税收优惠政策进行了重大调整,明确禁止给予特定经营者税收优惠或选择性财政奖励。这一变革意在遏制地方政府之间的恶性竞争,避免所谓的“内卷”现象,但也意味着地方政府在吸引投资时失去了部分重要的工具。例如,地方政府过去常通过返税、免租及机械补贴等优惠政策来吸引企业投资,然而随着新条例的实施,这类手段已被禁止,地方政府只能依赖产业基金作为吸引投资的主要手段。随着政府产业基金投资力度的不断加大,一些隐忧逐渐浮出水面。在某些情况下,政府产业基金的有限合伙人(LP)对投资项目的控制力日益增强,部分基金的项目来源几乎完全由有限合伙人所左右,亟须通过强化投资监督和管理,确保政府产业基金的功能不发生异化。概言之,在规范供给的层面,对于政府产业投资基金投资新建智算中心项目宜建立一套更严格的约束制度使其规范化。同时,宜出台地方政府产业投资基金的投资监督、指引、评价管理办法等规范对上述行为进行规制,以确保投资决策和投后管理的透明性、合理性和有效性。对于地方政府智算中心项目的采购,还应加强公平竞争审查,出台针对性的规范细则和指导意见,为算力中心建设的招投标提供清晰的规范指引。通过这类促进型规范的供给,遏制潜在的投机行为,方可在推动生成式人工智能赋能元宇宙应用的进程中提供切实的法治保障。

(二)
促进型规范供给的核心逻辑:市场配置资源

当前,学界所提出的与生成式人工智能相关的立法建议,不乏宣示性鼓励条款及国家直接干预资源分配的宏观构想,此类建议虽有其积极意义,却往往忽略了市场机制在资源配置中的决定性作用及其面临的复杂困境。这种倾向可能导致促进型规范供给与产业实际需求之间的脱节,非但未能有效解决资源供需错配的问题,反而可能诱发要素相关基础设施的盲目扩张与重复建设,进而浪费资源,阻碍行业健康发展。此现象深刻揭示了理论构建中规范逻辑与实际操作需求之间的鸿沟。为进一步阐明上述观点,以下将从“公共数据开放”和“算力基础设施建设与利用”两方面进行深入剖析。
就公共数据开放而言,国内各省市通常指定本地国有资本的企业集团作为数据要素运营机构,这些集团以数据要素为核心业务,负责本地公共数据的运营。然而,这些运营机构的业务范畴,如数据产品的开发、发布、承销以及数据资产的合规化、标准化和增值化,往往与数据商的业务产生直接竞争关系。由于这些运营机构承担了公共数据的运营职能,其在运营过程中可能利用其获取的数据信息或其相对优势地位,导致实际上的不公平竞争。换言之,公共数据运营机构和数据商在一级市场上存在潜在的竞争关系。这些运营机构本不应从事可能影响数据商公平公正准入的活动,或开展本应由数据商进行的营利性业务。一级市场上的数据产品应更侧重于实现数据的常态化流通,服务于下游二级市场数据产品的生产。例如,中国电子提出的“数据元件”概念和孙凝晖院士提出的“数据件”概念,都是一级市场数据产品的不同表现形式。二级市场的数据产品则应更加注重与具体场景的结合,并以一级市场的数据产品为基础来构建。然而,国内各省市的地方性公共数据立法通常将数据商定义为提供数据产品开发、发布、承销以及数据资产合规化、标准化、增值化服务的数据处理者。这一定义并未明确区分一级市场产品和二级市场产品。例如,《广州市公共数据授权运营管理暂行办法》规定,公共数据运营机构被明确分配了公共数据加工使用的职责,并且在服务相关条款中也确定了其可以向数据商收取合理的费用,以提供必要的数据加工、算力支持和合规支持服务。在实际运营中,公共数据运营机构通过持续的运营,可能逐步从个别数据加工处理活动中提炼出满足共性需求的一级市场产品,这种情况可能与数据商在一级市场的数据产品层面产生潜在的竞争关系。职是之故,公共数据授权运营的法规须将运营职能与管理职能进行分离,确保涉及公共资源访问和利用的管理权力不因运营机构的选定而从政府职能部门转移至运营机构。
就算力基础设施的建设与利用而言,市场机制的有效运作是促进算力资源合理分配与高效利用的关键所在。学者们认为,算力互联互通的目标在于“通过类似于电网的交易机制,建立一种畅通无阻的算力供应制度体系”。然而,尽管算力网络的概念借鉴了电网模型,算力资源的物理形态(如芯片)与电力本质上存在显著差异,无法直接进行传输和调度。因此,算力网络的调度核心在于精准捕捉并响应海量用户的多样化需求,以实现资源的合理分配。进一步而言,作为算力提供者的算力中心不应简单类比为电力公司。电力公司在电力从发电厂输出后可以不再干预电力的使用,而算力中心则必须持续为算力消费者提供服务。电网与“算力网络”的根本区别在于,电网仅调度电力资源的传输,而生成式人工智能模型训练所需的算力网络则涉及计算、网络、存储、服务器及芯片等多个团队的紧密协作,并进一步扩展到上层的算子、并行策略和算法的团队协同。因此,算力中心不仅要提供算力,还要在整个使用过程中持续服务算力消费者。目前,针对具体应用场景的优化实践表明,单纯提升算力资源本身并不足以满足用户需求。算力基础设施建设运营面临的核心问题在于如何在降低用户的总成本的同时,通过优化算法、配置参数、通信机制及运行模式,解决计算负载分配不均的瓶颈问题。算力基础设施运营并非简单地销售算力,而应深入理解算力消费者需求,转变为市场驱动的效益导向。算力消费者更关心的是通过使用算力所获得的实际收益,而非算力本身的功能。算力消费者在选择算力时,更加关注其性能、速度、性价比等实际应用效果,以及完成任务所需的成本。因此,算力资源的使用和收费模式与电力系统有着本质区别。算力资源不可储存,使用过程中需要持续支持。而在定价模式上,电力市场的定价由电网公司控制,依据电力的生产和输送成本,而算力中心的定价则多依据市场需求,定价权通常掌握在拥有优质资源的主要玩家手中。这种市场驱动的定价模式要求算力中心具备灵活的调整能力以适应市场变化。
循此逻辑,在建设全国一体化算力网的制度设计中,研究者应充分考虑如何提高投资的投入产出比,特别是在全国范围内大量建设算力中心的背景下,深刻理解资源使用模式,优化投资以确保算力资源的有效配置与高效利用。唯有依托市场导向的资源配置体系,才能在算力资源供需矛盾日益突出的背景下,真正实现算力资源的优化配置与效益最大化。而这应当是算力要素促进型规范供给所围绕的核心,即在政府必要干预的基础上发挥市场配置资源的决定性作用。

(三)
促进型规范供给的基本遵循:立足实际需求

通常而言,在探讨人工智能立法中促进发展专章的设计时,学者们探讨的焦点往往聚焦于算法创新、算力统筹规划与数据资源供给这三个主要方面,这诚然是构建包括生成式人工智能在内所有人工智能技术发展不可或缺的基石。然而,国家层面虽已出台多项促进产业发展的政策,但在具体实施中,政策与产业实际需求的偏差仍导致效果不尽如人意。若要真正回应生成式人工智能发展的需求,规范供给层面的核心议题应深入至产业实践,直面其在数据和算力资源获取上面临的制度挑战。因此,促进型规范供给之要义,在于充分考虑并精准对接产业实践的实际需求,确保规范供给能够灵活适应技术和产业发展的变化,而非仅仅在宏观层面围绕三要素进行假想式、宏观化的制度布局。
一方面,对于算力这一发挥“数据要素×”效应的新质生产力,部分学者提出“重点调度规划算力资源”“建立新型数据基础设施”等主张。为确保算力资源的有效分配,促进型规范供给必须深刻把握并回应实践中具体的算力需求,这一基本遵循在实践中尤为重要。为了确保算力资源的有效分配,促进型规范供给必须深刻把握并切实回应实践中具体的算力需求,这一基本遵循在当前形势下尤为重要。然而,部分学者在探讨算力互联互通的必要性时,基于政府必要干预理论,主张通过建构统一的算力管理规划,建立覆盖全国的“算力网”来降低成本、提高效率,并扩大使用规模。这一构想包括明确各主体的角色定位,例如,由电信运营商负责修建网络通道和降低网络成本,算力服务商提供算力资源,中立机构则负责算力的调度与传输。然而,这种理论架构忽视了一个关键现实:在实际操作中,算力生产、调度与服务往往是高度一体化的,强行分离这些环节可能导致实际运作中的诸多问题。相比于电力市场的输配分离,算力市场的特性与之截然不同。云计算天然具备算力与调度合一的属性,技术已经成熟且效率极高。强行推行输配分离不仅不符合市场的供需现实,反而可能妨碍市场效率的提升。
因此,从算力资源业务应用需求侧深化研究尤为必要。需求侧的研究需关注如何更准确地理解和预测业务应用的实际需求,并将这些需求有效转化为算力资源的合理利用。当下,算力市场的消费需求大致可分为两类:第一类需求是用于生成式人工智能模型训练的大规模并行计算需求。这类需求因资源短缺而依赖于智算芯片的裸机租赁与企业自主采购进行物理集中利用。而算力一体化网络建设目前在支持预训练算力方面存在一定局限性,主要是由于预训练任务依赖于智算芯片的物理集中部署及计算集群的持续服务。第二类需求则涉及生成式人工智能模型的二次开发与应用、传统互联网应用以及其他科学计算活动所需的中小规模算力资源。相较于前者,后者的算力供给相对过剩,且主要依赖于云调度的服务模式。虽然大规模物理集中的万卡集群能够通过云服务技术将算力提供给中小规模的算力消费者,但中小规模算力资源的云化调度并不能反向弥补万卡集群的计算能力。因此,在此背景下,真正短缺的算力芯片宜更加偏向于物理集中部署,这不仅因为物理集中能够有效控制训练过程中的各项成本,更因为其在训练完成后的时期具备通过云服务远程调度外租的经济优势。因此,基于算力市场的实际需求,关于加强算力基础设施建设与利用的制度建议应当引入对物理集中建设原则的规范表达,尤其是算力基础设施建设需坚持重点需求区域的芯片集群物理集中建设,以实现算力资源的合理配置与最大化利用。
另一方面,训练数据集是生成式人工智能的基础。在审视人工智能法(学者建议稿)与人工智能示范法2.0中关于训练数据供给的促进型制度建议时,我们不难发现,尽管这些制度构想旨在缓解模型训练数据短缺的挑战,旨在解决“获取数据的著作权合法授权问题”,但其尚未能充分认识到生成式人工智能赋能元宇宙背景下,模型深度学习与持续进化对数据质量的需求已经逐渐依赖市场化标注服务的定制化供给。当前,公开的互联网数据已难以满足模型训练的需求,部分学者提出的“大规模数据微型权益融合”制度探索,虽试图在大规模微型权益适度保护基础上整合既有市场上的数据资源来摆脱困境,但其本质上忽视了数据质量与应用场景的适配性都需专业数据服务的定制化供给。这是因为,传统互联网平台企业虽掌握大量专有数据,但这些数据往往因缺乏专业性和针对性,在生成式人工智能领域难以形成显著的竞争优势。一直以来,互联网平台公司封闭的“私域”原始数据,尤其是未经处理的数据集,其价值往往被过度夸大,在实际应用中,这些数据往往缺乏模型训练所需之深度加工的价值。正因如此,当前数据法律制度之制度调适宜聚焦于如何激励企业深化数据价值的挖掘与提炼,而非单纯鼓励数据积累与出售。这意味着立法者在设计数据交易制度、数据知识产权登记及数据资产入表等关键环节时,宜充分考虑如何促进企业从数据拥有者转变为训练数据集的服务提供者,进而将数据转化为推动生成式人工智能技术创新的重要驱动力。通过此制度构造逻辑,构建数据基础法律制度有望促进数商生态的发展。
四、促进生成式人工智能发展的规范进路
由上可知,促进生成式人工智能发展的规范供给,不应仅仅停留在倡导国家主导要素供给的制度建议层面。更为重要的是,需要深入探讨如何通过法治手段,精准激励与引导市场行为,以优化资源配置的效率。这一过程需要以支持与引导并重的规范供给为基础,同时推进产业政策和促进型制度的规范化,确保市场主体在公平竞争的环境中能够合理配置资源,并为生成式人工智能发展的各个环节提供坚实的法治保障。唯有如此,方能在国家战略与市场机制的双重推动下,真正实现生成式人工智能的可持续发展。

(一)
训练数据制度促进的逻辑重塑及其规范

时下,生成式人工智能作为“前沿人工智能”,其发展的真正挑战在于前沿高质量数据的生产。互联网数据的生成速度难以满足模型训练的需求,尤其是在支持元宇宙硬件设备的个性化和多样化使用场景所需的高质量多模态数据方面。随着人们对系统与场景持续改进的期望,解决数据需求问题已成为实现这些功能的关键所在。事实上,生成式人工智能所需的大部分数据仍主要依赖于社区开源数据集、互联网的广泛爬取以及数据标注市场的定制化供给。所谓“对训练数据的规模和质量的追求”更确切说是对高质量定制化数据的规模化需求。目前,高质量的数据集几乎完全依赖于数据服务商和模型公司数据工程团队提供的专业标注服务与数据处理。这种依赖使得高质量数据的生产能力成为生成式人工智能发展的核心实力。尽管生成式人工智能早期阶段依赖互联网现有数据,但下一步势必要探索新的数据生产方式。
正因如此,在数据生产端,市场化数据标注相关制度的建设理应成为人工智能立法重点制度建设的重要内容。在生成式人工智能和元宇宙应用中,前沿数据的生产需求日益增长。这类数据不仅需要涵盖艺术家、3D建模师、计算机科学家、物理学家等各领域专家对元宇宙虚拟现实复杂科学原理的深入推理与分析,更依赖高质量的数据标注过程。以群核科技推出的专业数据服务平台Coohom Cloud(群核云)为例,该平台专为室内智能体认知和图形智能的模型训练提供合成数据资源,通过真实的三维场景数据和AIGC技术,向元宇宙、具身智能和自动驾驶等领域的模型提供丰富的2D/3D数据集,极大地推动了相关研究的进展。进一步而言,数据标注是将原始数据转化为模型训练与微调所需专业数据集的必要手段,更直接影响模型的学习与预测能力。高质量的数据标注能够显著提升生成式模型的训练效果,确保其在特定应用场景中的实用性与创新性。此外,市场化的数据标注有助于推动数据生产与供给的精细化与专业化,为模型发展奠定坚实的数据基础。随着大模型在多垂直领域的不断落地,尤其是元宇宙、具身智能等领域的探索加深,高质量场景数据已成为刚需,实时保障输出内容的安全合规也比以往更加重要。然而,当前学界在关于推进数据资源建设的制度建议中,虽提到国家应鼓励建设高质量数据集和数据库,并制定数据标准体系,但未能充分认识到数据标注行业的重要性。尤其是专业数据服务商的发展尚未得到应有的支持。这种忽视不仅限制了生成式人工智能的潜力,更阻碍了整个行业在高精度数据需求方面的创新与突破。基于此,有必要在立法层面完善相关建议。立法层面的制度建议应明确支持市场化数据标注产业的发展,通过制度供给支持专业数据服务商的发展。
此外,对于前文所述公共数据开放对训练数据供给贡献不足的问题,还应对公共数据授权运营中的数据产品范围进行进一步限缩,明确其仅限于二级市场产品,以规避授权运营机构与数据服务机构在一级市场上可能产生的潜在竞争。这一举措意味着,有必要出台高位阶的法律或行政法规,以回应各省市公共数据相关立法中的不足,推动全国范围内构建起公共数据供给的层级化市场体系。具体而言,公共数据供给体系应从整体上分为两级:一级市场负责数据的流通,通过严格规范授权运营主体的行为来实现;二级市场则负责数据的利用,通过授权运营主体的介入来增加供给,进而激活下游的场景应用市场。在这一体系中,公共数据授权运营制度应针对运营主体构建完善的准入和监管制度,并对市场中从事生态服务的数据商予以政策扶持,推进产业生态的建设;同时,公共数据授权利用制度则应重点扶持市场中应用型的数据商,以促进公共数据的有效利用与市场化转化。通过这种层级化的市场体系设计,方可推动公共数据成为高质量数据重要来源,进而支持生成式人工智能的发展。
从数据流通端来看,生成式人工智能训练数据集的合理开源未受到立法建议的重点关注。在当前学界关于构建人工智能发展开源生态的制度建议中,尽管广泛主张支持发展开源平台、开源社区、开源项目,并鼓励人工智能开发者和提供者开放软件源代码、硬件设计,以及应用服务,但这些建议未能深刻洞悉所谓“开源”本质上是对“模型开放程度”的一种笼统称谓,未能触及鼓励模型训练数据集开源共享的关键问题。如此局限的视角,恐将引导开源社区逐渐走向“赢者通吃”的封闭道路,不利于技术创新。事实上,开源实践往往并非源于纯粹的利他主义,而更是一种明智的经营策略。以Meta公司的LLaMA系列开源模型为例,该举措是闭源技术的追赶者在高度竞争环境下的一种策略,更深刻体现了其在拓展市场、挖掘增值服务、强化人才吸引力、提升研发效能及社区协同创新等多元目标上的综合考量。尽管LLaMA系列模型的基础架构向公众开放,但其依然可以通过定制化开发、专业咨询与技术支持等增值服务,开辟出新的盈利渠道。同时,基于开源模型的附加值服务策略,其能够开发并推广一系列高价值产品与解决方案,如专用API接口与个性化模型定制服务,从而开拓多元化的收入来源。通过吸引并巩固用户基础,开源LLaMA模型逐渐成为行业标准,供应链主动对齐Meta的设计,此举不仅为Meta节省了数十亿美元,更为其构筑了难以逾越的市场壁垒。

图1  生成式人工智能模型开放程度类型图
然而,这种做法对开源社区和技术创新的贡献却是有限的。通常情况下,生成式人工智能模型的训练过程中许多被视为极具价值的数据,例如企业的代码库,实际上大部分储存在如GitHub等公开平台上,易于获取与使用。此现象亦说明,为何前述公共数据开放、数据交易平台上的挂牌产品、数据知识产权登记以及数据资产入表等措施,总体上尚难以满足生成式人工智能技术发展所需的特定数据需求,而生成式模型企业却依然能够不断迭代其旗舰模型。但是,由于主流开源模型的数据集未能部分开源,开源生态的发展趋势逐渐朝向有利于头部开源模型开发者、提供者以及其他数字巨头的方向发展。作为生成式人工智能模型全生命周期中至关重要的底层基础服务,数据标注牵涉到关键的“Know-how”。因此,越来越多的模型公司选择自建标注团队和管线,进一步强化了上下游合作关系的紧密耦合,专业数据服务提供商在垂直领域的机会也因此得以增多,尤其是在私有化部署方面。高质量的数据集,尤其是涉及安全和价值观的公益性数据集,很多都掌握在头部企业手中。对于数据流通而言,开源社区中的数据集共享不仅能够弥补互联网数据生产速度不足的问题,还能够促进各领域的数据共享与协作,为模型的训练提供更为丰富的数据来源。这样一种开放式的数据供给模式,有助于打破数据获取的壁垒,从而推动生成式人工智能赋能元宇宙产业的发展。然而,学界并未充分意识到这一点,现有人工智能立法中的开源示范条款内容也未对此作出回应。为了弥补这一缺失,有必要在开源相关立法建议中引入“国家鼓励训练数据集开源”之规定。

(二)
算力互联互通制度的目标偏离及其纠偏

当前,在国家层面,《“十四五”规划》明确提出了“强化算力统筹智能调度”的战略要求,工业和信息化部、中央网信办、教育部等部门联合颁布了《算力基础设施高质量发展行动计划》,从顶层设计层面推动算力资源的优化配置与高效利用。与此同时,地方政府亦积极响应,北京市出台的《促进通用人工智能创新发展的若干措施》以及上海市的《推进算力资源统一调度指导意见》均将算力资源的统筹供给视为关键制度。学界中,部分学者基于政府必要干预理论,对算力一体化网络建设的正当性进行了论证,其逻辑无疑是正确的。然而,实践中的诸多乱象,究其原因,乃在于市场运行缺乏有效的法治保障。要解决这些问题,关键在于通过促进制度的规范化,避免“分解谬误”和“合成谬误”,即不能仅仅聚焦于单一算力资源或某一业务应用,而忽略了其在整个系统中的协同作用及其相互关系。实现算力资源与业务应用的统筹衔接尤为重要,需正视常见的算力互联问题,如缺乏有效应用需求、网络QoS(服务质量)保证不足、调度体系尚未成熟。在算力设施布局方面,若脱离实际应用需求进行异地或远地部署,会导致运营成本增加,造成算力资源闲置以及业务应用性能瓶颈等问题。
质言之,尽管算力一体化网络建设的总体方向是正确的,但要确保其成功落实,必须重视将最优质的芯片资源在生成式人工智能发展的优势区域进行物理层面的高度集中,以形成满足模型训练所需的大规模算力集群。算力一体化网络的构建并非仅仅是简单的任务分派或各地盲目项目建设,而是应深入考虑计算芯片的物理集中度及训练过程中的运维难度,进而在统筹布局上做到科学合理。唯有如此,才能有效纠正算力互联互通制度目标偏离的现象,确保算力资源的高效利用与业务应用的性能优化,从而实现算力体系的整体协调与可持续发展。在此背景下,算力互联互通制度的规范进路离不开以下三个方面的制度构建。其一,明确国家推进公共云产业发展的制度机制,加强算力中心招投标环节的公平竞争审查机制,发挥政府优化营商环境的引领作用,以营造更加公正透明的市场竞争氛围,进而促进公共云产业生态的发展。此外,应出台相关规范支持以公共云服务的方式提供算力服务,鼓励对财政资金购买公共云服务给予政策支持,将企业购买云服务纳入研发费用加计扣除的税收优惠范畴。其二,针对算力基础设施的建设,需构建科学合理的规范体系,以优化算力资源配置,引导算力结构向高效、集约方向演进。因此,对于私营算力中心的互联互通要求,应实施前置性强制审查,特别是在建设规模、能耗效率等方面设定监管要求。此外,出台规范遏制地方政府脱离实际需求、盲目建设算力中心的倾向,推动区域内分散数据中心资源的有效整合,避免重复投资与资源浪费。由于国内在算力资源供给方面的短缺,主要是源于对人工智能基础模型预训练所需计算芯片物理集中程度及其运维难度的忽视。对此,需通过规范明确算力基础设施建设遵循在大规模并行计算需求多的区域进行物理集中的原则,鼓励万卡以上的训练集群构建,保障国产自研基础模型开发的创新资源供给。其三,鉴于国产芯片在硬件与软件领域积累尚浅,加之先进制程技术的缺失,导致其在运行大模型时面临效率低下、稳定性不足等挑战。因此,在推进智算芯片国产化替代进程中,需出台规范明确政策工具的类型、适用范围与限度,同时,注重对国产芯片替代过程中所遇到的困难进行配套制度的规范协同。这一系列的制度规范化建设,将为算力互联互通制度的纠偏提供规范指引,确保算力体系的高效、协调与可持续发展。

(三)
产业投资基金的功能异化及其矫正

“人工智能创新优势的竞争已经是既定事实”。关于人工智能促进型立法,学者们通常将受到普遍关注的数据、算法与算力这三个要素视作相互独立的变量,分别提出促进型制度建议。然而,此种立法思路往往忽略了这些要素之间的复杂性,以及资金与人才等关键要素对三要素的重要影响。以算法这一要素为例,其不仅构成了生成式人工智能及其他智能相关科技创新取得突破的基石,且为多重因素交织作用的复杂产物。算法的迭代不仅依赖于数据的支撑,同时也受到人才、资金、算力资源及其他创新资源的综合影响。然而,这并不意味着百度、阿里和字节跳动等头部数字平台企业,凭借其强大的数据与算力资源及充足的人才和资金保障,必然开发出更为先进的算法,从而在生成式人工智能的竞争中稳操胜券。事实上,国内如月之暗面、深度求索、面壁智能等亦在特定领域展现出独特的算法创新能力。深入分析可见,算法创新背后的驱动力,实则根植于资金与人才的深度结合。以量化交易领域的深度求索为例,其资金实力支撑起庞大的计算集群,为技术创新提供了坚实的物质基础,进而吸引并培育了顶尖人才,形成了良性循环,持续推动生成式人工智能应用的算法前沿探索。因此,资金作为激活人才与资源的关键杠杆,是生成式人工智能乃至元宇宙技术发展的必要条件。随着地方政府产业投资基金对元宇宙及其支撑技术的日益关注,如北京市人工智能产业投资基金对智谱AI的投资,以及余杭国投、南京市产业发展基金等对元宇宙企业的支持,彰显了地方政府产业投资基金在战略性新兴产业布局上的积极态度。然而,此进程中亦浮现两大核心挑战:
一方面,国有资本作为风险投资的重要资金来源,通过政府引导基金等方式,对以人工智能和元宇宙为代表的战略性新兴产业及未来产业进行投资。在此进程中,国有创投机构与政府引导基金正致力于构建科学合理的激励与容错机制,旨在精准对接投资市场需求,促进资本与创新的深度融合。然而,一个不容忽视的现实是,当前激励机制与容错机制的缺失或不完善,已成为掣肘国有创投与政府引导基金稳健前行、人才汇聚及原始创新能力激发的关键因素。这一困境直接限制了投资机构在初创期、小微企业及高科技领域的探索步伐,尤其阻碍了对从0到1的原创性、颠覆性技术的孵化能力。鉴于此,制定并实施针对科技创新与产业投资的专项条例及管理办法,势在必行。此类规范性指引应明确要求国有资本以有限合伙人(LP)及母基金的身份,调整策略布局,展现出展现更高的风险容忍度与长远投资眼光,以此推动“耐心资本”理念在实践中的深耕细作。具体而言,规范内容可涵盖对过往风险资本决策的非追溯性追责原则,为企业卸下因对赌协议而承受的短期业绩重压,并合理延长基金的投资周期,赋予其更为从容的资本运作空间。以《广东省科技创新条例》(以下简称《条例》)为例,该条例第40条明确规定国有天使投资基金和创业投资基金在投资期与退出期应设定不同的考核指标,对基金的整体运营效果进行综合评价,而不以国有资本的保值增值作为主要考核指标。
另一方面,在政府产业投资基金投资项目的过程中,部分国资有限合伙人(LP)为了处理自身项目的问题,可能会将其直接推荐给基金管理人(GP),导致后者的角色逐渐转变为合规性的外包工具,而非真正意义上的风险投资机构。此时,基金管理人的核心职能从风险投资的本质逐步转向确保投资流程的合规性,俨然成为类似于外包律所或会计师事务所的角色。即便基金管理人确保每一环节皆合乎规范,一旦投资失利,仍可能身陷囹圄,而彼时推荐项目之国资有限合伙人中的决策者或已更迭、离任。这种趋势使得政府产业基金逐步异化为政绩工程的工具,既会造成责任归属的不公,亦将基金管理人退化为合规流程的外包服务承担者,从而使基金丧失其应有的风险投资功能。为回归风险投资的本质,构建适应生成式人工智能为代表的前沿技术及元宇宙为代表的新兴产业之产业基金投资制度,宜出台一系列投资监督管理办法,包括投资项目后评价工作指南、投资项目负面清单、合规管理指引试行等,从而对决策过程、实施过程、实施效果及后续影响等投资的全过程进行系统全面的适法性评价。同时,需确立分层分类的投资监管制度、投资中期检查制度,强化廉洁风险防控及境外投资风险防控,细化国资委对监管企业投资项目的监督管理制度。通过形塑产业投资基金法律规范体系,确保前沿技术与新兴产业投资市场的可持续发展。
结语
元宇宙作为新一代信息技术集成创新和应用的未来产业,是生成式人工智能的重要应用方向。在推动生成式人工智能赋能元宇宙产业实践的过程中,促进型规范的供给本质上系政策工具规范化而非法律的政策化。因此,人工智能立法相关制度建议需警惕法律政策化的倾向。法律的核心价值在于通过构建规范的制度框架,保障社会治理的法治化进程;一旦法律与政策界限模糊,法律的规范效能将遭削弱,进而影响到其在社会治理体系中的核心作用。职是之故,促进型规范供给既要宣示鼓励与支持,构建有效的激励机制,又需严格规制技术发展和规范制度运行,紧密跟踪技术革新带来的规制挑战,同时直面促进型制度实施中的现实问题。具体而言,在引导产业实践方面,应审慎放宽数据收集端的合规要求,即便要重构合理使用的标准与范围,亦需对基础模型的预训练阶段、二次开发及具体应用三个环节予以明确区分。同时,宜对二次开发和API调用的商业应用中的数据处理活动加强监管,特别是防止“模型记忆训练数据”引发个人身份重新识别和侵犯著作权的风险。在支持产业发展方面,应增加“国家支持公共云产业及数据标注产业生态能力建设”的内容,并在制定开源条款时,鼓励开发者不仅分享源代码、模型参数与结构,更要注重适度公开训练数据集、训练过程及方法,尤其是涉及安全对齐和价值观对齐的前沿数据集,宜设置相应的开放激励机制。在规范促进型制度方面,“构建全国一体化算力网”相关立法建议需明确在芯片被制裁的背景下,既要针对私营算力中心的强制互联互通要求在建设规模、能耗评估层面实施事前的强制审查,更要出台规范遏制地方“智算政绩工程”,将宝贵的公共算力资源部署于大规模并行计算需求多的区域进行物理集中,形成万卡以上的训练集群,保障国产自研基础模型开发的创新资源供给。此外,针对政府产业基金在算力基础设施建设和新兴产业投资过程中出现的功能异化倾向,亟须制定针对性的规范措施,以规制“股权财政”引发的乱象。通过建立系统的产业投资基金法律规制体系,确保资金有效服务于科技创新与未来产业的可持续发展。

往期精彩回顾

段俊熙|把元宇宙作为方法:迈向主体间性的网络空间治理
郑煌杰|从数据法理到算法伦理:元宇宙的“奥卡姆剃刀”治理
何明鑫|基于控制的数据财产识别方法研究
陈逸伦 曹瑞璇|我国法律语言翻译发展的现实基础、挑战及路径
严驰|元宇宙治理的未来图景:理念、模式与路径
杨正宇|元宇宙视角下展览行为的立法新定位

上海市法学会官网

http://www.sls.org.cn