论生成式人工智能数据训练的合法性基础

成果信息

DC信息

传播影响力

归属学者：

张建文

归属院系：

民商法学院（知识产权学院）

作者：

张建文 ; 孙依梦

摘要：

生成式人工智能训练阶段依靠大量的数据，数据输入是生成式人工智能生成作品的前提和基础，而作为数据输入之前提的数据收集，则主要以网页抓取的方式进行。网页抓取的行为往往涉及个人信息处理，获取数据的合法授权问题成为企业亟须解决的难题。自然人的个人同意不足以成为大数据时代服务于生成式人工智能数据训练的基本选择，而《个人信息保护法》没有为训练数据来源提供责任豁免。在司法实践中，处理者的正当利益可以作为个人信息处理的合法性基础，为作为数据处理行为的数据训练提供合法性依据。但处理者的“正当利益”判定涉及信息主体的容忍义务，亟待明确其适用的合理边界，平衡个人信息的合理利用与权益保护，形成我国生成式人工智能数据训练的合规路径。

语种：

中文

出版日期：

2025-05-08

学科：

人工智能法学

提交日期：

2025-10-14

引用参考：

张建文; 孙依梦. 论生成式人工智能数据训练的合法性基础[J]. 成都理工大学学报(社会科学版),2025(05):24-33.

全文附件授权许可：

知识共享许可协议-署名

dc.title
论生成式人工智能数据训练的合法性基础

dc.contributor.author
张建文; 孙依梦

dc.contributor.affiliation
西南政法大学民商法学院;

dc.publisher
成都理工大学学报(社会科学版)

dc.identifier.year
2025

dc.identifier.issue
05

dc.identifier.volume
33

dc.identifier.page
24-33

dc.date.issued
2025-05-08

dc.language.iso
中文

dc.subject
数据训练;;合法性基础;;个人同意;;正当利益;;平衡测试

dc.description.abstract
生成式人工智能训练阶段依靠大量的数据，数据输入是生成式人工智能生成作品的前提和基础，而作为数据输入之前提的数据收集，则主要以网页抓取的方式进行。网页抓取的行为往往涉及个人信息处理，获取数据的合法授权问题成为企业亟须解决的难题。自然人的个人同意不足以成为大数据时代服务于生成式人工智能数据训练的基本选择，而《个人信息保护法》没有为训练数据来源提供责任豁免。在司法实践中，处理者的正当利益可以作为个人信息处理的合法性基础，为作为数据处理行为的数据训练提供合法性依据。但处理者的“正当利益”判定涉及信息主体的容忍义务，亟待明确其适用的合理边界，平衡个人信息的合理利用与权益保护，形成我国生成式人工智能数据训练的合规路径。

dc.description.sponsorship
国家社会科学基金一般项目（22BFX079）

dc.identifier.CN
51-1641/C

dc.identifier.issn
1672-0539

dc.identifier.if
0.165

西南政法大学机构知识库，欢迎您

论生成式人工智能数据训练的合法性基础