7月17日消息,据媒体报道,包括英伟达、苹果、Salesforce和Anthropic在内的多家科技巨头,被曝在训练其AI模型时使用了来自谷歌旗下视频网站YouTube的未授权数据。
这些公司使用了由第三方提供的数据集,这其中包含从视频网站YouTube抓取的大量视频字幕数据,但这些数据并未得到视频创作者的许可。
报道称,这些公司使用了一个名为“YouTube Subtitles”的数据集,该数据集包含了来自Youtube上超过4.8万个频道中的17.35万个视频。
该数据集是由非营利性组织EleutherAI创建。由视频字幕的纯文本组成,包括视频博主上传的部分和Youtube自动转录的文本,除了英语外,通常还附带日语、德语和阿拉伯语等语言的翻译。