此前一项调查显示,苹果公司以及其他大型科技公司曾使用 YouTube 字幕来训练他们的人工智能模型,苹果公司周四回应了对其使用人工智能训练数据的担忧。

《连线》本周早些时候的调查报道称,超过 17 万个来自热门内容创作者的视频是用于训练 AI 模型的数据集的一部分。苹果专门使用该数据集开发其开源 OpenELM 模型,该模型于 4 月公开。
然而,苹果现已向9to5Mac证实,OpenELM 并不支持其任何 AI 或机器学习功能,包括该公司的Apple Intelligence系统。苹果澄清说,OpenELM 的创建完全是为了研究目的,目的是推进开源大型语言模型的开发。
在 AI 代码共享社区Hugging Face Hub上发布 OpenELM 时,苹果研究人员将其描述为“最先进的开放语言模型”,旨在“赋能和丰富开放研究社区”。该模型也可通过苹果的机器学习研究网站获取。苹果表示,它没有开发新版本 OpenELM 模型的计划。
该公司强调,由于 OpenELM 未集成到 Apple Intelligence 中,因此“YouTube 字幕”数据集不会用于支持其任何商业 AI 功能。苹果重申了之前的声明,即 Apple Intelligence 模型是在“授权数据(包括为增强特定功能而选择的数据)以及我们的网络爬虫收集的公开数据”上进行训练的。
《连线》杂志的报道详细介绍了包括苹果、Anthropic 和 NVIDIA 在内的公司如何使用“YouTube 字幕”数据集进行 AI 模型训练。该数据集是非营利组织 EleutherAI 编制的大型数据集“The Pile”的一部分。