研究警示:使用AI生成的内容训练可能导致模型崩溃

2025-04-19 来源|AI图库吧

AI奇点网6月15日报道 | 随着AI生成内容的广泛应用,一个令人担忧的问题开始浮现:当AI生成的内容在互联网上不断增加,并且用于训练模型时,会发生什么?

最近来自英国和加拿大的研究人员对这个问题进行了深入研究,并在开放获取期刊arXiv上发表了一篇相关论文。他们的研究发现令人忧虑,即使用模型生成的数据进行训练会导致生成的模型出现不可逆转的缺陷,被称为"模型崩溃"。

研究人员主要研究了文本到文本和图像到图像的AI生成模型的概率分布。他们得出结论称,从其他模型生成的数据中进行学习会导致模型崩溃,这是一个逐渐退化的过程,随着时间的推移,模型会逐渐忘记真正的底层数据分布。即使在理想的长期学习条件下,这个过程也是不可避免的。

当AI训练模型接触到更多AI生成的数据时,模型的性能会逐渐下降。它会在生成的响应和内容中产生更多错误,并且响应的非错误多样性也会减少。

AI生成数据的"污染"导致模型对现实的感知产生了扭曲。即使研究人员尝试训练模型不要生成过多重复的响应,他们发现模型崩溃仍然会发生,因为模型会编造错误的响应以避免频繁重复数据。

幸运的是,即使在现有的转换器和LLM(语言模型)的情况下,有一些方法可以避免模型崩溃。研究人员强调了两种具体的方法。

首先是保留原始的完全或名义上由人工生成的数据集的副本,并且不要与AI生成的数据混淆。然后,可以定期重新训练模型或从头开始使用完全新的数据集来刷新模型。

第二种方法是将新的、干净的、由人类生成的数据重新引入到训练中,以避免响应质量下降并减少模型中不需要的错误或重复。

然而,研究人员指出,这需要内容制作者或人工智能公司采用一种大规模标签机制或努力来区分人工智能生成的内容和人类生成的内容。

总之,这些研究发现对于人工智能领域具有重要意义,强调了需要改进方法以保持生成模型的完整性随着时间的推移。它们也提醒我们注意未经检查的生成过程的风险,并可能指导未来的研究以制定防止或管理模型崩溃的策略。

最新
更多

研究警示:使用AI生成的内容训练可能导致模型崩溃

最近一项研究表明,随着越来越多的人使用AI生成内容并将其用于训练模型,存在一个严重问题。研究人员发现,使用AI生成的数据进行训练会导致生成的模型出现不可逆转的缺陷,这被称为"模型崩溃"。这篇文章探讨了研究人员的发现以及可能的解决方案。

谷歌推出AI虚拟试穿功能应用于在线购物,将扩展至女装上衣和其他类别

谷歌宣布推出一项新的功能,通过人工智能技术实现虚拟试穿,首先应用于女装上衣,并计划将来扩展到其他类别。该功能允许用户在浏览时搜索相同尺寸但价格、颜色和图案不同的类似产品。Anthropologie、Everlane、H&M和LOFT等品牌将成为首批合作伙伴。

微软New Bing聊天机器人灰度测试多模态能力:开放“AI识图”入口

Reddit上的网友发现Bing Chat新增了上传图片的功能,并且能够通过识图回答问题。尽管识图功能还处于测试阶段,但这一功能有望为用户提供更多多模态的支持,展示了GPT-4相较于GPT-3 5的巨大升级。

提高AI产出质量,OpenAI 发布新的 AI 模型训练方法以解决“AI 幻觉”难题

OpenAI 宣布计划采取一种新的 AI 模型训练方法,称为“过程监督”,旨在解决“AI 幻觉”问题。该方法将奖励模型在推理过程中做出的每个正确步骤,以提高其输出的可解释性。然而,一些专家对此表示怀疑,认为该方法还需要进一步的验证和评估。

GitHub调查显示:受访者表示人工智能工具对开发者工作有极大帮助

最近,代码托管平台GitHub对美国拥有1000名以上员工的企业进行了一项调查,旨在了解人工智能对开发者工作的影响。调查结果显示,使用人工智能工具的开发者们普遍认为其对工作效率的提升起到了积极的作用。

DeepSeek开源周启幕,Flash MLA解码内核引领AI效率革新

DeepSeek公司近期宣布了一项重大举措——“开源周”,旨在向全球开发者社区开放其技术研究成果。作为这一活动的开场,首个亮相的代码库是Flash MLA,一个专为Hopper GPU优化设计的解码内核。 Flash MLA详细介绍:http

网站地图