研究机构Epoch AI在上周四发布的一项最新研究预测,大约到这个十年之交,即2026年到2032年之间,科技公司将耗尽人工智能语言模型所需的公开训练数据。
该研究报告的作者塔马伊·贝西罗格卢将其与耗尽有限自然资源的 “淘金热”进行比较。他表示,一旦人工智能领域耗尽了人类创造的文字储备,保持目前的发展速度可能会面临挑战。
在短期内,ChatGPT的开发者OpenAI和谷歌(Google)等科技公司正在竞相获取高质量的数据源,有时甚至为这些数据付费,用来训练它们的人工智能大语言模型,例如,通过签署协议来获取Reddit论坛和新闻媒体上源源不断的语句。
从长远来看,不会有足够多的新博客、新闻报道和社交媒体评论来维持当前的人工智能发展轨迹,这将给公司带来压力,迫使它们利用现在被视为隐私的敏感数据(如电子邮件或短信),或者依靠聊天机器人自己输出的可靠性较低的“合成数据”。
贝西罗格卢表示:“这方面存在一个严重的瓶颈。如果可用的数据量受到限制,你就无法再高效扩展你的模型。而扩展模型规模可能是增强模型能力和提高输出质量的最重要方式。”
两至八年低谷期
两年前,也就是ChatGPT首次亮相前不久,研究人员在一篇工作论文中首次提出了他们的预测,认为高质量文本数据在2026年就会枯竭。在那之后,许多事情发生了变化,包括新技术让人工智能研究人员能够更好地利用已有数据,有时还能对同一数据源进行多次“过度训练”。
但这是有限度的,经过进一步研究,Epoch现在预计在未来两到八年的某个时候,公共文本数据将会耗尽。
该团队的最新研究已通过同行评审,并将在今年夏天于奥地利维也纳举行的国际机器学习大会(International Conference on Machine Learning)上发表。Epoch是一家非营利性研究机构,由总部位于旧金山的Rethink Priorities主办,并由“有效利他主义”的支持者提供资金。有效利他主义是一种慈善运动,已投入大量资金减少人工智能最严重的风险。
贝西罗格卢表示,人工智能研究人员早在十多年前就意识到,积极扩展两个关键要素——算力和海量互联网数据,可以显著提高人工智能系统的性能。
Epoch的研究显示,输入人工智能语言模型的文本数据量每年增长约2.5倍,而计算能力每年增长约4倍。Facebook母公司Meta Platforms最近声称,他们即将推出的Llama 3模型(尚未发布)的最大版本已经在多达15万亿个词块上进行了训练,每个词块可以代表一个词汇的一个片段。
但是,担心数据瓶颈到底有多大的价值还值得商榷。
多伦多大学(University of Toronto)计算机工程系助理教授、非营利组织人工智能矢量研究所(Vector Institute for Artificial Intelligence)的研究员尼古拉斯·帕珀诺特表示:“我认为,重要的是要记住,我们并不一定需要训练越来越大的模型。”
“再复印复印件”
帕珀诺特没有参与Epoch的研究。他表示,还可以通过对特定任务更加专业的训练模型,创建更熟练的人工智能系统。但他担心的是,生成式人工智能系统使用其自身输出的结果进行训练,会导致系统性能下降,即所谓的“模型坍塌”。
帕珀诺特表示,使用人工智能生成的数据进行训练“就像你复印一张纸,然后再复印复印件。你会丢失一些信息。”不仅如此,帕珀诺特的研究还发现,这样做会把信息生态系统中现存的错误、偏见和不公平进一步编码。
如果真正由人类创造的语句依旧是一种重要的人工智能数据源,那么最受青睐的信息库的管理者,如Reddit和维基百科(Wikipedia)等网站,以及新闻和图书出版商等,就必须认真思考该如何使用这些数据。
维基百科运营方维基媒体基金会(Wikimedia Foundation)的首席产品和技术官塞琳娜·德克尔曼开玩笑说:“也许你不必追求完美。现在,我们正在就人类创建的数据进行与自然资源类似的对话,这是一个有趣的问题。我不应该嘲笑它,但我确实觉得有点不可思议。”
虽然有些机构往往在数据被无偿使用后,才试图阻止他们的数据被用于训练人工智能,,但维基百科对于人工智能公司如何使用志愿者撰写的词条,几乎没有任何限制。尽管如此,德克尔曼表示,她希望能鼓励人们继续贡献词条,尤其是在大量廉价的自动生成的“垃圾内容”开始污染互联网的时候。
她表示,人工智能公司应该“关注人类生成的内容如何继续存在并且可以继续访问”。
从人工智能开发者的角度来看,Epoch的研究称,向数百万人付费生成人工智能模型所需的文本,“不太可能是一种经济的方式”来提高技术性能。
随着OpenAI 开始训练其下一代GPT大语言模型,其CEO山姆·阿尔特曼在上个月的一次联合国活动上表示,OpenAI已经尝试过“生成大量合成数据”进行训练。
阿尔特曼表示:“我认为你需要的是高质量的数据。有低质量的合成数据。也有低质量的人类数据。”但对于过度依赖合成数据而非其他技术方法来改进人工智能模型的做法,他也持保留意见。
阿尔特曼表示:“如果训练模型的最佳方法只是生成千万亿词块的合成数据并将其反馈到模型,那就太奇怪了。从某种程度上来说,这似乎效率不高。”(财富中文网)
翻译:刘进龙
审校:汪皓
ChatGPT等人工智能系统可能很快就要耗尽让它们变得更加智能的资源——人们在网络上编写和分享的数十万亿词汇。
研究机构Epoch AI在上周四发布的一项最新研究预测,大约到这个十年之交,即2026年到2032年之间,科技公司将耗尽人工智能语言模型所需的公开训练数据。
该研究报告的作者塔马伊·贝西罗格卢将其与耗尽有限自然资源的 “淘金热”进行比较。他表示,一旦人工智能领域耗尽了人类创造的文字储备,保持目前的发展速度可能会面临挑战。
在短期内,ChatGPT的开发者OpenAI和谷歌(Google)等科技公司正在竞相获取高质量的数据源,有时甚至为这些数据付费,用来训练它们的人工智能大语言模型,例如,通过签署协议来获取Reddit论坛和新闻媒体上源源不断的语句。
从长远来看,不会有足够多的新博客、新闻报道和社交媒体评论来维持当前的人工智能发展轨迹,这将给公司带来压力,迫使它们利用现在被视为隐私的敏感数据(如电子邮件或短信),或者依靠聊天机器人自己输出的可靠性较低的“合成数据”。
贝西罗格卢表示:“这方面存在一个严重的瓶颈。如果可用的数据量受到限制,你就无法再高效扩展你的模型。而扩展模型规模可能是增强模型能力和提高输出质量的最重要方式。”
两至八年低谷期
两年前,也就是ChatGPT首次亮相前不久,研究人员在一篇工作论文中首次提出了他们的预测,认为高质量文本数据在2026年就会枯竭。在那之后,许多事情发生了变化,包括新技术让人工智能研究人员能够更好地利用已有数据,有时还能对同一数据源进行多次“过度训练”。
但这是有限度的,经过进一步研究,Epoch现在预计在未来两到八年的某个时候,公共文本数据将会耗尽。
该团队的最新研究已通过同行评审,并将在今年夏天于奥地利维也纳举行的国际机器学习大会(International Conference on Machine Learning)上发表。Epoch是一家非营利性研究机构,由总部位于旧金山的Rethink Priorities主办,并由“有效利他主义”的支持者提供资金。有效利他主义是一种慈善运动,已投入大量资金减少人工智能最严重的风险。
贝西罗格卢表示,人工智能研究人员早在十多年前就意识到,积极扩展两个关键要素——算力和海量互联网数据,可以显著提高人工智能系统的性能。
Epoch的研究显示,输入人工智能语言模型的文本数据量每年增长约2.5倍,而计算能力每年增长约4倍。Facebook母公司Meta Platforms最近声称,他们即将推出的Llama 3模型(尚未发布)的最大版本已经在多达15万亿个词块上进行了训练,每个词块可以代表一个词汇的一个片段。
但是,担心数据瓶颈到底有多大的价值还值得商榷。
多伦多大学(University of Toronto)计算机工程系助理教授、非营利组织人工智能矢量研究所(Vector Institute for Artificial Intelligence)的研究员尼古拉斯·帕珀诺特表示:“我认为,重要的是要记住,我们并不一定需要训练越来越大的模型。”
“再复印复印件”
帕珀诺特没有参与Epoch的研究。他表示,还可以通过对特定任务更加专业的训练模型,创建更熟练的人工智能系统。但他担心的是,生成式人工智能系统使用其自身输出的结果进行训练,会导致系统性能下降,即所谓的“模型坍塌”。
帕珀诺特表示,使用人工智能生成的数据进行训练“就像你复印一张纸,然后再复印复印件。你会丢失一些信息。”不仅如此,帕珀诺特的研究还发现,这样做会把信息生态系统中现存的错误、偏见和不公平进一步编码。
如果真正由人类创造的语句依旧是一种重要的人工智能数据源,那么最受青睐的信息库的管理者,如Reddit和维基百科(Wikipedia)等网站,以及新闻和图书出版商等,就必须认真思考该如何使用这些数据。
维基百科运营方维基媒体基金会(Wikimedia Foundation)的首席产品和技术官塞琳娜·德克尔曼开玩笑说:“也许你不必追求完美。现在,我们正在就人类创建的数据进行与自然资源类似的对话,这是一个有趣的问题。我不应该嘲笑它,但我确实觉得有点不可思议。”
虽然有些机构往往在数据被无偿使用后,才试图阻止他们的数据被用于训练人工智能,,但维基百科对于人工智能公司如何使用志愿者撰写的词条,几乎没有任何限制。尽管如此,德克尔曼表示,她希望能鼓励人们继续贡献词条,尤其是在大量廉价的自动生成的“垃圾内容”开始污染互联网的时候。
她表示,人工智能公司应该“关注人类生成的内容如何继续存在并且可以继续访问”。
从人工智能开发者的角度来看,Epoch的研究称,向数百万人付费生成人工智能模型所需的文本,“不太可能是一种经济的方式”来提高技术性能。
随着OpenAI 开始训练其下一代GPT大语言模型,其CEO山姆·阿尔特曼在上个月的一次联合国活动上表示,OpenAI已经尝试过“生成大量合成数据”进行训练。
阿尔特曼表示:“我认为你需要的是高质量的数据。有低质量的合成数据。也有低质量的人类数据。”但对于过度依赖合成数据而非其他技术方法来改进人工智能模型的做法,他也持保留意见。
阿尔特曼表示:“如果训练模型的最佳方法只是生成千万亿词块的合成数据并将其反馈到模型,那就太奇怪了。从某种程度上来说,这似乎效率不高。”(财富中文网)
翻译:刘进龙
审校:汪皓
Artificial intelligence systems like ChatGPT could soon run out of what keeps making them smarter—the tens of trillions of words people have written and shared online.
A new study released Thursday by research group Epoch AI projects that tech companies will exhaust the supply of publicly available training data for AI language models by roughly the turn of the decade—sometime between 2026 and 2032.
Comparing it to a “literal gold rush” that depletes finite natural resources, Tamay Besiroglu, an author of the study, said the AI field might face challenges in maintaining its current pace of progress once it drains the reserves of human-generated writing.
In the short term, tech companies like ChatGPT-maker OpenAI and Google are racing to secure and sometimes pay for high-quality data sources to train their AI large language models–for instance, by signing deals to tap into the steady flow of sentences coming out of Reddit forums and news media outlets.
In the longer term, there won’t be enough new blogs, news articles and social media commentary to sustain the current trajectory of AI development, putting pressure on companies to tap into sensitive data now considered private—such as emails or text messages—or relying on less-reliable “synthetic data” spit out by the chatbots themselves.
“There is a serious bottleneck here,” Besiroglu said. “If you start hitting those constraints about how much data you have, then you can’t really scale up your models efficiently anymore. And scaling up models has been probably the most important way of expanding their capabilities and improving the quality of their output.”
A 2- to 8-year cliff
The researchers first made their projections two years ago—shortly before ChatGPT’s debut—in a working paper that forecast a more imminent 2026 cutoff of high-quality text data. Much has changed since then, including new techniques that enabled AI researchers to make better use of the data they already have and sometimes “overtrain” on the same sources multiple times.
But there are limits, and after further research, Epoch now foresees running out of public text data sometime in the next two to eight years.
The team’s latest study is peer-reviewed and due to be presented at this summer’s International Conference on Machine Learning in Vienna, Austria. Epoch is a nonprofit institute hosted by San Francisco-based Rethink Priorities and funded by proponents of effective altruism—a philanthropic movement that has poured money into mitigating AI’s worst-case risks.
Besiroglu said AI researchers realized more than a decade ago that aggressively expanding two key ingredients—computing power and vast stores of internet data—could significantly improve the performance of AI systems.
The amount of text data fed into AI language models has been growing about 2.5 times per year, while computing has grown about 4 times per year, according to the Epoch study. Facebook parent company Meta Platforms recently claimed the largest version of their upcoming Llama 3 model—which has not yet been released—has been trained on up to 15 trillion tokens, each of which can represent a piece of a word.
But how much it’s worth worrying about the data bottleneck is debatable.
“I think it’s important to keep in mind that we don’t necessarily need to train larger and larger models,” said Nicolas Papernot, an assistant professor of computer engineering at the University of Toronto and researcher at the nonprofit Vector Institute for Artificial Intelligence.
‘You photocopy the photocopy’
Papernot, who was not involved in the Epoch study, said building more skilled AI systems can also come from training models that are more specialized for specific tasks. But he has concerns about training generative AI systems on the same outputs they’re producing, leading to degraded performance known as “model collapse.”
Training on AI-generated data is “like what happens when you photocopy a piece of paper and then you photocopy the photocopy. You lose some of the information,” Papernot said. Not only that, but Papernot’s research has also found it can further encode the mistakes, bias and unfairness that’s already baked into the information ecosystem.
If real human-crafted sentences remain a critical AI data source, those who are stewards of the most sought-after troves—websites like Reddit and Wikipedia, as well as news and book publishers—have been forced to think hard about how they’re being used.
“Maybe you don’t lop off the tops of every mountain,” jokes Selena Deckelmann, chief product and technology officer at the Wikimedia Foundation, which runs Wikipedia. “It’s an interesting problem right now that we’re having natural resource conversations about human-created data. I shouldn’t laugh about it, but I do find it kind of amazing.”
While some have sought to close off their data from AI training—often after it’s already been taken without compensation—Wikipedia has placed few restrictions on how AI companies use its volunteer-written entries. Still, Deckelmann said she hopes there continue to be incentives for people to keep contributing, especially as a flood of cheap and automatically generated “garbage content” starts polluting the internet.
AI companies should be “concerned about how human-generated content continues to exist and continues to be accessible,” she said.
From the perspective of AI developers, Epoch’s study says paying millions of humans to generate the text that AI models will need “is unlikely to be an economical way” to drive better technical performance.
As OpenAI begins work on training the next generation of its GPT large language models, CEO Sam Altman told the audience at a United Nations event last month that the company has already experimented with “generating lots of synthetic data” for training.
“I think what you need is high-quality data. There is low-quality synthetic data. There’s low-quality human data,” Altman said. But he also expressed reservations about relying too heavily on synthetic data over other technical methods to improve AI models.
“There’d be something very strange if the best way to train a model was to just generate, like, a quadrillion tokens of synthetic data and feed that back in,” Altman said. “Somehow that seems inefficient.”