与 ChatGPT 和其他人工智能聊天机器人聊足够长时间,就能发现它们很快就会说谎话。
这种现象被描述为幻觉、虚构或纯粹是胡编乱造,现在已成为每家企业、机构和高中生试图让生成式人工智能系统编写文档和完成工作时会遇到的问题。从心理治疗到研究和撰写法律摘要,有些人将其用于可能产生严重后果的任务。
聊天机器人Claude 2的制造商Anthropic的联合创始人兼总裁丹妮拉·阿莫代伊(Daniela Amodei)说:“我认为,如今没有一种模型不会产生幻觉。”
阿莫代伊表示:“实际上,它们的设计初衷只是用来预测下一个单词。因此,模型在某些情况下会出现失误。”
Anthropic、ChatGPT 制造商 OpenAI 和其他被称为大型语言模型的人工智能系统的主要开发商表示,他们正在努力使这些模型变得更准确。
至于这需要多长时间,以及它们是否能做到准确无误地提供医疗建议,还有待观察。
语言学教授、华盛顿大学(University of Washington)计算语言学实验室主任艾米丽·本德(Emily Bender)说:"这是无法解决的,是技术与拟议用例不匹配的通病。”
生成式人工智能技术的可靠性至关重要。麦肯锡全球研究院(McKinsey Global Institute)预计,这将为全球经济带来相当于2.6万亿至4.4万亿美元的收入。聊天机器人引爆一波热潮,可以生成新图像、视频、音乐和计算机代码等的技术也掀起了热潮。几乎所有的工具都包含一些语言组件。
谷歌(Google)已经在向新闻机构推销一款新闻写作人工智能产品。对新闻机构来说,准确性至关重要。作为与OpenAI合作的一部分,美联社(The Associated Press)也在探索使用这项技术,而OpenAI正在付费使用美联社的部分存档文本来改进其人工智能系统。
计算机科学家加内什·巴格勒(Ganesh Bagler)与印度的酒店管理机构合作,多年来一直致力于让人工智能系统(包括 ChatGPT 的前身)发明南亚菜肴的食谱,比如新式印度比尔亚尼菜(以米饭为主)。一种“令人产生幻觉”的配料就可能决定菜肴美味与否。
今年 6 月,OpenAI 首席执行官山姆·奥特曼访问印度时,一位德里英德拉普拉斯塔信息技术研究所(Indraprastha Institute of Information Technology Delhi)的教授提出了一些尖锐的问题。
“我想ChatGPT产生幻觉仍然是可以接受的,但当食谱出现幻觉时,问题就严重了。”巴格勒在这位美国科技高管的全球之行新德里站上,在拥挤的校园礼堂里站起来对奥特曼说道。
“你怎么看待这个问题?”巴格勒最后问道。
即使没有做出明确的承诺,奥特曼也表达了乐观的态度。
奥特曼说:“我相信,用一年半到两年的时间,我们团队就能基本解决幻觉的问题。大致如此。到那时,我们就无需讨论这一问题了。创意和完全准确之间存在微妙的平衡,模型需要学习在特定时间,你需要的是哪一种类型的答案。”
但对于一些研究这项技术的专家来说,比如华盛顿大学的语言学家本德,这些改进还远远不够。
本德将语言模型描述为根据训练语料,“对不同词形字符串的可能性进行建模”的系统。
拼写检查器就是通过这样的语言模型来检查你是否打错字了。本德说,这样的语言模型还能助力自动翻译和转录服务,"使输出结果看起来更像目标语言中的典型文本"。许多人在编写短信或电子邮件使用"自动补全"功能时,都依赖这项技术的某个版本。
最新一批聊天机器人,如ChatGPT、Claude 2或谷歌的Bard,试图通过生成全新的文本段落来将这一技术提高到新水平,但本德表示,它们仍然只是重复选择字符串中最合理的下一个单词。
当用于生成文本时,语言模型“被设计为编造内容。这就是语言模型完成的所有任务。”本德说。他们擅长模仿各种写作形式,比如法律合同、电视剧本或十四行诗。
本德说:“但由于它们只会编造内容,所以当它们编造出来的文本恰好被解读为内容正确(我们认为准确无误)时,那只是偶然。即使通过微调,使其在大多数情况下都是正确的,它们仍然会出现失误——而且很可能出现的情况是,阅读文本的人很难注意到这类错误,因为这类错误更隐蔽。”
Jasper AI公司总裁谢恩·奥利克(Shane Orlick)说,对于那些向 Jasper AI 寻求帮助撰写宣传文案的营销公司来说,这些错误并不是什么大问题。
奥利克说:"幻觉实际上是一种额外的奖励。经常有客户告诉我们Jasper是如何提出创意的——Jasper是如何创作出他们想不到的故事或是从他们都想不到的角度切入的。”
这家总部位于德克萨斯州的初创公司与OpenAI、Anthropic、谷歌或脸书(Facebook)母公司Meta等合作伙伴合作,为客户提供各种人工智能语言模型,以满足他们的需求。奥利克说,该公司可能为关注准确性的客户提供Anthropic的模型,而为关注其专有源数据安全性的客户提供不同的模型。
奥利克说,他知道幻觉不会轻易被修复。他寄希望于像谷歌这样的公司投入大量精力和资源来解决这一问题,他表示谷歌的搜索引擎必须有"高标准的事实性内容"。
"我认为他们不得不解决这一问题。"奥利克说。"他们必须解决这一问题。我不知道它是否会变得完美,但随着时间的推移,它可能会日臻完善。“
包括微软(Microsoft)联合创始人比尔·盖茨(Bill Gates)在内的科技乐观主义者一直在预测乐观的前景。
盖茨在7月份的一篇博客文章中详细阐述了他对人工智能社会风险的看法,他说:“随着时间的推移,我很乐观地认为,人工智能模型能够学会区分事实和虚构。”
他引用了OpenAI 2022年的一篇论文,论证“在这方面大有可为”。
但即使是奥特曼,当他推销产品的各种用途时,也不指望模型在为自己寻找信息时是可信的。
“我可能是世界上最不相信ChatGPT给出的答案的人了。”奥特曼在巴格勒所在的大学里对听众说,引来一片笑声。(财富中文网)
译者:中慧言-王芳
与 ChatGPT 和其他人工智能聊天机器人聊足够长时间,就能发现它们很快就会说谎话。
这种现象被描述为幻觉、虚构或纯粹是胡编乱造,现在已成为每家企业、机构和高中生试图让生成式人工智能系统编写文档和完成工作时会遇到的问题。从心理治疗到研究和撰写法律摘要,有些人将其用于可能产生严重后果的任务。
聊天机器人Claude 2的制造商Anthropic的联合创始人兼总裁丹妮拉·阿莫代伊(Daniela Amodei)说:“我认为,如今没有一种模型不会产生幻觉。”
阿莫代伊表示:“实际上,它们的设计初衷只是用来预测下一个单词。因此,模型在某些情况下会出现失误。”
Anthropic、ChatGPT 制造商 OpenAI 和其他被称为大型语言模型的人工智能系统的主要开发商表示,他们正在努力使这些模型变得更准确。
至于这需要多长时间,以及它们是否能做到准确无误地提供医疗建议,还有待观察。
语言学教授、华盛顿大学(University of Washington)计算语言学实验室主任艾米丽·本德(Emily Bender)说:"这是无法解决的,是技术与拟议用例不匹配的通病。”
生成式人工智能技术的可靠性至关重要。麦肯锡全球研究院(McKinsey Global Institute)预计,这将为全球经济带来相当于2.6万亿至4.4万亿美元的收入。聊天机器人引爆一波热潮,可以生成新图像、视频、音乐和计算机代码等的技术也掀起了热潮。几乎所有的工具都包含一些语言组件。
谷歌(Google)已经在向新闻机构推销一款新闻写作人工智能产品。对新闻机构来说,准确性至关重要。作为与OpenAI合作的一部分,美联社(The Associated Press)也在探索使用这项技术,而OpenAI正在付费使用美联社的部分存档文本来改进其人工智能系统。
计算机科学家加内什·巴格勒(Ganesh Bagler)与印度的酒店管理机构合作,多年来一直致力于让人工智能系统(包括 ChatGPT 的前身)发明南亚菜肴的食谱,比如新式印度比尔亚尼菜(以米饭为主)。一种“令人产生幻觉”的配料就可能决定菜肴美味与否。
今年 6 月,OpenAI 首席执行官山姆·奥特曼访问印度时,一位德里英德拉普拉斯塔信息技术研究所(Indraprastha Institute of Information Technology Delhi)的教授提出了一些尖锐的问题。
“我想ChatGPT产生幻觉仍然是可以接受的,但当食谱出现幻觉时,问题就严重了。”巴格勒在这位美国科技高管的全球之行新德里站上,在拥挤的校园礼堂里站起来对奥特曼说道。
“你怎么看待这个问题?”巴格勒最后问道。
即使没有做出明确的承诺,奥特曼也表达了乐观的态度。
奥特曼说:“我相信,用一年半到两年的时间,我们团队就能基本解决幻觉的问题。大致如此。到那时,我们就无需讨论这一问题了。创意和完全准确之间存在微妙的平衡,模型需要学习在特定时间,你需要的是哪一种类型的答案。”
但对于一些研究这项技术的专家来说,比如华盛顿大学的语言学家本德,这些改进还远远不够。
本德将语言模型描述为根据训练语料,“对不同词形字符串的可能性进行建模”的系统。
拼写检查器就是通过这样的语言模型来检查你是否打错字了。本德说,这样的语言模型还能助力自动翻译和转录服务,"使输出结果看起来更像目标语言中的典型文本"。许多人在编写短信或电子邮件使用"自动补全"功能时,都依赖这项技术的某个版本。
最新一批聊天机器人,如ChatGPT、Claude 2或谷歌的Bard,试图通过生成全新的文本段落来将这一技术提高到新水平,但本德表示,它们仍然只是重复选择字符串中最合理的下一个单词。
当用于生成文本时,语言模型“被设计为编造内容。这就是语言模型完成的所有任务。”本德说。他们擅长模仿各种写作形式,比如法律合同、电视剧本或十四行诗。
本德说:“但由于它们只会编造内容,所以当它们编造出来的文本恰好被解读为内容正确(我们认为准确无误)时,那只是偶然。即使通过微调,使其在大多数情况下都是正确的,它们仍然会出现失误——而且很可能出现的情况是,阅读文本的人很难注意到这类错误,因为这类错误更隐蔽。”
Jasper AI公司总裁谢恩·奥利克(Shane Orlick)说,对于那些向 Jasper AI 寻求帮助撰写宣传文案的营销公司来说,这些错误并不是什么大问题。
奥利克说:"幻觉实际上是一种额外的奖励。经常有客户告诉我们Jasper是如何提出创意的——Jasper是如何创作出他们想不到的故事或是从他们都想不到的角度切入的。”
这家总部位于德克萨斯州的初创公司与OpenAI、Anthropic、谷歌或脸书(Facebook)母公司Meta等合作伙伴合作,为客户提供各种人工智能语言模型,以满足他们的需求。奥利克说,该公司可能为关注准确性的客户提供Anthropic的模型,而为关注其专有源数据安全性的客户提供不同的模型。
奥利克说,他知道幻觉不会轻易被修复。他寄希望于像谷歌这样的公司投入大量精力和资源来解决这一问题,他表示谷歌的搜索引擎必须有"高标准的事实性内容"。
"我认为他们不得不解决这一问题。"奥利克说。"他们必须解决这一问题。我不知道它是否会变得完美,但随着时间的推移,它可能会日臻完善。“
包括微软(Microsoft)联合创始人比尔·盖茨(Bill Gates)在内的科技乐观主义者一直在预测乐观的前景。
盖茨在7月份的一篇博客文章中详细阐述了他对人工智能社会风险的看法,他说:“随着时间的推移,我很乐观地认为,人工智能模型能够学会区分事实和虚构。”
他引用了OpenAI 2022年的一篇论文,论证“在这方面大有可为”。
但即使是奥特曼,当他推销产品的各种用途时,也不指望模型在为自己寻找信息时是可信的。
“我可能是世界上最不相信ChatGPT给出的答案的人了。”奥特曼在巴格勒所在的大学里对听众说,引来一片笑声。(财富中文网)
译者:中慧言-王芳
Spend enough time with ChatGPT and other artificial intelligence chatbots and it doesn’t take long for them to spout falsehoods.
Described as hallucination, confabulation or just plain making things up, it’s now a problem for every business, organization and high school student trying to get a generative AI system to compose documents and get work done. Some are using it on tasks with the potential for high-stakes consequences, from psychotherapy to researching and writing legal briefs.
“I don’t think that there’s any model today that doesn’t suffer from some hallucination,” said Daniela Amodei, co-founder and president of Anthropic, maker of the chatbot Claude 2.
“They’re really just sort of designed to predict the next word,” Amodei said. “And so there will be some rate at which the model does that inaccurately.”
Anthropic, ChatGPT-maker OpenAI and other major developers of AI systems known as large language models say they’re working to make them more truthful.
How long that will take — and whether they will ever be good enough to, say, safely dole out medical advice — remains to be seen.
“This isn’t fixable,” said Emily Bender, a linguistics professor and director of the University of Washington’s Computational Linguistics Laboratory. “It’s inherent in the mismatch between the technology and the proposed use cases.”
A lot is riding on the reliability of generative AI technology. The McKinsey Global Institute projects it will add the equivalent of $2.6 trillion to $4.4 trillion to the global economy. Chatbots are only one part of that frenzy, which also includes technology that can generate new images, video, music and computer code. Nearly all of the tools include some language component.
Google is already pitching a news-writing AI product to news organizations, for which accuracy is paramount. The Associated Press is also exploring use of the technology as part of a partnership with OpenAI, which is paying to use part of AP’s text archive to improve its AI systems.
In partnership with India’s hotel management institutes, computer scientist Ganesh Bagler has been working for years to get AI systems, including a ChatGPT precursor, to invent recipes for South Asian cuisines, such as novel versions of rice-based biryani. A single “hallucinated” ingredient could be the difference between a tasty and inedible meal.
When Sam Altman, the CEO of OpenAI, visited India in June, the professor at the Indraprastha Institute of Information Technology Delhi had some pointed questions.
“I guess hallucinations in ChatGPT are still acceptable, but when a recipe comes out hallucinating, it becomes a serious problem,” Bagler said, standing up in a crowded campus auditorium to address Altman on the New Delhi stop of the U.S. tech executive’s world tour.
“What’s your take on it?” Bagler eventually asked.
Altman expressed optimism, if not an outright commitment.
“I think we will get the hallucination problem to a much, much better place,” Altman said. “I think it will take us a year and a half, two years. Something like that. But at that point we won’t still talk about these. There’s a balance between creativity and perfect accuracy, and the model will need to learn when you want one or the other.”
But for some experts who have studied the technology, such as University of Washington linguist Bender, those improvements won’t be enough.
Bender describes a language model as a system for “modeling the likelihood of different strings of word forms,” given some written data it’s been trained upon.
It’s how spell checkers are able to detect when you’ve typed the wrong word. It also helps power automatic translation and transcription services, “smoothing the output to look more like typical text in the target language,” Bender said. Many people rely on a version of this technology whenever they use the “autocomplete” feature when composing text messages or emails.
The latest crop of chatbots such as ChatGPT, Claude 2 or Google’s Bard try to take that to the next level, by generating entire new passages of text, but Bender said they’re still just repeatedly selecting the most plausible next word in a string.
When used to generate text, language models “are designed to make things up. That’s all they do,” Bender said. They are good at mimicking forms of writing, such as legal contracts, television scripts or sonnets.
“But since they only ever make things up, when the text they have extruded happens to be interpretable as something we deem correct, that is by chance,” Bender said. “Even if they can be tuned to be right more of the time, they will still have failure modes — and likely the failures will be in the cases where it’s harder for a person reading the text to notice, because they are more obscure.”
Those errors are not a huge problem for the marketing firms that have been turning to Jasper AI for help writing pitches, said the company’s president, Shane Orlick.
“Hallucinations are actually an added bonus,” Orlick said. “We have customers all the time that tell us how it came up with ideas — how Jasper created takes on stories or angles that they would have never thought of themselves.”
The Texas-based startup works with partners like OpenAI, Anthropic, Google or Facebook parent Meta to offer its customers a smorgasbord of AI language models tailored to their needs. For someone concerned about accuracy, it might offer up Anthropic’s model, while someone concerned with the security of their proprietary source data might get a different model, Orlick said.
Orlick said he knows hallucinations won’t be easily fixed. He’s counting on companies like Google, which he says must have a “really high standard of factual content” for its search engine, to put a lot of energy and resources into solutions.
“I think they have to fix this problem,” Orlick said. “They’ve got to address this. So I don’t know if it’s ever going to be perfect, but it’ll probably just continue to get better and better over time.”
Techno-optimists, including Microsoft co-founder Bill Gates, have been forecasting a rosy outlook.
“I’m optimistic that, over time, AI models can be taught to distinguish fact from fiction,” Gates said in a July blog post detailing his thoughts on AI’s societal risks.
He cited a 2022 paper from OpenAI as an example of “promising work on this front.”
But even Altman, as he markets the products for a variety of uses, doesn’t count on the models to be truthful when he’s looking for information for himself.
“I probably trust the answers that come out of ChatGPT the least of anybody on Earth,” Altman told the crowd at Bagler’s university, to laughter.