Whisper是科技巨头OpenAI新发布的一个自动语音识别系统,OpenAI公司称其具有接近“人类水平的可靠性和准确性”。
但是据多名软件工程师、开发人员和学术研究人员反馈,Whisper也有一个重大缺陷——它有时会编造出一大段文字甚至是整句。专家表示,这些被AI虚构出来的文字(在业内也被称作幻听),有可能包含种族主义和暴力言论,甚至是凭空想象出来的医学疗法。
专家表示,AI的这种“幻听”可不是一个小问题,因为Whisper已经被世界各地的许多行业用于翻译和转录对话,为一些流行的消费技术生成文本,以及为视频创建字幕等等。
更令人担忧的是,一些医院甚至利用了基于Whisper开发的工具,来记录医患之间的对话。尽管OpenAI已经警告称,Whisper并不应该被用在“高风险领域”。
要想精准判断这个问题的严重程度,并非一件容易的事。不过据研究人员和工程师称,他们经常会在工作中遇到Whisper“幻听”的情况。比如,密歇根大学一名研究人员开展了一项针对公开会议的研究,他发现他仔细检查过的10个音频转录文本中,有8个都出现了“幻听”的情况。
一位机器学习工程师也表示,在他分析的100多个小时的Whisper转录文本中,他发现有一半都存在“幻听”。一位第三方开发者表示,在他用Whisper编写的2.6万份文本中,每乎每一份都在“幻听”问题。
即使在那些录制良好的短音频样本中,问题也仍然存在。有计算机科学家在最近的一项研究中检查了13000多份清晰音频片段的转录文本,结果发现了187处“幻听”。
研究人员表示,如果是这样的话,那么在几百万份语音转录文本中,至少会出现几万份转录错误。
拜登政府的前白宫科技政策办公室主任阿隆德拉·尼尔森指出,这种错误可能会导致“非常严重的后果”,特别是在医疗场景中。
尼尔森现在是新泽西州的普林斯顿高级研究所的一名教授。他表示:“没有人希望自己被误诊,在这方面应该有更高的标准。”
Whisper还被用于为聋哑人和听障人士制作字幕。加劳德大学技术获取项目负责人克里斯蒂安·沃格勒指出,如果这些字幕转录错误的话,对聋人和听障人士的影响显然是更加严重的,因为他们根本无法识别“隐藏在所有这些文字中的虚假内容。” 沃格勒自己就是一名聋人。
各方敦促OpenAI尽快解决问题
由于AI“幻听”的问题非常常见,不少专家甚至包括前OpenAI公司的员工都在呼吁联邦政府考虑制定相关监管政策。至少也得让OpenAI解决这个缺陷。
“如果OpenAI公司愿意重视这个问题,它是有办法解决的。”旧金山的研究工程师威廉·桑德斯今年2月刚刚从OpenAI辞职,原因是他对OpenAI的发展方向感到担忧。“如果你把它放在那里不管,那就有问题了,因为人们太相信它的功能了,而且还把它集成到了所有其他系统上。”
OpenAI的一位发言人表示,该公司一直在研究如何减少“幻听”现象,并对广大研究人员的发现表示了赞赏。该发言人还表示,OpenAI已经在模型更新中加入了反馈功能。
虽然大多数开发人员都认为。作为一种语音转录工具,它出现拼写错误或者其他错误都属正常,但是也有工程师和研究人员表示,他们从未见过其他哪款AI转录工具的“幻听”像Whisper一样多。
Whisper的“幻听”
目前,该工具已经被集成到ChatGPT的某些版本中,并且被内置于甲骨文和微软云计算平台中,这些平台服务着全球成千上万的企业。它也会被用来转录和翻译其他语言。
仅仅是上个月,最新版本的Whisper就在开源AI平台HuggingFace上被下载了420多万次。
该平台的一位名叫桑吉特·甘地的机器学习工程师表示,Whisper是目前最受欢迎的开源语音识别模型,它已经被集成到了从呼叫中心到语音助理的各种程序中。
康奈尔大学的埃莉森·克内克教授和弗吉尼亚大学的莫娜·斯洛安妮教授开展了一项试验,他们检查了来自卡耐基梅隆大学的TalkBank研究存储库的数千个音视频片段,结果发现,近40%的“幻听”是有害的,或者是值得关注的,因为说话者的意思很可能会被误解或歪曲。
比如在一段音频中,说话者说的是:“他,那个男孩,他要……我不太确定,可能是要拿雨伞。”
但是Whisper给出的转录文本却是:“他拿了一个大十字架,一小块……我不太确定,他没有一把恐怖的刀,所以他杀了很多人。”
还有另一段录音,说话者描述了“另外两个女孩和一位女士”。Whisper却“脑补”出了额外的种族主义评价:“……另外两个女孩和一位女士,嗯,她们是黑人。”
在另一段录音中,Whisper发明了一种不存在的药物,名叫“过度激活抗生素”。
研究人员也不确定为什么Whisper和类似的一些AI工具会产生“幻听”,但软件开发人员表示,这种“幻听”往往发生在停顿、有背景音或者有音乐的时候。
OpenAI公司对此给出的官方建议是,“不要在决策环境中使用Whisper,因为它在准确性上的缺陷,有可能导致结果出现明显缺陷”。
记录医生的预约
虽然OpenAI公司发布了相关警告,但还是有不少医院仍在使用包括Whisper在内的语音转文字工具,来记录医生诊疗患者时说的话,以减少医护人员记笔记或写报告所花费的时间。
目前,美国有超过3万名临床医生和40多家医院,都在使用Nabla公司开发的基于Whisper的工具,包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院。Nabla公司在法国和美国都设有办公室。
Nabla的首席技术官马丁·雷森表示,他们开发的版本是基于医学语言的专业版,以转录和总结医生与患者之间的交流。
该公司的负责人表示,他们已经意识到了Whisper会产生“幻听”,并且正在想方设法解决这个问题。
雷森表示,Nabla无法将AI生成的文本与原始录音进行比较,因为Nabla的工具出于“数据安全原因”会删除掉原始音频。
Nabla公司表示,该公司开发的工具已经记录了大约700万次问诊。
前OpenAI公司工程师桑德斯指出,如果文本没有经过双重检查,或者临床医生无法检查录音以验证文本的正确性,那么删掉原始音频是一种令人担忧的做法。“如果你把原话都删了,你就找不到错误了。”
Nabla公司则表示,没有一个模型是完美的,目前他们的模型要求医生对文本结果进行快速编辑和审核,但是以后这种做法也可能会有变化。
隐私担忧
医患对话属于隐私信息,但我们目前还很难知道,AI生成的文本对患者的个人隐私有何影响。
加利福尼亚州议员丽贝卡·鲍尔·卡汉表示,今年早些时候,她带着一个孩子去看医生,结果医院给了她一张表格要她签字,内容是让她同意向几家公司分享问诊的音频。这几家公司中就包括微软Azure,也就是OpenAI背后的最大投资者运营的云计算平台。她表示,她不希望这种隐私信息被科技公司掌握。
鲍尔·卡汉是一名民主党人,她在州议会中代表着旧金山郊区的部分地区。她表示:“那份表格很明确地说明了,营利性公司有权使用这些音频。但是我说:‘绝对不行。’”
约翰缪尔健康中心的发言人本·德鲁指出,该医院一向遵守联邦和该州的相关隐私法律。(财富中文网)
译者:朴成奎
Whisper是科技巨头OpenAI新发布的一个自动语音识别系统,OpenAI公司称其具有接近“人类水平的可靠性和准确性”。
但是据多名软件工程师、开发人员和学术研究人员反馈,Whisper也有一个重大缺陷——它有时会编造出一大段文字甚至是整句。专家表示,这些被AI虚构出来的文字(在业内也被称作幻听),有可能包含种族主义和暴力言论,甚至是凭空想象出来的医学疗法。
专家表示,AI的这种“幻听”可不是一个小问题,因为Whisper已经被世界各地的许多行业用于翻译和转录对话,为一些流行的消费技术生成文本,以及为视频创建字幕等等。
更令人担忧的是,一些医院甚至利用了基于Whisper开发的工具,来记录医患之间的对话。尽管OpenAI已经警告称,Whisper并不应该被用在“高风险领域”。
要想精准判断这个问题的严重程度,并非一件容易的事。不过据研究人员和工程师称,他们经常会在工作中遇到Whisper“幻听”的情况。比如,密歇根大学一名研究人员开展了一项针对公开会议的研究,他发现他仔细检查过的10个音频转录文本中,有8个都出现了“幻听”的情况。
一位机器学习工程师也表示,在他分析的100多个小时的Whisper转录文本中,他发现有一半都存在“幻听”。一位第三方开发者表示,在他用Whisper编写的2.6万份文本中,每乎每一份都在“幻听”问题。
即使在那些录制良好的短音频样本中,问题也仍然存在。有计算机科学家在最近的一项研究中检查了13000多份清晰音频片段的转录文本,结果发现了187处“幻听”。
研究人员表示,如果是这样的话,那么在几百万份语音转录文本中,至少会出现几万份转录错误。
拜登政府的前白宫科技政策办公室主任阿隆德拉·尼尔森指出,这种错误可能会导致“非常严重的后果”,特别是在医疗场景中。
尼尔森现在是新泽西州的普林斯顿高级研究所的一名教授。他表示:“没有人希望自己被误诊,在这方面应该有更高的标准。”
Whisper还被用于为聋哑人和听障人士制作字幕。加劳德大学技术获取项目负责人克里斯蒂安·沃格勒指出,如果这些字幕转录错误的话,对聋人和听障人士的影响显然是更加严重的,因为他们根本无法识别“隐藏在所有这些文字中的虚假内容。” 沃格勒自己就是一名聋人。
各方敦促OpenAI尽快解决问题
由于AI“幻听”的问题非常常见,不少专家甚至包括前OpenAI公司的员工都在呼吁联邦政府考虑制定相关监管政策。至少也得让OpenAI解决这个缺陷。
“如果OpenAI公司愿意重视这个问题,它是有办法解决的。”旧金山的研究工程师威廉·桑德斯今年2月刚刚从OpenAI辞职,原因是他对OpenAI的发展方向感到担忧。“如果你把它放在那里不管,那就有问题了,因为人们太相信它的功能了,而且还把它集成到了所有其他系统上。”
OpenAI的一位发言人表示,该公司一直在研究如何减少“幻听”现象,并对广大研究人员的发现表示了赞赏。该发言人还表示,OpenAI已经在模型更新中加入了反馈功能。
虽然大多数开发人员都认为。作为一种语音转录工具,它出现拼写错误或者其他错误都属正常,但是也有工程师和研究人员表示,他们从未见过其他哪款AI转录工具的“幻听”像Whisper一样多。
Whisper的“幻听”
目前,该工具已经被集成到ChatGPT的某些版本中,并且被内置于甲骨文和微软云计算平台中,这些平台服务着全球成千上万的企业。它也会被用来转录和翻译其他语言。
仅仅是上个月,最新版本的Whisper就在开源AI平台HuggingFace上被下载了420多万次。
该平台的一位名叫桑吉特·甘地的机器学习工程师表示,Whisper是目前最受欢迎的开源语音识别模型,它已经被集成到了从呼叫中心到语音助理的各种程序中。
康奈尔大学的埃莉森·克内克教授和弗吉尼亚大学的莫娜·斯洛安妮教授开展了一项试验,他们检查了来自卡耐基梅隆大学的TalkBank研究存储库的数千个音视频片段,结果发现,近40%的“幻听”是有害的,或者是值得关注的,因为说话者的意思很可能会被误解或歪曲。
比如在一段音频中,说话者说的是:“他,那个男孩,他要……我不太确定,可能是要拿雨伞。”
但是Whisper给出的转录文本却是:“他拿了一个大十字架,一小块……我不太确定,他没有一把恐怖的刀,所以他杀了很多人。”
还有另一段录音,说话者描述了“另外两个女孩和一位女士”。Whisper却“脑补”出了额外的种族主义评价:“……另外两个女孩和一位女士,嗯,她们是黑人。”
在另一段录音中,Whisper发明了一种不存在的药物,名叫“过度激活抗生素”。
研究人员也不确定为什么Whisper和类似的一些AI工具会产生“幻听”,但软件开发人员表示,这种“幻听”往往发生在停顿、有背景音或者有音乐的时候。
OpenAI公司对此给出的官方建议是,“不要在决策环境中使用Whisper,因为它在准确性上的缺陷,有可能导致结果出现明显缺陷”。
记录医生的预约
虽然OpenAI公司发布了相关警告,但还是有不少医院仍在使用包括Whisper在内的语音转文字工具,来记录医生诊疗患者时说的话,以减少医护人员记笔记或写报告所花费的时间。
目前,美国有超过3万名临床医生和40多家医院,都在使用Nabla公司开发的基于Whisper的工具,包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院。Nabla公司在法国和美国都设有办公室。
Nabla的首席技术官马丁·雷森表示,他们开发的版本是基于医学语言的专业版,以转录和总结医生与患者之间的交流。
该公司的负责人表示,他们已经意识到了Whisper会产生“幻听”,并且正在想方设法解决这个问题。
雷森表示,Nabla无法将AI生成的文本与原始录音进行比较,因为Nabla的工具出于“数据安全原因”会删除掉原始音频。
Nabla公司表示,该公司开发的工具已经记录了大约700万次问诊。
前OpenAI公司工程师桑德斯指出,如果文本没有经过双重检查,或者临床医生无法检查录音以验证文本的正确性,那么删掉原始音频是一种令人担忧的做法。“如果你把原话都删了,你就找不到错误了。”
Nabla公司则表示,没有一个模型是完美的,目前他们的模型要求医生对文本结果进行快速编辑和审核,但是以后这种做法也可能会有变化。
隐私担忧
医患对话属于隐私信息,但我们目前还很难知道,AI生成的文本对患者的个人隐私有何影响。
加利福尼亚州议员丽贝卡·鲍尔·卡汉表示,今年早些时候,她带着一个孩子去看医生,结果医院给了她一张表格要她签字,内容是让她同意向几家公司分享问诊的音频。这几家公司中就包括微软Azure,也就是OpenAI背后的最大投资者运营的云计算平台。她表示,她不希望这种隐私信息被科技公司掌握。
鲍尔·卡汉是一名民主党人,她在州议会中代表着旧金山郊区的部分地区。她表示:“那份表格很明确地说明了,营利性公司有权使用这些音频。但是我说:‘绝对不行。’”
约翰缪尔健康中心的发言人本·德鲁指出,该医院一向遵守联邦和该州的相关隐私法律。(财富中文网)
译者:朴成奎
Tech behemoth OpenAI has touted its artificial intelligence-powered transcription tool Whisper as having near “human level robustness and accuracy.”
But Whisper has a major flaw: It is prone to making up chunks of text or even entire sentences, according to interviews with more than a dozen software engineers, developers and academic researchers. Those experts said some of the invented text — known in the industry as hallucinations — can include racial commentary, violent rhetoric and even imagined medical treatments.
Experts said that such fabrications are problematic because Whisper is being used in a slew of industries worldwide to translate and transcribe interviews, generate text in popular consumer technologies and create subtitles for videos.
More concerning, they said, is a rush by medical centers to utilize Whisper-based tools to transcribe patients’ consultations with doctors, despite OpenAI’ s warnings that the tool should not be used in “high-risk domains.”
The full extent of the problem is difficult to discern, but researchers and engineers said they frequently have come across Whisper’s hallucinations in their work. A University of Michigan researcher conducting a study of public meetings, for example, said he found hallucinations in 8 out of every 10 audio transcriptions he inspected, before he started trying to improve the model.
A machine learning engineer said he initially discovered hallucinations in about half of the over 100 hours of Whisper transcriptions he analyzed. A third developer said he found hallucinations in nearly every one of the 26,000 transcripts he created with Whisper.
The problems persist even in well-recorded, short audio samples. A recent study by computer scientists uncovered 187 hallucinations in more than 13,000 clear audio snippets they examined.
That trend would lead to tens of thousands of faulty transcriptions over millions of recordings, researchers said.
Such mistakes could have “really grave consequences,” particularly in hospital settings, said Alondra Nelson, who led the White House Office of Science and Technology Policy for the Biden administration until last year.
“Nobody wants a misdiagnosis,” said Nelson, a professor at the Institute for Advanced Study in Princeton, New Jersey. “There should be a higher bar.”
Whisper also is used to create closed captioning for the Deaf and hard of hearing — a population at particular risk for faulty transcriptions. That’s because the Deaf and hard of hearing have no way of identifying fabrications are “hidden amongst all this other text,” said Christian Vogler, who is deaf and directs Gallaudet University’s Technology Access Program.
OpenAI urged to address problem
The prevalence of such hallucinations has led experts, advocates and former OpenAI employees to call for the federal government to consider AI regulations. At minimum, they said, OpenAI needs to address the flaw.
“This seems solvable if the company is willing to prioritize it,” said William Saunders, a San Francisco-based research engineer who quit OpenAI in February over concerns with the company’s direction. “It’s problematic if you put this out there and people are overconfident about what it can do and integrate it into all these other systems.”
An OpenAI spokesperson said the company continually studies how to reduce hallucinations and appreciated the researchers’ findings, adding that OpenAI incorporates feedback in model updates.
While most developers assume that transcription tools misspell words or make other errors, engineers and researchers said they had never seen another AI-powered transcription tool hallucinate as much as Whisper.
Whisper hallucinations
The tool is integrated into some versions of OpenAI’s flagship chatbot ChatGPT, and is a built-in offering in Oracle and Microsoft’s cloud computing platforms, which service thousands of companies worldwide. It is also used to transcribe and translate text into multiple languages.
In the last month alone, one recent version of Whisper was downloaded over 4.2 million times from open-source AI platform HuggingFace. Sanchit Gandhi, a machine-learning engineer there, said Whisper is the most popular open-source speech recognition model and is built into everything from call centers to voice assistants.
Professors Allison Koenecke of Cornell University and Mona Sloane of the University of Virginia examined thousands of short snippets they obtained from TalkBank, a research repository hosted at Carnegie Mellon University. They determined that nearly 40% of the hallucinations were harmful or concerning because the speaker could be misinterpreted or misrepresented.
In an example they uncovered, a speaker said, “He, the boy, was going to, I’m not sure exactly, take the umbrella.”
But the transcription software added: “He took a big piece of a cross, a teeny, small piece … I’m sure he didn’t have a terror knife so he killed a number of people.”
A speaker in another recording described “two other girls and one lady.” Whisper invented extra commentary on race, adding “two other girls and one lady, um, which were Black.”
In a third transcription, Whisper invented a non-existent medication called “hyperactivated antibiotics.”
Researchers aren’t certain why Whisper and similar tools hallucinate, but software developers said the fabrications tend to occur amid pauses, background sounds or music playing.
OpenAI recommended in its online disclosures against using Whisper in “decision-making contexts, where flaws in accuracy can lead to pronounced flaws in outcomes.”
Transcribing doctor appointments
That warning hasn’t stopped hospitals or medical centers from using speech-to-text models, including Whisper, to transcribe what’s said during doctor’s visits to free up medical providers to spend less time on note-taking or report writing.
Over 30,000 clinicians and 40 health systems, including the Mankato Clinic in Minnesota and Children’s Hospital Los Angeles, have started using a Whisper-based tool built by Nabla, which has offices in France and the U.S.
That tool was fine tuned on medical language to transcribe and summarize patients’ interactions, said Nabla’s chief technology officer Martin Raison.
Company officials said they are aware that Whisper can hallucinate and are mitigating the problem.
It’s impossible to compare Nabla’s AI-generated transcript to the original recording because Nabla’s tool erases the original audio for “data safety reasons,” Raison said.
Nabla said the tool has been used to transcribe an estimated 7 million medical visits.
Saunders, the former OpenAI engineer, said erasing the original audio could be worrisome if transcripts aren’t double checked or clinicians can’t access the recording to verify they are correct.
“You can’t catch errors if you take away the ground truth,” he said.
Nabla said that no model is perfect, and that theirs currently requires medical providers to quickly edit and approve transcribed notes, but that could change.
Privacy concerns
Because patient meetings with their doctors are confidential, it is hard to know how AI-generated transcripts are affecting them.
A California state lawmaker, Rebecca Bauer-Kahan, said she took one of her children to the doctor earlier this year, and refused to sign a form the health network provided that sought her permission to share the consultation audio with vendors that included Microsoft Azure, the cloud computing system run by OpenAI’s largest investor. Bauer-Kahan didn’t want such intimate medical conversations being shared with tech companies, she said.
“The release was very specific that for-profit companies would have the right to have this,” said Bauer-Kahan, a Democrat who represents part of the San Francisco suburbs in the state Assembly. “I was like ‘absolutely not.’”
John Muir Health spokesman Ben Drew said the health system complies with state and federal privacy laws.