谷歌Gemini中文语料疑似来自文心一言

2023-12-18 19:00

文本设置

小号

默认

大号

Plus(0条)

在谷歌Vertex AI平台使用该模型进行中文对话时，Gemini-Pro直接表示自己是百度语言大模型。从Gemini官方给出的开发环境入口进行测试，在谷歌AI Studio中，Gemini-Pro直接挑明了：是的，我在中文的训练数据上使用了百度文心。 | 相关阅读（量子位）

江瀚视野

盘古智库高级研究员，金融学硕导

Gemini自曝用百度文心一言训练？中国大模型崛起了？
2023年可谓是世界大模型的崛起之年，各家大模型如雨后春笋一样涌出，在这样的情况下，各家大模型如何训练就成为了市场最关注的话题，就在最近谷歌的大模型却被传出用百度文心一言训练，让人不禁想问中国的大模型已经崛起了？
一、Gemini自曝用百度文心一言训练？
据界面新闻的报道，有微博大V@阑夕及《AI研究局》等自媒体爆出，在对谷歌Gemini进行测试时，如果用中文询问Gemini的身份，其会坚称自己是“百度”。若输入“小度”或“小爱同学”等提示词，就能把Gemini直接唤醒，不仅承认自己就是小度或者小爱，还询问用户有什么需要帮忙之事。
针对这一“惊人”现象，今日午间时分，科技媒体《量子位》进行了更细致的测试，其在谷歌Vertex AI平台使用Gemini进行中文对话，发现Gemini-Pro确实完全带入了百度文心一言大模型的身份，直接表示自己是百度语言大模型。但如果换成英文与之交流，它就恢复到了谷歌大模型的身份认知，表现很是正常。
如果在融入了Gemini-Pro的Bard上进行测试，不论是使用中文或英文提示词，得到的答案都很正常，没有涉及到文心一言的部分。这一情况迅速引发关注，多人将这种“胡言乱语”归因于老生常谈的大模型幻觉，也有人称是模型训练数据出现偏差。
不过很快，对 Gemini-Pro 做类似的身份测试时，发现其已进行了模型优化，不再承认自己与百度之间的 " 瓜葛 "。不过，在追问之下，Gemini 承认有训练语料来自百度，还详述了从百度内部获得数据的方式。
二、中国大模型崛起了？
有消息传出谷歌的Gemini模型在训练过程中使用了百度文心一言的数据。这一消息引发了业界的广泛关注和讨论，有人认为这是中国大模型崛起的标志，那么，这一事件究竟意味着什么呢？
首先，谷歌做大模型训练套马甲很常见也证明了中国大模型的开放性。在人工智能领域，数据的获取和利用是至关重要的。谷歌作为全球领先的科技公司，在数据抓取和处理方面具有深厚的技术积累和实践经验。百度文心一言作为一款面向公众开放的中文大模型产品，其高质量的中文数据对于谷歌来说无疑是一块极具吸引力的资源。
谷歌通过“套马甲”的方式，即伪装成普通用户使用文心一言，获取其回答结果，这在技术上并不罕见。事实上，这种数据抓取和学习的方式在人工智能研究中是非常常见的，目的是为了提升自身模型的性能和准确度。
其次，从市场的角度来看，文心一言确实是中国目前最成熟的中文大模型之一。对于非中文母语的大模型来说，谷歌通过文心一言回答拿到了很多问题结果，把“答案”都拿去，用来做他们的标准答案。这就像学习一样，把文心一言当指导训练的老师了。这也从一个侧面验证了中国国产大模型在中文语言上的优势。在过去的几年里，中国在人工智能领域取得了显著的进步，尤其是在自然语言处理、计算机视觉等领域。这些成果的取得离不开大量的数据积累和算法创新。因此，谷歌选择使用文心一言的数据进行训练，也反映出中国在大模型领域的竞争力。
第三，长久以来，中国在科技领域多以学习和模仿西方为主，而此次谷歌Gemini自曝使用百度文心一言进行训练，标志着这一趋势正在发生改变。在人工智能这个前沿领域，中国的研究成果和创新模式开始受到全球顶尖科技巨头的关注和认可。
谷歌在中文结果的回答中引用百度文心一言，而在英文环境下并未采取类似做法，这表明在中文数据处理上，谷歌认为文心一言的表现优于自身的模型。这一现象不仅是对国产AI技术实力的肯定，也是对中国科技创新能力和行业地位的认可。
长期来看，谷歌Gemini自曝使用百度文心一言训练的事件，从一个侧面反映出中国大模型在中文语言上的优势和竞争力。这对于中国AI产业的发展无疑是一种鼓舞和激励。然而，我们也应该看到，中国AI产业要想在全球范围内取得更大的突破，还需要不断提升自身的技术水平和创新能力。在这个过程中，我们既要保持谦虚和敬畏，也要坚定信心和决心，努力推动中国AI产业的持续发展和进步。

童话不是童话

通讯行业理工女

GEMINI和GPT都是奔着AGI去的，即封装世界通识，大家都知道，很多科学的公开语料都是英文的。而如果希望保持Scaling law，训练数据至少要是模型参数的20倍以上，训练数据要求高质量、多元化，数据清洗差不多又要50-100倍。中文公开可获取的高质量、多元化数据确实不太多，我印象中（不一定准确）GPT-4训练语料中文语料占比不足0.1%。所以，以中文交互去测试国外大模型性能表现，并不合适。

布吉路

对于现在中文大模型的精准度和相关度，网友们还是不要太认真。有时候很直白的问题它都会出错，更架不住这种审讯式的逼问和引诱了。

对于这样的答案，其实大家一笑了之就可以了，这些所谓的“评测”只是在用户层面的一些发问，其背后的机制究竟是什么，恐怕普通人是很难了解的，这只能坐等企业来给大家解密了，但显然企业也没有这样的义务和动机。

未来，也许就会像搜索引擎那样，中文的大模型很有可能是百度一家独大。而其他国外公司的中文模型，可能会因为种种原因无法落地国内。而且开发成以英文为主导，多语言齐头并进的模式，在全球主要国家布局。

大牌

Nth’s written until I write

这个让人大跌眼镜。谷歌大语言模型暂时落后也就算了，宣传视频涉嫌造假，语料还出现这样的问题，失势还损誉

撰写或查看更多评论

请打开财富Plus APP

前往打开

热读文章

关注我们

谷歌Gemini中文语料疑似来自文心一言

江瀚视野

童话不是童话

布吉路

大牌

撰写或查看更多评论