OpenAI新模型GPT-4o有哪些突破？

2024-05-14 08:00

文本设置

小号

默认

大号

Plus(0条)

5月13日，OpenAI开启春季更新活动，通过线上直播向全球演示ChatGPT和GPT-4更新的功能。未能参加直播活动的OpenAI首席执行官山姆·奥特曼在社交平台X上发帖：“我们的新模型：GPT-4o是我们迄今为止最优秀的模型。它既智能又快速，并且是原生多模态模型。” | 相关阅读（腾讯科技）

小宸

心理咨询师

熬夜看完OpenAI发布会，准确地讲这是一次伪装成春季update的智能交互变革，貌似一小步的一大步。OpenAI再次制造了一波焦虑——
1.从之前读文看图以及迟滞感明显的语音交互，到GPt-4o的实时多模态自然交互，知道的人知道这意味着什么，大模型从此呆瓜变＂真人”，能看能说能思考的自然交互，让智能瞬间变得人人随时随地唾手可得。不能低估交互，能力、场景、用户基数瞬间几何级放大；

2.百分百可以肯定不只是GPT4的后端能力+前端Chatbot聊天机器人，多模态自然交互这部分是GPT-5能力的选择性释放，OpenAI在控制节奏，不会也不愿一次性把GPT全都放出来，之前表达过这种观点；

3.冲击就是：一批基于GPT做语音等多模态自然交互的，一批基于家庭做情感陪伴的，包括一批基于机器人做具身智能交互界面的，智能硬件底层逻辑需要进一步重构，手机厂商自研模型还需努力，包括一批做情绪计算的，助手、教育、翻译等更危了......想套壳GPT或OTT的，基本都会被GPT反过来盖帽。

4.Siri呆若木鸡，Claude相形失色，Gemini反正不会......客观而言，其它闭源开源还没这么能打的。不过就GPT4动不动卡壳掉链子的那副表现，GPT-4o的用户体验从流畅度来说好不到哪里去，能到发布会演示水平的一丢丢就不错了。

5.GPT-4o免费可限量用，付费可多用，和GPT3.5以及最近部分免费一样，典型的敞口漏斗营销策略，不过还没充分拉开梯度，导致需求量较大的非开发者非企业用户经常受限的情况在GPT-4o估计会更严重。

6.重新理解摄像头，重新机器视觉、听觉。手机等移动终端和碎片场景下的应用爆发力，将不输AI PC等生产力场景，甚至移动引爆会走在前面。这就不是几亿而是几十亿用户的问题了。

如果预估OpenAI手里还没打出来的几张牌，直觉会认为竞争对手一时不好追，竞品在一些基准测试成绩接近GPT4是当下的竞争尺度和维度之一，但接下来维度实际有好几个（转自胡延平朋友圈）

不再犹豫

从今天起，关心粮食和蔬菜

几点：
1、能解数学题，这个没有重点被展开，但我一直觉得这是真正的底层逻辑能力，这涉及意义系统与形式系统的映射，说白了就是有抽象能力了，毕竟除了人之外的生命只有具象能力。
2、情绪感知与共情。人的情绪是内在生化反应与外界环境互动的结果，机器对情绪的处理应该还是模拟，算感知不算共情，但做到这个程度可以以假乱真。
3、随时打断。算力支撑与算法优化没的说。
4、4o。这个o，代表omni，本意可能是多模态，支持声音文本视频多语言等等所具有的通用性。但总给人感觉暗示Omniscient, omnipresent, omnipotent的祂。

独步风云

这次OpenAI发布会的重点应该在多模态模型GPT-4o，它有几大特点：多模态、无延迟、可在桌面运行。最重要的是它能处理包括文字、音频、图像在内的信息流，而且能够识别人类的情感，作出情感上的回应。作为一个多模态模型，OpenAI又开创了一个新纪元，使人工智能从语言互动提升到了语音视频互动，相信国内的大模型厂商也会跟上步伐。
另外，外界期待的OpenAI搜索引擎并未发布，此前奥特曼已经宣布过，这对谷歌而言是个大利好。

撰写或查看更多评论

请打开财富Plus APP

前往打开

热读文章

关注我们

OpenAI新模型GPT-4o有哪些突破？

小宸

不再犹豫

独步风云

撰写或查看更多评论

高盛：对冲基金正在加速抛售全球科技股

比尔·盖茨：10年内有望实现一周两天工作制

美国承诺遭全球质疑，可能决定美元的未来地位

跃迁之年，中国AI如何推开下一扇门？——《财富》对话昆仑万维董事长兼CEO方汉

美国债务飙升，或开始削弱其“金融特权”

《财富》专访奥运冠军邓亚萍