OpenAI新模型GPT-4o有哪些突破?
小宸
熬夜看完OpenAI发布会,准确地讲这是一次伪装成春季update的智能交互变革,貌似一小步的一大步。OpenAI再次制造了一波焦虑——
1.从之前读文看图以及迟滞感明显的语音交互,到GPt-4o的实时多模态自然交互,知道的人知道这意味着什么,大模型从此呆瓜变"真人”,能看能说能思考的自然交互,让智能瞬间变得人人随时随地唾手可得。不能低估交互,能力、场景、用户基数瞬间几何级放大;
2.百分百可以肯定不只是GPT4的后端能力+前端Chatbot聊天机器人,多模态自然交互这部分是GPT-5能力的选择性释放,OpenAI在控制节奏,不会也不愿一次性把GPT全都放出来,之前表达过这种观点;
3.冲击就是:一批基于GPT做语音等多模态自然交互的,一批基于家庭做情感陪伴的,包括一批基于机器人做具身智能交互界面的,智能硬件底层逻辑需要进一步重构,手机厂商自研模型还需努力,包括一批做情绪计算的,助手、教育、翻译等更危了......想套壳GPT或OTT的,基本都会被GPT反过来盖帽。
4.Siri呆若木鸡,Claude相形失色,Gemini反正不会......客观而言,其它闭源开源还没这么能打的。不过就GPT4动不动卡壳掉链子的那副表现,GPT-4o的用户体验从流畅度来说好不到哪里去,能到发布会演示水平的一丢丢就不错了。
5.GPT-4o免费可限量用,付费可多用,和GPT3.5以及最近部分免费一样,典型的敞口漏斗营销策略,不过还没充分拉开梯度,导致需求量较大的非开发者非企业用户经常受限的情况在GPT-4o估计会更严重。
6.重新理解摄像头,重新机器视觉、听觉。手机等移动终端和碎片场景下的应用爆发力,将不输AI PC等生产力场景,甚至移动引爆会走在前面。这就不是几亿而是几十亿用户的问题了。
如果预估OpenAI手里还没打出来的几张牌,直觉会认为竞争对手一时不好追,竞品在一些基准测试成绩接近GPT4是当下的竞争尺度和维度之一,但接下来维度实际有好几个(转自胡延平朋友圈)
不再犹豫
几点:
1、能解数学题,这个没有重点被展开,但我一直觉得这是真正的底层逻辑能力,这涉及意义系统与形式系统的映射,说白了就是有抽象能力了,毕竟除了人之外的生命只有具象能力。
2、情绪感知与共情。人的情绪是内在生化反应与外界环境互动的结果,机器对情绪的处理应该还是模拟,算感知不算共情,但做到这个程度可以以假乱真。
3、随时打断。算力支撑与算法优化没的说。
4、4o。这个o,代表omni,本意可能是多模态,支持声音文本视频多语言等等所具有的通用性。但总给人感觉暗示Omniscient, omnipresent, omnipotent的祂。
独步风云
这次OpenAI发布会的重点应该在多模态模型GPT-4o,它有几大特点:多模态、无延迟、可在桌面运行。最重要的是它能处理包括文字、音频、图像在内的信息流,而且能够识别人类的情感,作出情感上的回应。作为一个多模态模型,OpenAI又开创了一个新纪元,使人工智能从语言互动提升到了语音视频互动,相信国内的大模型厂商也会跟上步伐。
另外,外界期待的OpenAI搜索引擎并未发布,此前奥特曼已经宣布过,这对谷歌而言是个大利好。