首页 500强 活动 榜单 商业 科技 领导力 专题 品牌中心
杂志订阅

量化私募巨头杀入AI腹地

刘兰香
2025-01-06

A股投资者贡献几何?

文本设置
小号
默认
大号
Plus(0条)

岁末年初,中国资本市场和AI以一种出人意料的方式被勾连起来:A股在2024年最后一个交易日和2025年前三个交易日持续下跌,同时中国一个以较低成本达到与硅谷最先进AI几乎同样效果的全新大模型横空出世,而其脱胎于被指责对股市下跌推波助澜的量化私募基金之一。

2024年12月26日,中国AI初创企业DeepSeek(深度求索)官方微信公众号推文称,旗下全新系列模型DeepSeek-V3首个版本上线并同步开源,其为自研MoE模型,671B参数,激活37B,在14.8T token上进行了预训练;DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

该模型一经发布可谓震撼了整个AI圈,在硅谷掀起的讨论度甚至高过国内。谷歌前CEO埃里克·施密特(Eric Schmidt)近期在访谈中表示:“中国现在手握两款看起来是史上最强的AI模型,而且它们是完全开源的,一个是超级强大的问题求解器,另一个是大语言模型,在某些情况下它与Llama-3的4000亿参数效果相当甚至更胜一筹,这让我很震惊,之前我一直以为他们在这方面落后了两三年,现在看来只落后了不到一年。”他明确指出DeepSeek就是中国正在快速追赶美国领先AI模型的一个最新例证。

可能同样令施密特震惊的是,DeepSeek这家公司成立的时间不到两年,且未如月之暗面、智谱AI、Minimax等一众AI初创公司一样“投靠”大厂。根据企查查的数据,DeepSeek由幻方量化创始人梁文锋牵头创立于2023年7月,是一家通用人工智能模型AGI研发商,专注于开发先进的大语言模型(LLM)和相关技术,以满足人工智能领域的各种需求。

众所周知,大模型是一个极其“烧钱”的游戏,但梁文锋曾在接受“暗涌Waves”采访时表示,大模型业务短期内没有融资计划,面临的问题从来不是钱,而是高端芯片的获取问题。

幻方量化为中国量化私募巨头,旗下包含浙江九章资产和宁波幻方量化两家公司,分别成立于2015年和2016年,公司管理规模在2021年时曾达到千亿元,最新管理规模已降到200~300亿元,据业内人士透露这也是其主动控制规模的一个结果。至于控制规模是因基金管理人的能力遇到瓶颈还是由于公司创始人希望将更多精力投入到AI领域,则不得而知。

从公开信息来看,幻方量化与深度求索之间并无直接的股权关系,两家公司各自在独立运营和发展。不过,早在2023年4月,幻方量化就宣布成立新组织,集中资源和力量,探索AGI的本质,并称多年以来该公司坚持把营收的大部分投入人工智能领域,建设领先的AI硬件基础设施,进行大规模的研究,探索人类未知的奥秘,这足以表明深度求索是幻方量化直接孵化出来的一家AI公司,而两家公司共同的创始人梁文锋则发挥着关键的桥梁作用。

在被问及为何一家量化私募要入局大模型时,梁文锋表示,“我们做大模型,其实跟量化和金融都没有直接关系,当时我们尝试了很多场景,最终切入了足够复杂的金融,而通用人工智能可能是下一个最难的事之一,所以对我们来说,这是一个怎么做的问题,而不是为什么做的问题。过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。”

DeepSeek-V3除了令硅谷大佬侧目,其领先性还被独立评测网站Artificial Analysis“盖章认证”。Artificial Analysis对DeepSeek-V3就质量、价格、性能等关键指标与其他人工智能模型进行对比后得出了结论:“DeepSeek-V3模型超越了迄今为止发布的所有开放权重模型,并且击败了OpenAI的GPT-4o(8月),并接近Anthropic的Claude 3.5 Sonnet(10月)。目前唯一仍然领先于DeepSeek的模型是谷歌的Gemini 2.0 Flash和OpenAI的o1系列模型。领先于阿里巴巴的Qwen2.5 72B,DeepSeek现在是中国的AI领先者。”

在杀入AI腹地之前,梁文锋对AI确实钟情已久。在幻方量化的官网首页C位有一句话:“使用AI进行投资的对冲基金”。从2019年开始,幻方量化更是加大投资于深度学习训练平台,先后推出了“萤火一号”和“萤火二号”,前者投资2亿元,搭载了1100块GPU,后者于2021年推出时将投入增加到10亿元,搭载了约1万张英伟达A100显卡,这也是当时最先进的GPU之一。到2022年,OpenAI发布了ChatGPT的公开测试版本,掀开AI新篇章,也给拥有较强算力储备和技术平台的幻方带来了抓住这波AI热潮的最佳机遇。

如果说算力储备让幻方对国内大模型玩家拥有一定优势,那么基于算法优化的训练成本优势或是其在迎战国际领先玩家时的主要杀手锏。

在DeepSeek研究团队同步公开的技术论文中,一个细节引发广泛关注:DeepSeek-V3整个训练过程仅用了不到280万个GPU小时,按每GPU小时2美元计算,模型全部训练成本仅为557.6万美元(约4000万元人民币),这一成本不到Llama-3405B超6000万美元训练成本的十分之一,几乎是GPT-4o训练成本的二十分之一(据Anthropic CEO达里奥·阿莫迪不久前透露的数据,GPT-4o训练成本约为1亿美元)。

Meta的AI研究科学家田渊栋称,DeepSeek“在非常有限的预算下实现强劲表现,这是一项了不起的工作”。

这一成本优势在2024年5月发布DeepSeek-V2开源模型时就已初步展露:DeepSeek-V2 的推理成本仅为每百万tokens 1元,远低于Llama370B和GPT-4 Turbo等。而最新面世的DeepSeek-V3的API定价进一步下降,输入每百万tokens 0.5元(缓存命中)/2元(缓存未命中),输出每百万tokens 8元,性价比不仅进一步碾压美国领先AI模型,且在价格战已烽烟四起的国产模型中也相当有竞争力。

目前来看,DeepSeek在迈向“国产大模型之光”的路途上,主要挑战除了梁文锋直言的“高端芯片的获取问题”,可能还有量化私募在国内所受的毁远大于誉的境况。有市场人士质疑,如此强大的模型是否会变成资本市场上更锋利的镰刀?但反过来说,如果投资者确实被量化“收割”,可能也是在以另一种方式在推动中国AI的发展。(财富中文网)

财富中文网所刊载内容之知识产权为财富媒体知识产权有限公司及/或相关权利人专属所有或持有。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。
0条Plus
精彩评论
评论

撰写或查看更多评论

请打开财富Plus APP

前往打开