首页 500强 活动 榜单 商业 科技 商潮 专题 品牌中心
杂志订阅

这家德国初创AI公司专注于分析表格数据

Jeremy Kahn
2025-02-23

Prior Labs融资900万欧元,用于构建突破性AI模型,可以处理表格和电子数据表中的数据。

文本设置
小号
默认
大号
Plus(0条)

图片来源:Photo courtesy of Prior Labs

企业内部的许多信息都是以行和列呈现的所谓的“表格数据”。例如报告中的电子数据表、数据库条目与大量图表等。

事实证明,由于多个原因,人工智能模型很难处理表格数据。表格中有时是文本,有时是数字,而且数字还有不同的计量单位,可以说是令人困惑的大杂烩。此外,表格中不同单元格之间的关系有时候并不明确。要了解各单元格之间的相互影响,需要具备专业知识。

多年来,机器学习研究人员一直在努力解决表格数据的分析问题。现在,一组研究人员声称他们找到了一个优雅的解决方案:一个大型基础模型。这个模型类似于支持OpenAI的ChatGPT等产品的大语言模型,但专门使用表格数据进行训练。这个预训练模型可以应用于任何表格数据集,只需几个示例,就能准确推断各单元格数据之间的关系,并且比以往任何机器学习方法都能更好地预测缺失数据。

弗兰克·哈特和诺亚·霍尔曼是两位来自德国的计算机科学家,他们帮助开创了这种技术,并最近在著名的科学期刊《自然》(Nature)上发表了一篇论文。他们选择与有金融从业经验的苏拉吉·甘比尔合作,创办了一家名为Prior Labs的初创公司,致力于将该技术商业化。

近期,总部位于德国弗莱堡的Prior Labs宣布已获得900万欧元(930万美元)种子前融资。这轮融资由总部位于伦敦的风险投资公司Balderton Capital领投,参投方包括XTX Ventures、SAP创始人汉斯·沃纳-赫克托的赫克托基金(Hector Foundation)、Atlantic Labs和Galion.exe。Hugging Face联合创始人兼首席科学家托马斯·沃尔夫、Snyk和Tessl的创始人盖伊·伯德扎尼,以及著名的DeepMind研究员艾德·格里芬斯泰特等知名天使投资人也参与了此次融资。

Balderton Capital合伙人詹姆斯·怀斯在解释为什么决定投资Prior Labs的一份声明中表示:“表格数据是科学和商业的支柱,但颠覆了文本、图像和视频领域的AI革命对表格数据的影响微乎其微——直到现在。”

Prior Labs在《自然》杂志上发表的研究报告中使用的模型被称为Tabular Prior-Fitted Network(简称 TabPFN)。但 TabPFN的训练仅使用了表格中的数值数据,而不是文本数据。Prior Labs公司的AI研究员弗兰克·哈特曾任职于弗莱堡大学(University of Freiburg)和图宾根埃利斯研究所(Ellis Institute Tubingen)。他表示,Prior Labs希望将这个模型变成多模态,使它既能理解数字,也能理解文本。然后该模型将能够理解列标题并进行推理,用户也可以像使用基于大语言模型的聊天机器人一样,用自然语言提示与AI系统互动。

目前的大语言模型,即使是如OpenAI 的o3等更先进的推理模型,虽然可以回答一些关于表格内容的问题,但它们无法根据对表格数据的分析做出准确预测。哈特表示:“大语言模型在这方面表现得非常糟糕。它们在这方面的效果远不及预期,且分析速度缓慢。”结果,大多数需要分析这类数据的人都使用了旧的统计方法,这些方法速度快,但并不总是最准确的。

但Prior Labs的TabPFN能够做出精准预测,包括处理所谓的"时间序列"数据——这类预测基于复杂模式,利用历史数据推断下一个最可能的数据点。根据Prior Labs团队1月发布在非同行评审研究平台arxiv.org上的新论文显示,TabPFN在时间序列预测方面的表现优于现有模型:较同类最佳小型AI模型预测准确率提升7.7%,甚至超越比其大65倍的模型3%。

时间序列预测在各行各业应用广泛,尤其是医疗和金融等领域。哈特透露:“对冲基金对我们青睐有加。”(事实上,一家对冲基金已成为其首批客户(因保密协议无法透露名称),另一家正在概念验证阶段的客户是软件巨头SAP。)

Prior Labs以开源形式发布TabPFN模型,唯一许可要求是使用者必须公开声明模型来源。哈特称,该模型下载量已达约百万次。与多数开源AI公司类似,Prior Labs计划的盈利模式聚焦于针对客户的用例定制模型,并为特定市场开发工具和应用。

Prior Labs并不是唯一致力于突破AI在表格数据方面限制的公司。由麻省理工学院(MIT)数据科学家德瓦弗拉特·沙阿创立的Ikigai Labs和法国初创公司Neuralk AI等正尝试将深度学习(包括生成式AI)应用于表格数据,谷歌(Google)和微软(Microsoft)的研究团队也在攻克这一难题。谷歌云的表格数据解决方案部分基于AutoML技术(该技术使用机器学习,将创建有效AI模型所需的步骤自动化,哈特曾是该领域的先驱)。

哈特表示,Prior将持续升级模型:重点开发关系型数据库支持、增强时间序列分析能力,构建“因果发现”功能(识别表格数据间的因果关系),并推出可通过聊天界面回答表格问题的交互功能。他表示:“我们将在第一年实现这些目标。”(财富中文网)

译者:刘进龙

审校:汪皓

企业内部的许多信息都是以行和列呈现的所谓的“表格数据”。例如报告中的电子数据表、数据库条目与大量图表等。

事实证明,由于多个原因,人工智能模型很难处理表格数据。表格中有时是文本,有时是数字,而且数字还有不同的计量单位,可以说是令人困惑的大杂烩。此外,表格中不同单元格之间的关系有时候并不明确。要了解各单元格之间的相互影响,需要具备专业知识。

多年来,机器学习研究人员一直在努力解决表格数据的分析问题。现在,一组研究人员声称他们找到了一个优雅的解决方案:一个大型基础模型。这个模型类似于支持OpenAI的ChatGPT等产品的大语言模型,但专门使用表格数据进行训练。这个预训练模型可以应用于任何表格数据集,只需几个示例,就能准确推断各单元格数据之间的关系,并且比以往任何机器学习方法都能更好地预测缺失数据。

弗兰克·哈特和诺亚·霍尔曼是两位来自德国的计算机科学家,他们帮助开创了这种技术,并最近在著名的科学期刊《自然》(Nature)上发表了一篇论文。他们选择与有金融从业经验的苏拉吉·甘比尔合作,创办了一家名为Prior Labs的初创公司,致力于将该技术商业化。

近期,总部位于德国弗莱堡的Prior Labs宣布已获得900万欧元(930万美元)种子前融资。这轮融资由总部位于伦敦的风险投资公司Balderton Capital领投,参投方包括XTX Ventures、SAP创始人汉斯·沃纳-赫克托的赫克托基金(Hector Foundation)、Atlantic Labs和Galion.exe。Hugging Face联合创始人兼首席科学家托马斯·沃尔夫、Snyk和Tessl的创始人盖伊·伯德扎尼,以及著名的DeepMind研究员艾德·格里芬斯泰特等知名天使投资人也参与了此次融资。

Balderton Capital合伙人詹姆斯·怀斯在解释为什么决定投资Prior Labs的一份声明中表示:“表格数据是科学和商业的支柱,但颠覆了文本、图像和视频领域的AI革命对表格数据的影响微乎其微——直到现在。”

Prior Labs在《自然》杂志上发表的研究报告中使用的模型被称为Tabular Prior-Fitted Network(简称 TabPFN)。但 TabPFN的训练仅使用了表格中的数值数据,而不是文本数据。Prior Labs公司的AI研究员弗兰克·哈特曾任职于弗莱堡大学(University of Freiburg)和图宾根埃利斯研究所(Ellis Institute Tubingen)。他表示,Prior Labs希望将这个模型变成多模态,使它既能理解数字,也能理解文本。然后该模型将能够理解列标题并进行推理,用户也可以像使用基于大语言模型的聊天机器人一样,用自然语言提示与AI系统互动。

目前的大语言模型,即使是如OpenAI 的o3等更先进的推理模型,虽然可以回答一些关于表格内容的问题,但它们无法根据对表格数据的分析做出准确预测。哈特表示:“大语言模型在这方面表现得非常糟糕。它们在这方面的效果远不及预期,且分析速度缓慢。”结果,大多数需要分析这类数据的人都使用了旧的统计方法,这些方法速度快,但并不总是最准确的。

但Prior Labs的TabPFN能够做出精准预测,包括处理所谓的"时间序列"数据——这类预测基于复杂模式,利用历史数据推断下一个最可能的数据点。根据Prior Labs团队1月发布在非同行评审研究平台arxiv.org上的新论文显示,TabPFN在时间序列预测方面的表现优于现有模型:较同类最佳小型AI模型预测准确率提升7.7%,甚至超越比其大65倍的模型3%。

时间序列预测在各行各业应用广泛,尤其是医疗和金融等领域。哈特透露:“对冲基金对我们青睐有加。”(事实上,一家对冲基金已成为其首批客户(因保密协议无法透露名称),另一家正在概念验证阶段的客户是软件巨头SAP。)

Prior Labs以开源形式发布TabPFN模型,唯一许可要求是使用者必须公开声明模型来源。哈特称,该模型下载量已达约百万次。与多数开源AI公司类似,Prior Labs计划的盈利模式聚焦于针对客户的用例定制模型,并为特定市场开发工具和应用。

Prior Labs并不是唯一致力于突破AI在表格数据方面限制的公司。由麻省理工学院(MIT)数据科学家德瓦弗拉特·沙阿创立的Ikigai Labs和法国初创公司Neuralk AI等正尝试将深度学习(包括生成式AI)应用于表格数据,谷歌(Google)和微软(Microsoft)的研究团队也在攻克这一难题。谷歌云的表格数据解决方案部分基于AutoML技术(该技术使用机器学习,将创建有效AI模型所需的步骤自动化,哈特曾是该领域的先驱)。

哈特表示,Prior将持续升级模型:重点开发关系型数据库支持、增强时间序列分析能力,构建“因果发现”功能(识别表格数据间的因果关系),并推出可通过聊天界面回答表格问题的交互功能。他表示:“我们将在第一年实现这些目标。”(财富中文网)

译者:刘进龙

审校:汪皓

A lot of information inside companies is what’s known as “tabular data,” or data that is presented in rows and columns. Think spreadsheets and database entries and lots of figures in reports.

Well, it turns out that artificial intelligence models have difficulty working with tabular data, for several reasons. It’s often a confusing jumble—sometimes text and sometimes numbers, as well as numbers in different units of measurement. What’s more, the relationship between different cells in the table is sometimes unclear. Knowing which cells influence which other cells in a table often requires domain expertise.

For years, machine learning researchers have been trying to crack this tabular data problem. Now, a group of researchers has found what they claim is an elegant solution: A large foundation model—similar to the large language models that underpin products like OpenAI’s ChatGPT—but specifically trained on tabular data. This pre-trained model can then be applied to any tabular data set, and with just a few examples, make accurate inferences about the relationship between data in various cells and also predict missing data better than any prior machine learning method.

Frank Hutter and Noah Hollman, two Germany-based computer scientists who helped pioneer this technique and recently published a paper on it in the prestigious scientific journal Nature, have teamed with Sauraj Gambhir, who has experience in finance, on a startup called Prior Labs dedicated to commercializing this technology.

Today Prior Labs, which is based in Freiburg, Germany, announced it has received 9 million euros ($9.3 million) in pre-seed funding. The round is led by London-based venture capital firm Balderton Capital along with XTX Ventures, SAP founder Hans Werner-Hector’s Hector Foundation, Atlantic Labs, and Galion.exe. A number of prominent angel investors, including Hugging Face cofounder and chief scientist Thomas Wolf, Guy Podjarny, who founded Snyk and Tessl, and Ed Grefenstette, a well-known DeepMind researcher, also participated in the funding.

“Tabular data is the backbone of science and business, yet the AI revolution transforming text, images and video has had only a marginal impact on tabular data–until now,” James Wise, a partner at Balderton Capital, said in a statement, explaining why the firm decided to invest in Prior Labs.

The model Prior Labs used for its Nature study is called a Tabular Prior-Fitted Network (TabPFN for short.) But TabPFN is trained only on the numerical data in tables, not the text. Hutter, a well-known AI researcher formerly at the University of Freiburg and the Ellis Institute Tubingen, said Prior Labs wants to take this model and make it multimodal, so that it can understand both numbers and text. Then the model will be able to understand column headings and reason about them, and users will be able to interact with the AI system using natural language prompts, just like an LLM-based chatbot.

Today’s LLM’s, even the more advanced reasoning models, such as OpenAI’s o3 model, can answer some questions about what a table says, but they can’t make accurate predictions based on an analysis of the data in the table. “LLMs are just horrible at that,” Hutter said. “It’s like, it’s nowhere close. It’s not only that, it’s also super slow.” As a result, most people who needed to analyze this kind of data used older statistical methods that were fast, but not always the most accurate.

But Prior Labs’ TabPFN can make accurate predictions, including on what are called time series, where past data is used to predict the next most likely data point based on complex patterns. In a new paper the Prior Labs team published in January on the non-peer reviewed research repository arxiv.org, the team found that TabPFN outperformed existing time series prediction models. It beat the best previous small AI model for such predictions by 7.7% and beat a model that is 65 times larger than TabPFN by 3%.

Time series prediction has many applications across industries, but especially in medical and financial domains. “Hedge funds love us,” Hutter said. (One of Prior Labs’ initial customers is, in fact, a hedge fund, but Hutter said he was contractually barred from saying which one. Another initial customer with which Hutter is doing a proof of concept is software giant SAP.)

Prior Labs is offering TabPFN as an open source model—with the only license requirement being that if people use the model, they must publicly say so. So far, it has been downloaded about one million times, according to Hutter. Like most open source AI companies, Prior Labs plans to make money by working with specific customers to help them tailor the models to their use case and also by building tools and applications for specific market segments.

Prior Labs is not the only company working to crack AI’s limits when it comes to tabular data. Startups Ikigai Labs, which was founded by MIT data scientist Devarat Shah, and French startup Neuralk AI are among others working on applying deep learning methods, including generative AI, to tabular data. Researchers at Google and Microsoft have also been working on this problem. Google Cloud’s tabular data solutions are built in part on AutoML, a process that uses machine learning to automate the steps needed to create effective AI models, an area that Hutter helped pioneer.

Hutter said Prior intends to keep improving its models, working more on relational databases, time series, and building the ability to do what is called “causal discovery”—where a user asks which data points in a table have a causal relationship with other data in the table. Then there’s the chat feature that will let users ask questions of the tables using a chat-like interface. “All of this we will build in the first year,” he said.

财富中文网所刊载内容之知识产权为财富媒体知识产权有限公司及/或相关权利人专属所有或持有。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。
0条Plus
精彩评论
评论

撰写或查看更多评论

请打开财富Plus APP

前往打开