电子表格是一种非常巧妙的发明,在诞生之初,其使命是实现簿记的数字化,自此而后的50年间,因为它的存在,研究人员与商业人士得以不受行、列数量的限制而任意输入各种数据,然后再借助计算机对这些信息进行分析。如今,电子表格被广泛应用于工作生活的各个方面,甚至连学童都可以像财务分析师管理预算一样使用这一工具。
神经网络是一种复杂的人工智能程序,能够模拟人脑的计算过程。近年来,由于神经网络的发展,顶尖人工智能研究人员关注的焦点已经从结构化数据(例如成行成列的文字和数字)转向了图像。换句话说,功能强大的计算机可以通过浏览数百万张猫咪的照片来了解这种小型猫科动物的特征,但同样的软件却很难解读简单的电子表格。
这让医学研究、金融和运营等领域里的数据科学家们深感沮丧,因为在这些领域中,结构化数据才是真正的“硬通货”。
金融公司Capital One的一位应用型机器学习研究员巴彦·布鲁斯(Bayan Bruss)说:“我们的数据大多是结构化数据,或者至少是对这些数据进行了某种结构化处理。深度学习的进展与我们的数据之间有着很大距离,我们做的很多工作都是为了缩小这种距离。”
一些公司为解决这一问题也推出了自己的新项目。以生物技术巨头基因泰克(Genentech)为例,该公司的数据科学家最近花费数月时间制作了一个包含55,000名癌症患者健康记录和基因组数据的电子表格,既收录了年龄、胆固醇水平、心率等信息,也收录了一些更为复杂的属性数据,比如分子特征和基因异常状况等。基因泰克计划将这些信息输入神经网络,并借此描绘出患者的健康属性,以期开发出突破性药物,针对每位患者的情况对症下药。
问题在于,研究人员现在才刚开始训练神经网络学习使用(像基因泰克制作的电子表格那样的)结构化数据。基因泰克的个性化医疗保健数据科学分析业务全球主管瑞安·科平(Ryan Copping)表示:“包括临床试验数据和电子病历在内,我们的大多数数据都是结构化数据。”如果计算机网络能够分析并自主认知病人资料中的相似性,“那么我们就可以开始对结果进行观察,并考虑如何针对病人的具体情况选择治疗方案。然而,现在还做不到这一点。”
除医疗保健行业外,很多其它行业也有机会从中受益。据研究公司IDC预测,今年,商业领域将产生5.8泽字节的销售预测、客户数据等生产力数据。一个泽字节大致相当于全球所有海滩上沙粒的总数。也就是说,这是一个天文数字,IDC的全球数据层项目(Global DataSphere,该项目负责计算全球每年产生的数据量)的负责人约翰·里德宁(John Rydning)如是说。
这意味着,只要能够将数据压缩成神经网络可以学习的格式,那么各种类型的企业都将有机会从中获益。食品巨头百事公司(PepsiCo.)的首席战略和转型官阿西娜·卡尼乌拉(Athina Kanioura)认为,预测能力的小幅提升也能够带来巨大的财务回报。她说:“准确度的增加将会带来数百万美元的收益。”
接下来的挑战则是要找到那些对商业活动最有价值的数据,把它们提供给研究人员使用。斯坦福大学(Stanford University)的教授、硅谷新创企业Sisu Data(该公司的主营业务是为企业开发分析工具)的首席执行官彼得·贝利斯(Peter Bailis)说:“深度网络非常酷炫,在汽车、推文理解等领域都大有可为。但如果只是储存在表格中的数据,那么对我们在认知风险、了解客户满意度等方面的帮助就非常有限了。”
如果换成商业人士都可以听懂的话,那么问题依然是:人工智能能否解决自己难以识别Excel内容的问题?
******
神经网络商业应用的推广进度取决于其是否能够像分析图像一样理解单词的含义。为解决这一问题,研究人员将目光转向了一种名为Word2vec的技术。(“vec”代表向量,是神经网络最擅长理解的分析单元类型。)Word2vec由谷歌(Google)的一个研究小组于2013年开发,并已经作为开源软件项目对外发布,可以帮助计算机理解特定单词之间的联系。Word2vec技术为更强大的语言系统的出现铺平了道路,这些新推出的系统已经能够识别出与“汽车”一词关系更密切的企业是宝马(BMW)、日产(Nissan)这样的汽车制造商,而不是卡夫亨氏(Kraft Heinz)这样的食品公司。
Word2vec之所以具备神奇的计算能力,是因为其可以将单词转换成神经网络能够理解的数字串,进而识别出词语之间的相关性。经过一段时间的训练,通过对更多文本进行学习,神经网络便具备了根据单词共同出现的频率对其进行打分的能力,并能够根据分数对单词进行分组。与更早出现的所谓自然语言处理技术相比,这些较新的系统提升了与人类思维典型相关的模式识别属性。
借助这种计算机辅助的单词联想游戏,计算机将可以理解表格中存储的信息。这个过程相当于为神经网络创建了一套自己的摩尔斯电码(Morse code):当应用程序在一份有关销售情况的电子表格中遇到一列表示“日期”的数据时,无需获得明确指令,只要借助足够的数据,便能够理解某些假日可能会对特定季节的销售产生影响。
旧金山大学应用数据伦理中心(University of San Francisco's Center for Applied Data Ethics)的主任、非营利教育机构Fast.ai的联合创始人雷切尔·托马斯(Rachel Thomas)说:“这是底层的核心概念。神经网络通过建模特定形态的模式创造了一种无限灵活的学习架构。”
仅在投资领域就有大量通过文字分析创造价值的机会。
高盛集团(Goldman Sachs)的一个研究小组正在对神经网络进行训练,使其获得搜寻“家庭房产内部转让”相关词汇的能力。在进行非商业性质的交易时,交易双方很可能不会如实描述房产的真实价值,如果可以教会软件在筛选资料时将相关信息排除在外,自然能够提高银行的分析能力。
“为此,我们训练了一个可以识别此类交易、并减少对其关注程度的神经网络。”加州大学圣迭戈分校(University of California at San Diego)计算机科学专业的常任教授查尔斯·埃尔肯(Charles Elkan)表示,直到最近,他还在负责领导高盛集团的机器学习项目。
复杂的词语联想对物流行业也有很大价值。位于旧金山的外卖新创企业Instacart便使用了word2vec的一种变体技术,让自己的算法能够预测顾客的偏好,这一能力在公司无法提供顾客想要的产品时尤其有用。为了方便神经网络处理相关信息,该公司使用的程序会将超市库存商品的“单词”转换成“数字形式的数据”,随后,神经网络会对相应物品进行分组,以便理解这些数据的意义:例如,(通过分组,神经网络会发现,)与咖啡相比,什锦干果与干果或坚果的共同点更多。Instacart的机器学习主管沙拉特·拉奥(Sharath Rao)表示,使用这种技术帮助公司节约了时间和资金成本。他说:“不然我们就得思考所有可能的配对,还得保留一张(手填)表格。”
*****
虽然在结构化数据领域里应用深度学习技术已经是大势所趋,但障碍依然存在。
首先,这是一个全新的想法,此前并未对其效果进行过验证,没有人知道与更为传统的统计方法相比,这种技术可以有哪些优势。人工智能芯片生产公司英伟达(Nvidia)的数据科学家埃文·奥尔德里奇(Even Oldridge)说:“现在我们还不知道这个问题的答案。”
的确,考虑到训练神经网络的费用,对于那些不具备人工智能专长的企业来说,原有的数据分析方法可能已经够用了。
百事公司的高管、人工智能专家卡尼乌拉说:“我坚信,这个世界上绝不存在能够解决所有问题的‘锦囊妙计’,对所有公司来说都是如此。”
云服务巨头亚马逊(Amazon)、微软(Microsoft)和谷歌在推销自己的服务时实际上也隐含着这层意思:与其投入巨资、招揽人才去争取潜在的增量回报,还不如直接从我们这里购买人工智能服务。
与其它以“教会计算机具备‘思考’能力”为目的的项目一样,人类的偏见也会对项目的成功构成威胁。深度学习系统的优劣取决于训练它们所用的数据,数据太多或太少都可能会使软件的预测产生偏差。
以基因泰克的数据集为例,该数据集收入了此前15年的癌症病人的临床数据,但只收入了此前8年的基因组测试数据,也就是说,在此之前的患者数据并不像研究人员所希望的那样具有可比性。
供职于基因泰克的科平说:“如果我们对这些数据集缺乏了解,那么据此建立起来的模型可能毫无可靠性可言。”
科平表示,尽管如此,对这些电子表格中的内容进行强化分析依然具有很高的潜在价值,其意义完全不亚于获得“预测一名病人在接受某种治疗之后可以存活多久”的能力。对一堆表格来说,能够做到这一点也算是不错的成绩了。
*****
数家公司正在对神经网络进行训练,希望其能够处理自己已有的结构化数据,这些公司包括:
基因泰克
这家生物技术先驱企业制作了一份内含繁杂健康数据、覆盖数万名患者的电子表格,从常规记录到基因组图谱,不一而足。这一研究具有重要意义:如果人工智能真可以通过正确方式来分析这些数据,个体病患在未来或将能够获得针对其疾病制定的个性化治疗方案。
高盛集团
人工智能为投资者提供了无限机遇。受高盛集团聘请,一位机器学习专业的教授开发了一种训练工具,借助这种工具,神经网络可以学会忽略那些可能使金融分析复杂化的词语,比如“家庭内部转让”(出现这一词语时,交易中的房产价值可能失真)。神经网络学会识别、忽略此类词语能够提升现有分析模型的效率。
Instacart
这家外卖新创企业拥有一套易于理解的数据集,内含员工需要为顾客选取的各种超市商品。该公司正在训练算法进行复杂单词联想的能力,例如在看到什锦干果时,可以联想到坚果和干果,方便在顾客所需商品缺货时为其提供替代选择。(财富中文网)
译者:Feb