在最理想的情况下，自学习算法可能成为“三赢”

凯洛格管理学院

2023-03-27

Lyft正在用“强化学习”法来匹配乘客与司机，这种方法为公司带来更高的利润，为司机带来更多的工作，乘客也更加满意。

文本设置

小号

默认

大号

Plus(0条)

当新冠疫情来袭时，塞巴斯蒂安·马丁正在Lyft公司担任博士后研究员。突然之间，使用Lyft应用程序的乘客与司机的数量发生了重大的变化，公司也试图迅速因应。

Lyft过去一直使用一种算法来匹配司机与乘客，因此公司以为或许将这个算法稍做调整便可以变成有效的新冠疫情方案。然而事与愿违，这项工作比预料的困难许多。“它证明了这套系统的局限性。”如今是凯洛格学院运营学助理教授的马丁说道。

马丁解释，主要问题在于简单的算法，例如将距离最近的司机指派给乘客，事实上效果不是那么好。

于是马丁开始思考如何能够改善这种匹配算法，甚至在共乘服务从新冠疫情中复苏之后。如果算法可以教自己更好地调度司机然后做出实时调整会怎样呢？

马丁和一个Lyft团队实现了这样的假设。他们用了一年多的时间创造出了一个能够进行“强化学习”的算法，这在科技公司简直就是永生，马丁表示。而设计这个算法虽然困难，但要说服公司上下去试用一样很难。

毕竟，强化学习会要你“让出一大部分的掌控权。”马丁说。“一台可以做决定而不告诉你的机器？试想如果它做的决定关乎你赖以维生的工作呢？”

然而结果是值得的：Lyft公司开始赚更多的钱，司机有了更多的工作，乘客给出了更多的五星评价。此外，他们的项目被提名为2023年弗兰兹·厄德曼奖（Franz Edelman Award）的六名决赛者之一，这是分析与运营研究领域里最负盛名的奖项。如果你在过去一两年内用过Lyft，那么这个算法就帮助过你匹配给某个司机，而你的出行数据反过来又帮助改进算法。

在对自学习算法越来越忧惧的氛围下（想想ChatGPT），Lyft的故事显示在这些工具中，有些确实能够改善每一个人的生活，马丁表示。

“它不总是零和游戏”，输与赢不是处于此消彼长的状态。他说道。“乘客更满意，司机更忙碌，平台赚钱更多。基本上是百利而无一害。”

为什么最近的并不总是最好的

对大多数人而言，尤其是下雨天站在街头等候共乘的我们来说，派出距离最近的司机似乎是最符合逻辑的做法。但实际上却不总是如此。

当生意繁忙而司机人手不足时，问题就出现了，马丁解释道。在这种情况下，离乘客最近的司机或许还相当远。要是派遣这名司机，他就要花很多时间“开空车”，让乘客苦苦等候，说不定司机还在途中，乘客就已经取消叫车。还有很关键的一点是这意味着试图叫车的新乘客会需要等候更长的时间，因为有空的司机正在花很多时间试图开车到下一个乘客那里，因此有空载客的司机越来越少。

“它像是平台的死亡螺旋。”马丁说道。

因此，理想的解决方案会是一个可以预测接下来几分钟情况如何演变的匹配算法。会有一个新的、更近的乘客出现吗？某条堵车的道路会变的通畅而缩短开车时间吗？如果司机去接载某个乘客，下车地点的附近是否会有另一个乘客，使得转换到下一个乘客的效率更高吗？

总之，这个算法要能够预测接下来会发生什么事情。马丁和Lyft的团队成功地教算法去做这样的工作。

他们着重于在任何时间有空的司机的“价值”，这个价值是司机工作当天收入的估计值。然后，他们训练算法不间断地分析实时情况，以便算法训练自己预期接下来最可能发生什么事情。

这类似于会下棋的强化学习算法，马丁说道。下棋算法接受数百万个实际棋局的训练，然后便可以用那些知识来预测对手的下一步走法。

该团队通过建立实验时段和对照时段来测试他们的算法。在实验时段，Lyft用强化学习算法来匹配司机与乘客，在对照时段，则用Lyft的一般算法进行匹配。

在经过一年多的调整改进后，他们找到了一个在所有重要功能上都胜过旧算法的新算法。它一年为公司多增加相当于超过3,000万美元的收益，司机的收入也相应提高。乘客取消叫车的可能性减少了3%，叫车后没有司机能够接单的情况减少了13%。同时，乘客的五星评价数量也变多。

马丁说：“使用Lyft的人没有增加。这些改善是由于司机获得了更好的运用。”

超越数学

他们的成功是共乘公司使用强化学习的第一个记载案例。不过，设计算法不是唯一的困难点。

“比数学更重要的，是如何在公司内做这件事情。”马丁表示。

强化学习意味着涉及其中的人未必对事情的现况一清二楚。对一家公司而言，这变得有些棘手，马丁说道。比如，假设负责定价的团队想要进行自己的实验，那么他们就希望将所有其他因素保持不变以便了解实验数据。但如果与此同时，一个匹配算法自行改变，要知道如何解读定价实验的数据就变得很困难。

“它让其他许多情况变得错综复杂。”马丁说道。

此外，它使研发该算法的团队难以了解如何继续创新。“如果人们对正在发生的事情一无所知，他们如何能够继续创新？”马丁问道。马丁目前和一名博士生黄玉笛（音译）合作，后者正在与Lyft合力研究这个问题。

此外，在Lyft，这个算法的研发花费了一年多的时间。“一年对科技公司是很长的时间，两个月就已经很长了！在一件效期不长的事情上花一年时间是非常少见的。”他说道。

最终，该团队保持士气，终于说服公司的其余部门让他们继续实验。他说，这不涉及高科技策略。“用的是任何地方都适用的相同方式，也就是去找合适的人商量，取得人家的信任。组织一个兴致高昂的团队，然后证明东西有效。在研究领域里，通常认为构想本身就已足够，但对公司而言，真正可以带来成果的是过程。”

事实是，至少在这个案例上，过程带来“三赢”的情况，马丁对此特别兴奋。

每一次团队测试修改后的算法时，他们会看着仪表板上各项重要指标的颜色变化，红色代表实验结果比现况糟，绿色代表比现况好。

“团队找到致胜算法的那一天，仪表板上出现了一整片绿色。”他说，“这就是运营优化真正要做到的事情：找出全绿的东西。”（财富中文网）

财富中文网所刊载内容之知识产权为财富媒体知识产权有限公司及/或相关权利人专属所有或持有。未经许可，禁止进行转载、摘编、复制及建立镜像等任何使用。

0条Plus

精彩评论

撰写或查看更多评论

请打开财富Plus APP

前往打开

热读文章

关注我们

在最理想的情况下，自学习算法可能成为“三赢”

撰写或查看更多评论