昔日的人工智能“老大哥”,IBM Watson 为什么现在会被看作一个笑话?
编者按:早在2011年时,Watson(沃森)就在智力竞赛节目 Jeopardy! 中获胜,自此之后IBM 就在一直积极宣传沃森。然而最近一段时间沃森带来了许多坏消息。沃森曾与休斯敦安德森癌症研究中心合作,去年双方分道扬镳。IBM营收停止增长,股价起起落落,分析师甚至开始质疑:沃森真能带来更多价值吗?知名科技投资人 Chamath Palihapitiya 今年5月接受 CNBC 采访时表示:“沃森就是一个笑话。”
保罗·唐(Paul Tang)的妻子在医院做了膝关节替换手术,他陪妻子住院。每年,美国有大约70万人做这样的手术。外科医生来了,唐本人就是初级治疗内科医生,他问医生,预计什么时候妻子才能回归正常人的生活,根据他的经验判断。外科医生一直含糊其辞,没有明确答案。唐说:“我真是被打败了,他居然不知道。”Paul Tang很快了解到,大多数内科医生基本上都不知道病人回到家、回到工作中的生活是怎样的,他们无法对病人的生活进行评估,对于病人而言,这种评估至关重要。
沃森是一个机器学习系统,IBM 将未来押在沃森身上。沃森可以给内科医生提供信息,例如,告诉医生还要等多长时间,病人才能正常行走或者爬楼梯,不会疼痛。它还可以分析图片和组织样本,为特定病人制定最佳治疗策略。
自从沃森在智力竞赛节目 Jeopardy! 中获胜之后,卫生保健便成为机器学习技术瞄准的热门市场。研究公司 CB Insights 在报告中指出,自2013年以来至少出现106家创业公司,它们仍然在营业。
今年,沃森曾与休斯敦安德森癌症研究中心分道扬镳。针对沃森的批评(包括安德森癌症中心的批评)似乎与技术无关,并不是说技术存在缺陷。只是IBM对于目前沃森所处的水平太过乐观,这才招来批评。事实上,谈到将AI应用于卫生保健,沃森健康有很大的可能会成为领导者。如果说现在还没有取得很大的成就,那么最大的障碍于数据,IBM需要特定类型的数据,用来训练系统。在多种环境下,数据供应严重不足,很难获得。这个问题不只是沃森的问题,其它系统也一样。对于整个卫生保健机器学习领域而言,都面临这样的问题。
缺少数据、无法获得数据可能会让沃森的发展速度变慢,同样的,IBM的竞争对手也会受到伤害。为什么呢?因为要获得数据,最好的办法就是与大型卫生保健机构密切合作,而这些机构在技术面前有点保守。与创业公司相比,有一点IBM做得比较好:它得到了大机构高管和IT经理的信任。虽然安德森项目存在一些问题,IBM仍然有着很大的优势。许多医疗中心、卫生保健管理团体、生命科学企业都引进了沃森,它们都会提供关键数据,正是这些数据为未来的医疗模式奠定了基础。
时间表不切实际
沃森与安德森癌症中心“分手”说明IBM对沃森鼓吹过度,结果招来麻烦。
2012年,安德森癌症中心与IBM开始合作,它们的目标是让沃森阅读数据,数据涉及病人的症状、基因序列、病理报告,然后将信息与内科医生的报告、重要期刊论文整合,帮助医生制定诊断和治疗策略。IBM和安德森癌症中心对技术期待过高。2013年,IBM曾经豪言壮语说“计算新时代来了”,这种论断给了《福布斯》一种错觉,似乎沃森“现在可以处理临床实验”问题,再过几个月就能用在病人身上了。2015年,《华盛顿邮报》引述一名IBM沃森管理者的话说,沃森正在构建集体智慧模式,介于机器与人之间。《华盛顿邮报》还说,训练时机器系统的目标是成为医生的助理,帮助他们做之前不能做的事。
今年2月,德州大学(安德森癌症中心就是它运营的)宣布项目终结,癌症中心向IBM支付3900万美元赔款,原本项目合同的规模只有240万美元。研究4年之后,双方没有开发出一个可以用在病人身上的工具,技术只能用在实验性测试中,没办法投入使用。关于沃森一事,安德森癌症中心不予置评,内部不知道如何管理项目,如何获得资金,这可能才是问题的根源。
并不是说IBM沃森没有问题,事实上,它的问题比任何其它的项目都要大。
到底是什么使得研究受挫?首先你要深入理解机器学习系统(比如沃森)的训练方式。沃森持续对内部处理流程进行微调,从中学习经验,这样一来解决某些问题时获得正确答案的概率就会提高。正确答案必须是已知的,这样系统才会知道什么时候对了,什么时候错了。系统处理的训练问题越多,结果就会越好。
要训练系统在X线中识别恶性肿瘤还是比较简单的。如果解决的谜题大大超出人类的已知范畴,比如了解基因变异与疾病的关系,沃森就会显得无能为力,它会碰到“鸡与蛋”的问题:数据没有经过专家的筛选,没有有效组织过,如何用这样的数据训练系统呢?纽约斯隆-凯特琳癌症中心计算病理学家Thomas Fuchs解释说:“如果你正在训练自动驾驶汽车,任何人都可以给树、标志贴标签,这样系统就可以学习如何识别它。但是医学是一个特殊的领域,需要专家训练几十年,给信息贴上正确的标签,输入计算机。”
IBM希望沃森能够在一些领域做出贡献,其它企业的机器学习解决方案也是样打算的,在所有这些领域都有障碍存在。要训练沃森处理海量数据,从中挑选出少数与单个病人有关的重要信息,首先需要人亲自训练,用成千上万个案例训练。
例如,为了让沃森识别与疾病有关的基因,它需要成千上万的病历,这些病人患有特殊疾病,他们的DNA已经分析过。然而,要获得“基因-病历”结合的数据相当难。许多时候,数据并没有以正确的格式记录,或者根本不存在,又或者数据来自于几十个不同的系统,很难处理。
如果将更好的数据交给临床医生,就可以提高初级治疗水平。在日常的初级治疗过程中,当问题不太严重时医生如果错过了治疗机会,等到病情变得严重起来,病人进了急诊室或者让专家治疗,此时承受的痛苦会更大,成本也会大幅增加。IBM沃森健康首席医疗官Anil Jain说:“在健康方面花的钱有三分之一是不需要的。”人们认为,机器学习有机会解决这个问题。
诊断病人时,为了让医生得出更好的结论,沃森需要找到彼此的关联,也就是健康记录和健康社会决定因素的关系。这些因素包括:病人是否吸毒、饮食是否健康、呼吸的空气是否清新等等。唐认为,今天,几乎没有医院或者医疗实践从大量病人身上获得可靠的数据。部分是因为医生接受现代数据驱动型医疗实践方法的速度有点慢。克利兰夫诊所(Cleveland Clinic)的内科医生、卫生保健信息专家Manish Kohli认为:“卫生保健行业接受技术的速度很慢,真是让人尴尬。”
如果存在这样的数据,IBM一般会花钱购买。IBM收购了一些企业,比如Truven Health Analytics、Explorys和Phytel,它们都是处理大数据的企业,这些数据来自医院和病人群体。虽然与安德森癌症中心的合作终止了,IBM还是与其它机构达成了重要合作,进一步获得更多的病人数据。
与IBM合作的就有Atrius Health,它是一个网络,里面有将近900位内科医生,主要是初级护理内科医生,他们来自波士顿地区。合作的目标是为开发、测试以沃森作为基础的系统功能,从笔记、记录、文章中提取面向独立个体的关键信息。Atrius Health首席医疗官Joe Kimura说:“对于初级护理内科医生而言,提取所有相关信息是一项繁重的任务。”他还说,每一次访问数据都会增加,有了这样的系统数据会大幅增加,不需要按标准格式提交,检索很方便。
还有,病人病历中许多重要的笔记是以句子的形式存在的,传统IT系统无法识别。沃森使用了自然语言处理技术,这种技术当时是为参加 Jeopardy! 开发的,它可以从句子中提取意义。在理想的情况下,系统可以给内科医生提建议,给病人更好的帮助,省去不必要的护理。Kimura说:“病人臀部受伤,我们全心全意照看,为什么我们只关心这个?为什么不能提前预测,判断病人有跌倒的风险,让他们避免臀部受伤?我们要让护理朝着上游延伸。”
沃森健康还与纽约中央医疗中心(Central New York Care Collaborative)合作,这是一个州政府提供资金成立的机构,与6个国家大约2000个卫生保健提供商合作。合作的目标很明确:将急诊数量、再入院数量降低25%,有时病人已经获得批准出院,结果又因为相关的问题重新回医院治疗。合作还带来了大量的病人数据。
拿到更多数据
获得数据还有其它的办法。谷歌有一家姊妹公司,它想直接从病人身上提取数据。这家公司就是Verily Life Sciences,它是Alphabet的卫生保健部门,该公司与杜克大学、斯坦福大学合作,开发一套高度结构化的健康数据库,里面有1万名志愿者。数据库包含了门诊信息,还有穿戴健康监测设备提供的数据。这样一来数据就会大大增加,只是要生成高度可用的结果,可能还要等10年甚至更长时间。
纪念斯隆-凯特林(Memorial Sloan-Kettering)癌症研究中心的Fuchs率领团队训练一个AI系统,它可以阅读“组织染色幻灯片”(tissue-stain slides),在训练过程中,研究人员需要建立一个庞大的数字幻灯片库,幻灯片上有注释信息,包括确诊及其它关键数据。每个月,团队自己会制作4万张幻灯片。Fuchs说:“数量比其它人多很多,任务很庞大,因为在生物领域变量太多了。”
虽然沃森项目失败,安德森癌症研究中心还是在继续执行一个大项目,它要收集1700种门诊数据,走进中心的每一个人病人都会贡献自己的数据。项目负责人Andy Futreal说,要让沃森这样的AI系统发挥作用,将病人信息与研究数据结合起来至关重要。他还说:“一旦我们获得了数据,就可以进入AI机器学习业务,看看在各种治疗方法下什么原因导致谁的效果好、谁的效果不好。”
IBM继续从合作伙伴手中获得数据。在癌症诊断与治疗方面,IBM与纪念斯隆-凯特林癌症研究中心、Mayo Clinic、哈佛和MIT附属研究所、医疗测试巨头Quest Diagnostics携手合作。通过与纪念斯隆-凯特林癌症研究中心合作,IBM开发出一套系统,它可以筛选期刊文献,形成正式的治疗决策,佛罗里达Jupiter Medical Center(木星医疗中心)和印度一家医院连锁企业已经引进系统。在发现药物方面,沃森健康与Barrow Neurological Institute(巴罗神经学研究所)合作,它帮助该机构找到了5种与ALS有关的基因,之前人们并不认为这些基因与该疾病有关;通过与Ontario Brain Institute(安省脑科研究所)合作,沃森筛选出21种最有希望的候选药物。
提供更好的医疗结果,降低成本,沃森真的能带来变革吗?Bessemer Venture Partners基金的合伙人Stephen Kraus认为的确有这种可能,他专注于卫生保健行业,投资了许多与卫生保健有关的AI创业公司。Kraus说:“它是真实存在的,不是用来刺激股价上涨的‘雾件’。”和大多数专家一样,Kraus也对不切实际的时间表、承诺保持谨慎态度,当中一些过高的承诺来自于IBM自己。Kraus说:“相当难,今天没有发生,再过5年可能也不会发生,这种技术不会替代医生。”
【编译组出品】编辑:杨志芳