人工智能底层技术已然成熟,中国 AI 的发展急需解绑数据和政策支持
编者按:本文节选自“动脉网”(ID:vcbeat)《2017医疗大数据与人工智能产业报告》,36氪经授权发布。
2016 年至今,全世界都在说,人工智能的拐点已来。从世界级的玩家谷歌、IBM,到疯狂的投资人和创业者,都在进行抢点布局,甚至军备竞赛。人工智能正在全球性地走向繁荣。
面对如此汹涌而来的人工智能浪潮,我们该如何看待?如何思考?动脉网作为这一浪潮的见证者,势必要为它留下些什么。该报告全文一共10万字, 由蛋壳研究院历时一月,查阅超百万字的资料、采访数10家人工智能公司高层后整理而成。这是动脉网有史以来最为系统地对人工智能医疗领域做出的一次梳理,详细讲述了医疗大数据和人工智能企业的底层技术、医疗人工智能九个细分领域、医疗人工智能企业现状等,并搜集了超过60家国内外企业案例。
同时,动脉网蛋壳研究院尝试用我们自己的方法论,来客观描述人工智能+ 医疗各细分领域的发展状况。我们对目前海内外一共192家医疗人工智能企业的投融资做出了梳理,并首次绘制了人工智能医疗细分领域的技术成熟度曲线供业内人士参考。
以下是报告部分内容的精编连载。
人工智能的底层技术解析
一、人工智能、机器学习和深度学习的关系
谈到人工智能的时候,有两个概念常常被提及,那就是机器学习(Machine Learning)和深度学习(Deep Learning)。机器学习和深度学习是包含关系,深度学习是帮助人工智能在现阶段发展的关键技术。
机器学习是实现人工智能最基本的方法,是从过往的数据或经验中学习的算法,不依赖于硬件代码和事先定义的规则。传统的计算机程序为解决特定任务而编码,而机器学习使用大量的数据进行训练,可以通过算法从数据中学习如何完成任务。
机器学习主要应用于早期的人工智能领域。传统算法包括决策树学习、推导逻辑规划、聚类、强化学习和贝叶斯网络等。在机器学习的发展早期,限于计算机计算能力、样本量等因素,算法的局限性大,智能化程度低,无法实际应用。
深度学习是机器学习的一个子集,它的发展是现在人工智能发展的驱动力量之一。深度学习使用的人工神经网络学习算法也是机器学习算法中的一种,只是之前的关注度不高。深度学习的核心是特征学习,旨在通过分层网络获取分层次的特征信息,从而解决以往需要人工设计特征的重要难题。
人工智能、机器学习和深度学习的关系
深度学习的概念源于人工神经网络的研究。神经网络和深度学习两者之间有相同的地方,采用了相似的分层结构,而不一样的地方在于深度学习采用了不同的训练机制,具备强大的表达能力。
传统神经网络曾经是机器学习领域很火的方向,后来由于参数难于调整和训练速度慢等问题淡出了人们的视野。之后,深度神经网络模型成为了人工智能领域的重要前沿阵地,深度学习算法模型也经历了一个快速迭代的周期,Deep Belief Network、Sparse Coding、Recursive Neural Network, Convolutional Neural Network等各种新的算法模型被不断提出,而其中卷积神经网络(Convolutional Neural Network,CNN)更是成为图像识别最炙手可热的算法模型。
深度学习发展简史
而近些年来,计算机的计算能力和存储能力都有了很大的提高,数据发掘引领了大数据时代的到来。深度学习作为增强机器学习能力的方法被广泛应用,配合大量数据使得原来复杂度很高的算法能够实现,得到的结果也更为精细。
二、人工智能发展的三大条件
算法、算力和数据,是人工智能快速发展的三个要素。首先在算法上的突破,才让人工智能的商业化发展看到了希望。其次,计算能力的提升,使得复杂的算法得以实现,快速得出训练成果,降低成本。最后,大数据时代为人工智能的训练学习提供了大量的资料。离开其中任何一样,人工智能都无法实现大规模商业化应用。
人工智能发展的三大条件
1、算法
算法是人工智能发展的基础,现在主要应用的深度学习算法在前面已经做过介绍。算法框架中诸如Caffe、TensorFlow、Torch等大多数已经实现了开源,成为大多数工程师的选择,对行业的加速发展和人才的培养起到了非常大的作用。
全球的开源平台的成熟,也使得中国企业能够快速地复制其他地区开发的先进算法。就应用层面而言,中国的算法发展程度与其他国家并无太大差距。事实上,中国在语音识别的人工智能算法上取得了突破性进展,在世界上领先。
2、算力
计算能力是人工智能的基础设施之一,因此具有极高的战略意义。GPU(图形处理器)强大的并行计算能力显著提升了计算机的性能,而且降低了成本。英伟达最新的GTX 1080游戏显卡拥有9TFLOPS的浮点性能,但是价格只要700美元。每GFLOPS的算力成本只有8美分。根据高盛的数据,1961年的IBM 1620要提供1GFLOPS的算力,费用大概是9万亿美元(已考虑通货膨胀)。
在算力部分,英伟达、英特尔和AMD这全球最大的三家芯片供应商,负责提供GPU和CPU。硅谷也在针对性发展FPGA(现场可编程门阵列)和ASIC(专用集成电路),应用于人工智能计算。云计算和超级计算机也在为人工智能的发展提供服务。
3、数据
人工智能系统必须通过大量的数据来“训练”自己,才能不断提升输出结果的质量。拥有的高质量数据越多,神经网络就会变得越有效率。
三、如何获取学习的数据
人工智能想要发展,会面临一个来自于真实世界的非常大的挑战,那就是训练数据量严重不足。目前的数据来源主要有三个方面。
一是企业自有数据。通过大量的人力采集,再对数据进行结构化处理,形成人工智能的训练基础。大部分人工智能企业在进入这个领域之前,正是在各自领域采集到了相当多的行业数据,才考虑对数据资源进行利用,形成人工智能业务。
二是各国政府的公共数据。美国联邦政府在Data.gov数据平台开放了来自多个领域的13万个数据集的数据,包含医疗、商业、农业、教育等领域。我国和其他国家也陆续开放了部分领域的公共数据。
三是产业合作数据。人工智能创业公司通过和行业公司,以及产业链上游的数据公司建立合作获取数据,比如医疗方面和医院建立合作关系。IBM Watson一开始就是通过和纪念斯隆凯特琳癌症中心合作获取病历、文献等数据。
如果遇到数据量不足的情况,同时又很难通过之前那些行之有效的方式去增加数据供给,那就无法发挥出深度学习的优势。更重要的是,我们还会遇到数据类型不一样的问题,物理世界中是不同传感器获取的实时数据流,而现在深度学习在信息世界中的应用,比如说图像识别,使用的数据都是基于图片的数据点,而非数据流,所以这也是将深度学习现有的成功延伸到真实物理世界应用的一个底层障碍。
降低对数据量的需求、实现小样本学习甚至one-shot learning,是目前深度学习研究中的关键问题,Yann LeCun、Yoshua Bengio等深度学习专家也多次在演讲中提到解决深度学习中one-shot learning问题的重要性。但是,在2~3年之内,小样本学习技术还无法取得突破,我们仍然需要大量真实数据提供给计算机进行学习。
中国的人工智能现状
一、我国人工智能学术研究世界领先
尽管美国在人工智能的基础研究领域一直处于前沿地位,但是近两年来,中国的人工智能科技人才正在实现弯道超车。
中国的人工智能研究已经超过美国
根据美国发布的《国家人工智能研究与发展策略规划》报告中显示,从2013年到2015年,SCI收录的人工智能方向论文,涉及“深度学习”的论文数量增长了约6倍。中国学者的论文发表数量从2014年开始超过美国,并大幅度领先于其他国家。
虽然中国学者人工智能论文SCI发表数量有增加,但是影响力还没有得到相应的提升。在麦肯锡的《中国人工智能的未来之路》报告中显示,2015年中国学者发表的人工智能论文被引用量高达2124篇,远远超过美国的1116篇。但是去掉自我引用部分,美国学者的论文引用量将上升到第一。而在H指数(学者发表文章的产出量和引用次数的科学测量方式)方面,美国学者的论文影响力排名第一,中国排名第三。
中国人工智能论文的影响力
二、我国数据在逐步开放
在数据方面,中国的基础数据量远远领先欧美,特别是根据众多人口数量获得的医疗和健康数据,但是这些海量数据缺乏一个统一标准、跨平台分享的生态环境,大多数都是数据孤岛,利用率和利用价值不高。另一方面,全球已经意识到开放政府数据库有助于促进相关领域人工智能的创新,我国政府数据也在逐步加大开放的力度。
麦肯锡报告显示,中国数据开放度排名为全球第93位,数据的评估标准主要基于能够影响公众获取数据的十大方面,包括数据是否公布、是否免费、是否及时更新、是否机器可读等。
中美数据开放程度对比
从目前人工智能的发展情况来看,算法和算力已经基本不存在技术壁垒,而数据将成为决定项目成败的关键。缺乏数据的人工智能就是无米之炊,特别是在医疗方面。落实到医疗领域,中国的医疗数据并不匮乏,但是有效的医疗数据仍旧“捉襟见肘”。特别是对这些数据的标注和结构化是一个难题,这让机器学习困难重重。
三、我国人工智能政策演变
虽然在人工智能的基础技术上,中国和美国之间还有一定的差距,但是中国政府已经从系统布局,整体部署我国的人工智能发展规划。2017年7月20日,国务院发布了《新一代人工智能发展规划》,这是在国家层面首次对一项技术内容进行全盘布局。
中国人工智能相关政策整理
2017年7月8日,国务院发布了《新一代人工智能发展规划》,这是我们国家在人工智能领域进行的第一个系统部署的文件,也是面向未来打造我国先发优势的一个指导性文件,重点对2030年我国新人工智能发展的总体思路、战略目标和主要任务、保障措施进行系统的规划和部署。
《规划》描绘了未来十几年我国人工智能发展的宏伟蓝图,确立了“三步走”目标:到2020年人工智能总体技术和应用与世界先进水平同步;到2025年人工智能基础理论实现重大突破、技术与应用部分达到世界领先水平;到2030年人工智能理论、技术与应用总体达到世界领先水平,成为世界主要人工智能创新中心。
四、《新一代人工智能发展规划》详解
2016年7月徐匡迪、潘云鹤等一批院士提出了“启动中国人工智能重大科技计划的建议”。为抢抓人工智能发展的重大战略机遇,构筑我国人工智能发展的先发优势,加快建设创新型国家和世界科技强国,按照党中央、国务院部署要求,制定新一代人工智能发展规划,实施新一代人工智能重大科技项目。
《规划》中提出了六个方面的重点任务:
1.构建开放协同的人工智能科技创新体系。
2.培育高端高效的智能经济。
3.建设安全便捷的智能社会。
4.加强人工智能领域军民融合。促进人工智能技术军民双向转化、军民创新资源共建共享。
5.构建泛在安全高效的智能化基础设施体系。
6.前瞻布局新一代人工智能重大科技项目。
针对人工智能的发展和演进,国家将充分利用已有资金、基地等存量资源,统筹配置国际国内创新资源,发挥好财政投入、政策激励的引导作用和市场配置资源的主导作用,撬动企业、社会加大投入,形成财政资金、金融资本、社会资本多方支持的新格局。
五、人工智能政策盲点
除了从国家层面推动人工智能的产业发展需要政策支持,人工智能在应用过程中所涉及到的法律法规问题也需要尽早规划和监管。特别是在监管严格的医疗行业中,人工智能的商业化应用,还有很多问题需要政策进行规范。
1.人工智能的应用规范。医疗问题涉及到人的健康和生命,是一个复杂而谨慎的领域,任何问题都和患者的生命安全息息相关。所以,我们需要尽快在国家层面明确监管措施,用法规来监管人工智能在医疗上的应用范围是什么?监管范围是什么?风险的责任判定等等。
2.数据的合理、合法应用。因为人工智能需要从过往数据中进行学习,才会使其拥有智能,并得到提高。所以,大量高质量的医疗数据是人工智能具有判断力的基础。美国要求医疗信息的商业化应用必须严格符合HIPAA和HITECH两个法案规定。中国目前在此领域政策上态度不明确,我们应该尽快明确如何利用数据,哪些数据可以利用,哪些数据不能利用,应该用什么法律进行监管。
3.产业政策扶持。目前,中国的高科技公司中,有超过半数的公司并没有将人工智能列入战略计划之中。即使开始涉及人工智能,也可能在数据、人才、技术上还存在阻碍。如何引导数字医疗产业完成人工智能的变革,政府可以通过一些传统经济工具,帮助企业克服人工智能发展初期所面临的问题。
欣喜的是,我们看到了《新一代人工智能发展规划》的发布,从国家层面推动人工智能的发展。未来,中国要将人工智能在各个领域中的创新转化为可持续的生产力,在一整套战略规划和政策扶持下,才能打牢人工智能的根基。
参考资料:
1. 《人工智能、机器学习和深度学习之间的区别和联系》,雷锋网,曲晓峰,2016年9月6日。
2. 《Reducing the Dimensionality of Data with Neural Networks》,Science,Geoffrey Hinton/Ruslan Salakhutdinov,2006年7月28日。
3. 《深度学习: 推进人工智能的梦想》,程序员杂志,余凯/贾磊/陈雨强,2013年6月。
4. 《如何让深度学习突破数据瓶颈?》,机器之心,赵云峰,2016年9月8日。
5. 《全球AI领域人才报告》,领英,2017年7月。
6. 《中国人工智能的未来之路》,麦肯锡,2017年3月。
7. 《人工智能行业研究报告》,36氪研究院,2017年6月。
8. 《新一代人工智能发展规划》例行吹风会,科技部,李萌,2017年7月21日。
《2017医疗大数据和人工智能产业报告》全文目录如下: