想象一下:在未来的某一天,如果 AI 诊疗成为了现实,你就能直接在医院用电脑看病了。通过化验的数据,系统很快就给了你一个诊断结果,让你乖乖去开药吃药,甚至决定要不要手术……虽然这个过程听上去很便捷也很美好,但要抵达 AI 诊疗的乌托邦,实际上并没有那么简单,且不论它的砖瓦尚在建设当中,要走向乌托邦的路途,同样没有想象中的容易。
停留在实验室里的 AI 诊疗
AI 诊疗的用户群体并不只局限于辅助医生,按照服务群体的不同,可以分为四个层面:
回复患者咨询;
辅助导诊人员、药店人员、医疗在线客服;
基层医生及全科医生的临床辅助决策;
面向医生的患者康复跟踪。
而以上功能要和 AI 诊疗扯上关系,医疗创业公司如果没有大量的数据,要做成一个成熟的产品简直无从谈起。
创业公司在数据匮乏的情况下,目前的主要方式是和医院或数据中心合作,获取相关的数据。而这些数据主要的用途尚不是用于医院实战诊断,而仅仅是前期的积累工作——通过海量临床数据来优化算法。
人工智能诊断新星 Enlitic 的创始人 Jeremy Howard 曾一度表示,缺乏数据是制约它们发展的主要原因。而它在去年获得 Capitol Health 领投的 1000 万美元融资,通过后者提供的放射科数据完善诊断算法。通过海量医疗数据的挖掘,实现对医学影像的实时准确诊断,提供患病概率预测,并辅助医生决策。
而目前最为成功的 AI 诊疗系统非 IBM 的Watson 莫属了。根据东京系统与软件开发研究所 Watson Health Cloud 的软件工程师林雪婷此前向雷锋网的介绍,系统需要有可以进行合作的研究中心,以获取准确的数据来源。 Watson获取数据的做法主要是和美国第二大连锁药店 CVS 合作,获取用户的行为信息、临床数据、购药数据及保险信息等,或是和各地的实验室及研究中心合作。
然而,目前的研究工作主要还是局限在实验室中。即便有着 Watson 诊断白血病的成功案例,它距离临床实验还有一定距离。
数据的有效性
AI诊疗最大的硬伤在于为医疗研究所收集的数据,与真实问诊还有距离。
一个原因在于数据规模小。目前大部分科技公司的做法是,通过向医院机构获取数据,而予以定制化解决方案作为交换,但这些临床数据只能算是“小打小闹”。
雷锋网简单为大家算笔帐:仅仅在英国,每天就有接近200人无法看到明天的英国雨景(顺手一黑)。而到2020年,全球因AMD(一种因糖尿病继发的视网膜病变)而失明的人将达到2亿人。
但是,就算是谷歌DeepMind和英国百年老医院 Moorfields这样的强强联手,到目前的训练数据也只能达到 100 多万张匿名扫描图。这样一对比,独立医院所能提供的数据和全球患者相比简直是沧海一粟。而与此同时,对于疾病的数据获取就会受到地域甚至是病种的局限,这就让数据的有效性打了个折扣。
另一个问题在于数据的质量有待提高。电子化程度不够,数据采集方式良莠不齐、缺乏标准体系及结构化程度低的数据来源,更让临床试验带来了困难。
医疗数据不像金融数据一样,颗粒度和专业度已经比较成熟,目前医院的 HIS及 EMR 的程度还远远不够。“数据的质量是有效分析的基础,目前数据清洗工作占据了太多工作量,终究还是质量的问题。”树兰医院 CEO 郑杰如是说。他认为,使用医院信息系统的多为平均年龄较大的医生,对接纳最新信息系统的排斥度较高,且没有进行数据分析的迫切动力,因此“也就很难建立优秀的数据结构和数据质量” 。