AI与医疗应用场景概要

  写这篇文章纯碎是对于AI与医疗的应用的兴趣,因为个人觉得,AI在医疗上的应用要落地,比自动驾驶这些研发周期很长的方向,是有优势的,潜力很大。我是在参考了其它一些文章以及视频之后,整理了这篇文章,主要描述了AI与医疗现在比较热门的研究方向以及落地应用,以及实际应用中急需解决或者面临的问题。

  很简单,就是怎么样利用数据挖掘和人工智能的技术,从海量的医疗数据中间去挖掘出证据,利用这些证据给患者提供循症的个性化医疗。

  从医疗数据分析的角度看,包括三大类的数据: 临床数据、基因数据和大健康数据: 1) 临床数据,就是医院产生的数据,一个人去医院会做检验、开药、拍片,这都是医院产生的数据,有一个测算临床数据对人健康的影响有10%; 2) 基因数据,就是与生俱来的数据,对人的健康影响有30%,有很多人在做基于基因的诊断,包括肿瘤治疗。当年女神安吉丽娜朱莉做过一个乳腺切除,也是因为经过基因测序,发现有一些遗传上的变异; 3) 大健康的数据,就是目前医院和基因之外,所有与健康相关的数据,包括饮食、运动、工作、在社交媒体上发泄的情绪。

  从数据存储的角度看,有结构化很好的,比如化验单,处方等这样的常量指标数据;有半结构化的,比如住院小结,出院小结,入院首页等这样文字性描述的数据;还有完全无结构化的,比如医疗影像这样的图片数据;还有记忆测序这样的组学数据;还包括时间序列数据,比如ICU里会看到一个人会插着各种各样的仪器取测量它的血压心率脉搏等各种流数据。总的来说,需要分析的医疗数据是多模态的。

  1.医学影像识别

  医学影像的精准识别对医生的决策至关重要。可以说AI处理医学影像是目前发展最快的方向了,毫无疑问这得益于深度学习与计算机视觉的快速发展,也就是说AI在处理医学图像上是有很大的前景的。

  医疗影像是多模态数据。有一些比较常见的二维影像,比如眼底皮肤癌影像,或者消化道的胃镜肠镜;还有一些是三维影像,比如影像,ct或者核磁通过向切片扫描的方式,对人体进行上百次的扫描,生成一个完整的三维影像。能够很好地用来做各种诊断和治疗; 还有一类是这种病理影像,主要做很多肿瘤的治疗,它需要从疑似肿瘤的部位取一个组织,然后进行切片,放在高倍显微镜下,都是几万*几万像素的高分辨率的影像。

  拿腾讯觅影的产品来说,比较成熟的有食管癌,肺癌,糖尿病性视网膜病变筛查,乳腺癌早期筛查,宫颈癌早期筛查,乳腺癌淋巴切片病例识别等。以食管癌筛查为例,纤维内窥镜检查,已成为检查上消化道疾病(食管癌、胃癌等)常规的临床诊断、术后随访、疗效观察的可靠方法.

  从具体的过程 来看,在拿到片子之后,差不多有这么几个步骤,第一块是作为一个对于医疗图片从PET系统或者医疗传统系统里面,首先对图片做一些预处理,第一个要去识别一些是食管还是不是食管,因为医生拍片子的时候有时候会拍到胃、十二指肠的位置,也会影响系统的学习和训练。另外一块,不同的机器拍出来的片子颜色、大小、光照等等都有很多不同的区别,要对这些图片做规划处理,然后放到模型当中。同时,在一张完整的食道癌影像当中,它的病灶只有一小块,大多数的区域是一个正常的,要把这个医疗原始的图片切成很小很多小的块,然后再去判断它这个是正常的还是有病变的。最后,在病变的图片里面,再去分辨是炎症还是癌症。在判断炎症和癌症时,除了完全基于图像识别的技术之外,也会加入其他方面的诊断。通过刚才一系列的手段,这个技术对于癌症的判别精确度是90%,并且也是经过临床的验证,这个不是实验室里面能够测试的数据。

  食管癌检查流程糖尿病视网膜病变等级

  另外一例子是斯坦福利用深度学习诊断皮肤癌,其中很多影像资料并不像医疗专业人员拍摄的那样专业,而是从各个角度、焦距和照明下拍的。最后,他们累积了约 130,000 张皮肤病变的图像,这些图像展示了超过 2000 种不同的皮肤疾病。使用 129450 个临床图像的数据集,大于以前的数据集两个数量级,包含了 2032 种不同的疾病,训练了一个深度卷积网络。

  使用两个关键的二进制分类用例:角质形成细胞癌(keratinocyte carcinomas)vs 良性脂溢性角化病(benign seborrheic keratoses);恶性黑色素瘤 vs 普通的痣,在 21 位经过认证的皮肤科医生的监督下,测试了它在活检证实的临床图像上的性能。第一例代表最常见的癌症的识别,第二例代表了最致命的皮肤癌的识别。深度卷积神经网络在这两个任务上的表现都达到了所有测试的专家的水平。

  算法的性能是通过构建敏感性(特异性曲线)进行衡量的,其中敏感性(sensitivity)代表着正确识别恶性病变的能力,特异性(specificity)代表着正确识别良性病变的能力。其是通过三个关键性诊断任务进行评估的:角化细胞癌的分类、黑素瘤的分类和通过皮肤镜检查的黑素瘤分类。在所有的三个任务中,该算法的表现媲美皮肤科医生,灵敏度曲线之下的区域达到整个曲线图区域的 91%。该算法另外的优点是它的敏感性能进行调整,研究者可以根据他们想要评估的东西从而调整其响应度。这种改变敏感性的能力暗示着该算法的深度与复杂性。看似无关照片中潜藏的架构——包括猫和狗的图像,都有助于算法更好地评价皮肤病变影像。

  2.人工智能的医疗助手

  医生看病时间短的现状有望被改善。随着技术的成熟,人工智能有望成为临床医生的合作伙伴,帮助医生承担诊前问询、自动化检测等工作,使医生有更多时间可以与患者互动。例如,智能语音技术的发展使得人工智能助手可以跟人类医生一样与患者进行语音交谈,询问病情、判断症状以及提供个性化治疗方案给医生参考。

  IBM的沃森个性化肿瘤治疗助手。

  首先肿瘤是一个非常恶性的疾病,治疗很困难。一方面疾病本身

  比较困难,另一方面治疗方法层出不穷,各种靶向药物,各种新的治疗方法不断的出现。如果想要做一个好的肿瘤医生,每月要读超过1万篇与肿瘤相关的新的科研文献,这是不可能的。这个解决方案的核心技术是运用自然语言理解技术,让机器去代替人去读书。这个系统读了两千多万篇文献,应用自然语言理解抽取里面的疾病症状、诊断治疗、患者病情,然后构成非常复杂的知识图谱。基于这样的知识图谱,当患者问诊,系统会自动从患者所有的既往病历信息中,包括检查报告、片子、检验结果、病史的描述,自动抽取上百项的关键信息,借助后台的知识图谱进行一个很复杂的推理过程,给出治疗的推荐治疗方案,包括不同的方案与患者的契合度,这样的信息可以帮助肿瘤科医生更好地用最新的最好的治疗方案,为患者提供个性化的治疗。

  同时,Watson Genetics从基因维度切入,与前面解决方案一起解决肿瘤治疗。因为肿瘤本质上是一种基因变异导致的恶性疾病,医生们就想能不能通过直接用药物打靶,靶向作用到变异的基因来控制肿瘤。个系统也很简单。拿到一个患者的二代测序结果后,通过分子profiling,在患者所有的变异基因全部找到之后,进行很复杂的pathway分析。Pathway主要通过在几千万篇文献中,学习各种药物靶向、基因变异、蛋白质作用过程等方方面面,构成了很复杂的网络,然后推理,给出相应的靶向药物的治疗推荐。前一阶段有个新闻报道,日本东京大学有一

  个患者得了非常罕见的白血病,然后没有医生没有见过,没有办法确诊,还甚至进行了误诊。借助这样一个系统,很快就找到患者可能得的白血病,同时推荐了一些靶向药物,挽救他的生命。

  Watson先读了很多书,包括300本期刊,200多本教科书,几千万的文献。在其实际系统使用的界面中,来了一个患者之后系统会推荐,每一行是一个治疗方案,绿色的是最好的治疗方案,包括放疗、化疗、手术治疗、药物治疗、各种不同的治疗。同时,每一种治疗方案,系统会给出更多的信息,比如治疗方案,愈后效果,是否有毒性,毒性是什么样的。这些信息并不靠医生手工提前录入,而是由系统自动从几千万份文献中,利用自然语言的理解技术,把这些关键信息抽取出来构造成一个知识库,然后推送到医生面前。其实,很多医院进行肿瘤治疗时,会请很多专家给出自己的治疗意见,包括治疗方案的优缺点。这个系统就相当于一个读了所有的最新文献的专家,把不同的治疗方案包括副作用、不同治疗方案药物之间的相互作用,生成了一本大概有三四十页的报告,提交给医生,帮助医生去做出针对患者最有利的一个治疗方案。

  真实世界证据分析

  真实世界证据分析是一个医学界的词,对应的词叫RCT,双盲随机对照临床实验。目前判

  断一个药或一个治疗方案是否有效,必须要做RCT实验,证明药效或者治疗方法的有效性。一个这样的实验平均要花十年以上的时间,要花10到15亿美金,而且不超过10%的成功率。RCT是一个非常耗时耗力耗钱的方式,真实世界证据就是跟它做对应的。RCT实验一般会组织几百个人,比如五百八百人,分成组去进行实验,要积累数据。同时每天其实生成大量的医疗数据。以中国为例,一年就诊的人次接近70亿人次,相当于是全国人民,每年看五次病,当然有一些老病号。70亿次就诊产生了大量的临床数据,但是这些数据并没有被很好分析,都散落在医院的各个信息科机器上面。这些信息其实可以被用来做真实世界的挖掘,就是利用真实世界的数据,做更好的疾病治疗、预防等。真实世界证据就是真实世界中数据,包括病历数据、医疗保险数据、疾病数据,输入进来,产出各种模型,比如中风病人的再中风预测模型,或心

  梗病人的死亡风险预测模型,或某种药物治疗有效性的模型。这样的模型是通过这样的pipeline得到的。我们发现,第一可以有一个通用的pipeline因为过程重复,包括导入数据,数据清去解决真实世界数据分析的问题,洗和整理,构建患者人群,抽取特征做建模。很多是通用的,比如疾病风险预测分析,患者的相似性分群分析,治疗有效性分析,患者依从性分析。这样的分析的话都可以变成一些可重用的模块,作为一插件在平台上来做模型生成。比如,咖啡机放入数据就会生成咖啡,里面有很多参数要调整你是要喝美式还是拿铁还是摩卡。

  3.医疗机器人

  医疗机器人并不是新话题。但当人工智能与机器人结合,医疗机器人借此步入加速道,应用场景从手术机器人拓展至康复机器人、服务机器人、试验机器人等。据 Markets and Markets估计,从2016年起,全球医疗机器人将保持近17%的年复合增长率,到2020年,市场规模有望达到114亿美元。其中手术机器人仍处于主导地位,占据60%左右的市场份额。以最负盛名的手术机器人“达芬奇”为例,已经完成了超过60万场手术,从心脏瓣膜修复到肿瘤切除均有涉猎。

  另外,除了在这些具体的病理问题的解决上,其它一些医疗问题也可以结合人工智能。比如医疗资源配置,根据病人的访问,优化、预测手术室和床位,这样可以优化医院管理,提升资源使用率,增加收入;药物剂量有效性,通过预测不同类型,剂量的药物对治疗疾病的效果,提升就医效果;患者评价数据,通过识别患者对药物的看法,哪些是正面反馈,哪些是负面反馈,以及如何通过反馈提高药物的质量;预测不同地区对不同药物的需求,根据药物销量数据,不同地区的疾病数据,药店,医院数据等,确定药物的分发策略等。

  1.有效数据的缺乏

  机器学习的特性决定了初期要依靠高质量的数据来进行训练并优化算法,从而保证高精度。因此如何获取有效数据,是人工智能+医疗应用最先需要跨越的障碍。高质量数据意味着数据集足够多,有代表性,更重要的是,数据的标签也必须是非常准确的。关于数据标签,这里有篇文章是介绍一位Nature论文作者撰文质疑AI医疗影像的研究现状。

  从数据的获取端出发,我国的医学影像还处于从传统胶片向电子数据过渡的阶段,大量的影像资料还没有实现电子化和数据化。再加上数据源头多、类型多、结构复杂、标准不统一等特征,导致要获得真正高质量的有效数据,需要花费高昂的成本,这是一个巨大的成本黑洞,单靠一家医院或企业很难解决,需要上升到行业层面予以突破。

  2.技术成熟尚需时间

  美国医疗信息与管理系统学会下属研究机构2016年曾做过一次联合调查:23%的被调查者认为人工智能技术本身的不成熟性,导致其存在一系列风险并承受质疑,是人工智能应用于医疗所遇到的最基础也是最难跨越的障碍。人工智能很多底层技术,仍处于研发阶段,很多问题并没有得到解决。

  例如,在超过100种的癌症中,人工智能技术目前仅能精准识别乳腺癌、宫颈癌、胃癌、肺癌、肝癌等少数病种,大规模突破还需时间。而手术机器人柔性控制模块、传感器等软硬件技术也尚不成熟。

  3.市场认知尚需过

  任何一项产生变革或颠覆性的新技术,其产生、发展和应用必然要经历一个漫长的被市场认可的过程。目前,消费者对人工智能+医疗仍处于远观和存疑的态度。普华永道2017年就人工智能+医疗的应用意愿进行了调查,有近4成的消费者不愿意接受人工智能来看病,即使对人工智能+医疗相对宽容的用户,也仅愿意用人工智能进行常规指数监测、心率监测、健身监测等非治疗环节。

  4.法律伦理的挑战

  人工智能的基础技术和应用仍是一个科技的黑匣子,具体计算过程是无从知晓和预测的,更无法掌控,由此带来的法律、伦理挑战是人工智能应用面临的通用性难题。同样以医疗影像为例,人工智能目前扮演的角色还主要是辅助读者,医生仍需要对影像决策负全部责任。

  随着技术的不断成熟,当人工智能成为主要读者时,监管部门如何认定其资格并进行监管?2017年6月,美国食品药品监督管理局(Food and Drug Administration,简称FDA)批准了Arterys公司的产品Arterys Cardio DL可用于分析心脏核磁共振图像,这是首个被批准可应用于临床的基于云计算和深度学习的分析软件,但主要是帮助医生辅助心脏成像。而如何厘定人工智能应用于临床所需承担的法律责任,以及避免算法偏见、歧视等都是不容回避的挑战。

  5.隐私安全隐患增大

  人工智能时代,大数据价值加速溢出的同时,也加大了数据泄露的安全隐患,个人隐私安全面临前所未有的挑战。

  2017年,安全研究机构Kromtech Security Researchers发现,一家医疗服务机构存储在亚马逊S3上的大约47GB医疗数据意外对公众开放,其中包含315363份PDF文件。据Kromtech Security Researchers估计,这些文件至少涉及15万病人,泄露的内容包括验血结果、姓名和家庭住址等个人信息,以及医生和他们的病例管理笔记等内容。

  ————————————————————————————————

  emmm有时间整理一下深度学习在医疗影像分析上主要用到的一些算法.... ==