编译
刘晶晶
审稿
周晓平
本文介绍由美国凯斯西储大学生物医学工程系KaustavBera,耶鲁大学医学院病理学系KurtA.Schalper、DavidL.Rimm,纽约大学佩尔穆特癌症中心VamsidharVelcheti以及西储大学生物医学工程系AnantMadabhushi共同发表在naturereviewsclinicaloncology上的研究成果。作者概述了基于AI的方法如何集成到病理学家和肿瘤学家的工作流程中,并讨论了在癌症患者的常规管理中实施此类工具的相关挑战。
1
简介
数字病理学包括使用全玻片扫描仪数字化组织病理学切片的过程,以及使用计算方法分析这些数字化全玻片图像(WSI)。人工智能(AI)是计算机科学的一个分支,它试图利用机器以人类智能相似的方式做出反应。基于机器学习(ML)的方法属于人工智能的一个分支,它从输入的数据中进行机器“学习”,以做出预测。深度学习(DL)是基于神经网络开发的一种特殊的ML方法。随着DL相关的研究团队的不断发现和计算处理能力的提高,DL逐渐应用于各种研究领域,包括数字病理学(如图1)。
图1计算病理学的里程碑
当前肿瘤学家和病理学家面临的挑战:(1)在常规医疗实践中,病理学家虽然有丰富的临床经验,但受自身主观性及视觉感知、数据整合等方面的差异,导致临床诊断不一致和患者护理欠佳等问题;(2)广泛使用无创或微创方法获取诊断样本,降低了样本的大小和质量,加之日益增加的精细诊断的需求,使病理学家的工作更具挑战性;(3)在癌症中,影响细胞信号传递和细胞与其环境相互作用的基因组改变的复杂性可以影响疾病的生物学过程,从而影响对治疗干预的反应。这需要用高度准确的方法同时考虑多种特征对这些变化进行评估。
病理学和肿瘤学中基于AI的图像分析方法由计算机工程师和数据科学家开发和设计,他们开发和应用人工智能工具来完成各种任务,例如帮助提高诊断准确性和识别用于精确肿瘤学的新生物标志物。这些分析方法最终主要由病理学家和肿瘤学家使用。鲁棒且可重复的AI方法能够帮助病理学家和肿瘤学家解决面临的挑战,多项研究结果表明,基于AI的方法与病理学专家的诊断准确率相差无几。
2
主要内容
病理学中的人工智能方法
在数字病理学中,人工智能方法已被应用于各种图像处理和分类任务(如图2),包括围绕对象识别问题(如检测和分割)的低级任务,以及高级任务(如基于病理图像预测疾病诊断和治疗反应)。人工智能应用集中在对病理学家来说耗时的自动化任务上,使他们能够将额外的时间花在高级决策任务上——尤其是那些与具有更多混杂特征的疾病表现相关的任务。此外,数字病理学中的人工智能方法已越来越多地应用于帮助解决肿瘤学家遇到的问题,例如,通过开发预后分析来评估疾病严重程度和结果,以及预测对治疗的反应。
图2数字病理学中人工智能方法的工作流程和总体框架
基于特征工程的机器学习方法
特征工程是利用数据领域的相关知识来创建能够使机器学习(ML)算法达到最佳性能的特征的过程。基于病理学家和肿瘤学家的领域知识设计手工特征创建ML算法,通常针对特定的癌症或组织类型(图3)。作者分别从诊断、预后和药物发现三个方面的应用介绍基于手工设计的特征的ML方法。
图3各种癌症类型的手工特征的视觉表示
诊断应用方面,Osareh等人提出了一个有监督的ML模型,基于乳腺病理学家确定的10个细胞特征,从输入的活检样本图像中区分恶性和良性乳腺肿瘤;作者团队中Lee等人提出了一种新的特征,这种特征更常见于晚期前列腺癌;他们还提出了与肿瘤和肿瘤相关良性区域的核形状、方向和结构无序有关的新的手工设计的特征。
预后应用方面,Saltz等人描述了使用卷积神经网络(CNN)结合病理学家的反馈,自动检测肿瘤浸润淋巴细胞(TILs)在癌症基因组图谱组织切片图像中的空间组织,并发现这一特征可预测13种不同癌症亚型的预后;Yuan等人提出了一种建模和分析三阴性乳腺癌WSIs中淋巴细胞在肿瘤细胞中的空间分布的方法,利用这个模型可以识别出三种不同的淋巴细胞类别。基于手工特征的ML方法主要集中于分析肿瘤内上皮来源的细胞,但尝试识别肿瘤间质内的预后模式也逐渐兴起。
药物发现和开发应用方面,Wang等人开发了一种方法,根据疾病复发风险,利用核和核周特征(形状、方向和空间排列)将仅接受手术治疗的早期非小细胞肺癌(NSCLC)患者分为两组,高风险组的患者更可能受益于辅助化疗。基于手工设计特征的ML方法也专注于对特定治疗药物的治疗反应,包括靶向药物、化疗药物等。
基于深度神经网络的方法
深度学习(DL)方法广泛应用于各种领域,并开始和数字病理学方向融合。DL方法不依赖特征工程,可以直接从数据中学习表征。相比较ML方法,DL方法易用性更强且准确率更高。DL方法利用具有相关类别标签的训练集进行学习,然后对新的输入数据进行预测。作者介绍了几种用于分析病理图像的深度学习模型,如卷积神经网络(CNN)、全卷积网络(FCN)、循环神经网络(RNN)以及生成对抗网络(GAN)。
卷积神经网络(CNN):它是一种包含多层的深度前馈神经网络,CNN在卷积层中使用过滤器进行卷积运算,从图像中学习和提取特征。CNN已广泛应用于图像检测和图像分割,以识别和量化细胞、组织学特征。在诊断应用方面,Araujo等人使用CNN将疑似乳腺癌标本的WSI图像分类为非恶性组织、良性病变、原位癌或浸润性癌;在预后应用方面,作者团队使用CNN和全连接网络自动检测ER阳性乳腺癌标本WSIs中的有丝分裂图像,发现在乳腺癌疾病复发风险不同的人群中,有丝分裂图像分布差异显著(P=0.)。
全卷积网络(FCNs):与CNN相比,FCNs没有全连接层,所有层都是卷积层。CNN一般用作图像级的分类,通过聚合局部信息进行全局预测,而FCNs可对图像进行像素级的分类,可以接受任意尺寸的输入图像,其性能可能优于CNN。Rodner等人使用FCN从头颈癌标本的组织病理学图像中区分癌变区域与非恶性上皮细胞。作者团队使用FCN在名患者的张图像进行训练,在名患者中检测WSI上的浸润性乳腺癌区域,与专业乳腺病理学家的评估相比,检测准确度为71%。
循环神经网络(RNN):RNN是一类用于处理序列数据的神经网络。长短期记忆(LSTM)网络是RNN的一种,通过“遗忘门”来增强网络能力。Bychkov等人利用结直肠癌TMA标本的HE染色图像,创建LSTM和CNN相结合的网络来预测疾病复发风险,该模型的预测性能高于单纯基于组织学分级模型的预测性能,也高于三名病理学专家认可的视觉风险评分模型。分析不同时间点获得的组织图像是基于RNN的人工智能方法的一个重要应用。
生成对抗网络(GAN):GAN方法在数字病理学领域中呈现出越来越大的潜力,包括特征分割和染色转移。GAN是由生成网络和判别网络构成的一个动态“博弈过程”,其生成网络的目标是尽量生成真实的图片去欺骗判别网络,而判别网络的目标是尽量把生成网络生成的图片和真实的图片分别开来。Gadermayr等人使用GAN从切除的小鼠肾脏的肾脏病理标本图像中分割出肾小球;Xu等人提出了一种新的GAN方法,将WSIs的HE染色转化为基于细胞角蛋白的虚拟免疫组化染色,这种方法可能避免了基于免疫组化的组织检测所带来的不良影响。
整合病理学和肿瘤学的人工智能方法
数字病理学中成功应用的人工智能方法需要紧密结合病理学家与肿瘤学家的工作(图4)。病理学家通过为计算和数据科学家提供领域特定知识发挥重要作用。病理学家指导相关人员对病理图像的特定属性进行检查,并通过注释和分割细胞、组织类型、生物结构或感兴趣的区域来帮助训练算法。病理学家还能提供用于比较ML算法的诊断参考或金标准。肿瘤学家面临的一个主要困境是在决定是否为个别患者提供特定治疗时,缺乏共识。除了作为决策支持系统,人工智能方法可作为以患者为中心精确诊疗方法的辅助工具。AI技术除了使管理计划标准化,还可帮助肿瘤学家处理当前基于遗传或基于组织的生物标志物的伴随诊断分析的某些问题。未来精准医学应用的伴随诊断可能涉及肿瘤形态学和分子属性的组合。
图4人工智能和机器学习方法作为病理学家和肿瘤学家的辅助工具
人工智能方法在临床应用中面临的挑战
1.监管障碍:采用AI方法进行数字病理的关键问题之一是怎样获得临床中监管机构的批准。在多数国家,审批的关键原则是要求“解释方法如何工作,这对于基于DL的人工智能方法至关重要,因为它们被认为是一个“黑盒子”,缺乏可解释性。
2.数据质量:AI方法的性能主要取决于输入数据的数量和质量。用于训练人工智能算法的数据需要特殊处理,具有最大信噪比,并尽可能的准确和全面,以达最大的预测性能。这需要病理学家创建准确、手工注释的参考数据集,以便对人工智能算法的性能进行标准化评估。
3.可解释性:尽管深度神经网络具有较高的准确性和易用性,但其缺乏可解释性,这阻碍深度神经网络在临床上的应用。目前一些研究旨在利用现有的方法(如监督ML模型)为DL方法提供生物可解释性。在过去的几年里,DL技术和基于特征工程的ML技术的集成方法开始受到