年4月15日,英国剑桥大学癌症研究所和MRC癌症研究中心组成的研究团队MarcelGehrung等人在《NatureMedicine》上发表了一篇“Triage-drivendiagnosisofBarrett’sesophagusforearlydetectionofesophagealadenocarcinomausingdeeplearning”的文章。
文中提出了一个深度学习框架作为一种内镜的微创替代方法,来分析Cytosponge-TFF3检测样本,用于检测食管癌的主要前体-Barrett食管。通过对来自两个临床试验的数据进行了分析和独立验证,分析了名患者的张病理切片。利用胃肠病理学家的决策模式来定义8个不同优先级的分类类别,以供人工专家审查。通过在低优先级的类别中使用自动审查取代人工审查,该方法可以减少57%的病理医生工作量,同时匹配有经验的病理医生的诊断性能。
癌症的早期发现可以得到更有效的治疗。早期检测依赖于靶向取样,病理评估仅显示微小的组织变化。病理程序往往涉及费时费力的步骤,可能导致错误和对病人护理产生不利影响。人工智能(AI)已经在诊断任务上取得了优异的性能。然而,理解如何最有效地将这些技术集成到临床工作流程中,并评估它们带来的实际效益仍然是一个挑战。临床决策支持系统的设计需要平衡其性能、工作量减少和潜在的经济效应。完全替换病理学家可能会导致大量的工作负载减少。半自动化方法不会像完全自动化方法那样减少工作量,但是它的性能受益于现有的专家知识和启发。在这里,研究者提出了一种使用深度学习检测Barrett食管(食管腺癌的前体,EAC)的半自动分诊系统。
食道癌是癌症相关死亡的第六大常见原因。患者通常表现为吞咽困难和体重减轻的晚期,EAC两种病理亚型之一的5年总生存率为13%。BE发生在胃食管反流病(GERD)患者中,这是一种消化紊乱,胃酸和胆汁从胃返回食管,经常导致烧心症状。在西方国家,10%-15%的成年人受到GERD的影响。BE的症状特征是肠上皮化生(IM),在这个过程中,位于食管下部的分层鳞状上皮被包含杯状细胞的柱状上皮所取代。BE的常规诊断需要上消化道的内镜检查。
Cytosponge-TFF3是一种非内镜、微创的BE诊断试验。它是一种由可溶胶囊包裹的连有一根绳子的压缩海绵构成的细胞收集装置。这种胶囊被病人吞下后在胃中溶解,释放海绵。利用所附绳取出膨胀海绵,从胃上部、食管和口咽部采集浅表上皮细胞(图1a)。因此,样品的细胞组成以鳞状细胞、胃柱上皮和呼吸上皮以及IM细胞为主。取出后,将设备放置在保存液的容器中,对取样的细胞进行处理,石蜡包埋,苏木精染色。BE的一个关键特征是TFF3存在于产生粘蛋白的杯状细胞中,具有保护黏膜免受损伤,稳定黏液层,促进上皮愈合的作用,可用于鉴定和定量杯状细胞,这是IM的标志。因此,TFF3是BE的关键诊断生物标志物。
本方法第一步是基于与BE的质量控制和诊断相关的不同类型细胞的tile检测。为了建立模型和内部验证,研究中使用了例来自BEST2临床病例对照研究的配对病理和内镜数据的Cytosponge-TFF3患者样本。样本随机分为培训/发展集(n=)、校准集(n=)和内部验证集(n=)。来自BEST3研究的额外独立数据集(n=1,)用于已开发方法的外部验证。
对于质量控制(HE)和诊断(TFF3)任务,训练了几个最先进的网络,并评估了它们在开发数据集上的性能。使用单独的tiles,对胃酸型细胞(HE)和阳性杯状细胞(TFF3)存在的柱状上皮,通过tiles精度和回收率进行分类。使用梯度加权类激活映射(Grad-CAM)生成显着图。这些映射突出显示与模型识别特定类最相关的图像的局部区域。基于HE和TFF3模型生成显著性映射(图2b),在基于HE的模型中,胃柱状上皮类的显著图通过胞核的线性组织和细胞与管腔之间的直线边界突出了胃细胞。对于基于TFF3的模型的阳性类,实验中发现显着图突出显示了含有粘蛋白的杯状细胞,这是IM的高精度特征。除了三个代表性的例子外,通过比较显着图证实了学习特征的模型与病理学家用于识别不同组织类别的模型相似。
根据校准队列中经验丰富的病理学家的特异性确定阈值以上的tile数,将tile级别分类汇总为患者级分类。然后,对内部验证队列进行受试者工作特征(ROC)分析,并结合Cytosponge病理和内镜基本事实(图2c-e)进行匹配。在内部验证集上,病理学家将患者级别的分类与二进制的Cytosponge-TFF3实际情况进行比较。在质量控制方面,VGG-16在HE染色柱状上皮检测中排名最高;在诊断方面,VGG-16在TFF3染色的杯状细胞检测中排名最高(图2d)。CIs是通过自助法导出的。综上所述,在全自动质量控制和诊断方面,与Cytosponge-TFF3病理实际事实相比,VGG-16的性能最高,SqueezeNet的性能最低。
接下来,将患者级别的分类与内部验证集上检测BE的内窥镜基础真实值进行比较。内窥镜活检证实IM。为了计算内部验证队列中全自动方法的敏感性和特异性,研究中使用了校准队列中确定的操作点。VGG-16在从TFF3染色中检测BE患者方面排名最高(图2e)。与有经验的病理学家相比,在内部验证队列中采用全自动方法检测BE的敏感性降低了9.1%。
基于此种情况,本研究中开发了一种分类驱动的半自动化方法,作为上述全自动方法的替代方案。这两种方法都使用相同的患者级聚集作为输入,但它们的输出是不同的。这种全自动的方法试图直接模拟病理评估,通过对BE阳性或阴性患者进行分类。相比之下,分类方法定义了不同的质量和诊断置信类别,以选择有挑战性的患者样本进行人工审查。虽然它不能像完全自动化的方法那样减少工作量,但分类方法使样本分层更加可解释性,并且容易理解。
首先选择了深度学习架构,并根据校准队列上的三个专家观察者确定的阈值,定义了不同质量和诊断置信类的区间。根据病理学家得出结论,设置质量控制的置信级别。然后将这些主观指标编码在一个定量方案中,结果观察到这些置信分类与病理和内镜的真实情况在视觉上一致。
然后,将质量和诊断分类合并为8个优先级不同的分类,以进行人工审查(图4a)。每个类别的相对优先级由经验丰富的病理学家决定。对于样本质量信心低或诊断信心低的病例,应优先进行人类专家评估,而不是对阳性或阴性证据信心高的病例。在内部验证队列中,发现只有13.0%的患者属于高优先级分类,而87.0%的患者属于其他6个分类。通过两种不同的累积替代方案比较发现,明确类别覆盖了验证队列中的大多数患者,而分诊驱动的半自动化复查可以使病理学家专注于模棱两可的病例,而将明确病例留给自动复查,从而节省66%的工作量。最后,在一个独立的测试集中测试了结果的有效性和模拟研究中的外推。发现两者的结果相一致。
基于外部验证的表现,在现实的初级环境中使用分流驱动的方法将会产生以下关键结果。总计1,例患者中有例(57.41%)将被自动复查,而42.59%将不得不手动复查。考虑到该外部验证队列中BE的患病率(7.8%),这与工作量减少的预期值一致。我们的模拟设置为57.2%。与完全人工复查相比,病理学家将多检查19次内窥镜,从而多诊断出6例BE患者。一个病人会得到自动阴性的诊断,即使病理学家在内窥镜检查中认为它是阳性的。
综上所述,本研究提出了一种分类驱动的方法,利用深度学习检测BE(EAC的前体),分析Cytosponge-TFF3测试的样本。该方法结合了病理切片的质量控制和诊断指标,将患者分为8个分类类别,以确定患者样本是否需要手动审查或自动审查是否足够。这种分类方法不仅能够大大减少工作量,匹配有经验的病理学家的敏感性和特异性。通过分诊导向方法,多达66%的病例可以自动复查,同时达到82.5%的敏感性和92.7%的特异性,这一性能略优于由病理学家完全手工复查。
此外,在一个大型随机对照试验的外部验证结果表明,病理医师57.41%的工作量将会减少。同时,该方法在算法设计过程中直接采用由熟悉Cytosponge-TFF3样本的病理学家应用的启发式方法,具有可追溯性和可解释性。对于一个适度大小的数据集,利用现有的基于分类的方法的病理学家决策的启发式是完全自动化分类模型的一个强大的替代方案,它可以很好地推广到一个独立的验证队列。这些结果为嵌入临床工作流程的定制半自动化决策支持系统奠定了基础。