版权
©2021年作者(年代)。
白石登出版集团有限公司出版beoplay app苹果系统下载保留所有权利。
人工智能在大肠癌早期检测中的应用:对其优点和错误认识的综述
Michelle Viscaino,Javier Torres Bustos,PabloMuñoz,Cecilia Auat Cheein,Fernando Auat Cheein
米歇尔·维斯凯诺,哈维尔·托雷斯·布斯托斯, 费德里科圣玛丽亚技术大学电子工程系,智利瓦尔帕索2340000
巴勃罗·穆尼奥斯, 智利大学医院诊所,智利圣地亚哥8380456
塞西莉亚Auat Cheein, 圣地亚哥·埃斯特罗国立大学医学院,阿根廷圣地亚哥·埃斯特罗4200
费尔南多Auat Cheein, 圣达菲大学电子工程系Técnica Santa María,智利瓦尔帕莱索2340000
作者的贡献 : visaino M进行了大部分的写作,并准备了数据和表格;托雷斯·布斯托斯·J进行了写作;Muñoz P为论文撰写提供医疗投入;Auat Cheein C进行了撰写,并对手稿的医学内容进行了关键的修改;Auat Cheein F设计了文章的大纲、编辑和审核最终版本,并管理了资金;所有作者阅读并批准了最终的手稿。
支持的
智利国家研究和发展署(ANID) , 不。
FB0008 ;
和CONICYT-PCHA / Doctorado Nacional , 不。
2018 - 21181420 .
利益冲突声明 作者否认有任何利益冲突。
相应的作者 : Fernando Auat Cheein,博士,副教授,大学电子工程系Técnica Federico Santa María, Av. España 1680,瓦尔帕莱索2340000,智利。
fernando.auat@usm.cl
收到: 2021年2月28日
同行评议开始 : 2021年2月28日
第一个决定 : 2021年3月27日
修改后: 2021年4月26日
接受: 2021年9月14日
文章在新闻 2021年9月14日
网上发表: 2021年10月14日
介绍
结直肠癌是一种常见的恶性肿瘤。2020年,它在全球肿瘤中排名第三,发病率为1931590例,占肿瘤的10%。但是,在死亡率方面,它在同一年排在肺癌之后,因为男性人口的粗死亡率为每10万居民12.0人[1 ]。
尽管CRC仍然是十大最常见的癌症之一,但在一项回顾性描述中观察到,在全球水平上,2000年至2019年期间,它在高收入国家的排名稳定,在肿瘤致死性方面保持第二位。但是,在其余国家,它逐渐增加;因此,2019年,CRC是中上收入国家癌症死亡的第3大原因,中低收入国家癌症死亡的第4大原因,以及第5大原因th 收入低国家的主要原因[2 ]。预计到2035年,在儿童权利死亡率保持稳定的国家,儿童权利死亡率将下降,原因是实施了正在实施的早期检测方案,人民积极参与,并优先开展这方面的教育。然而,如果不及时从战略上解决这些指标,预计到2035年,低收入国家的死亡率将继续上升,主要原因是诊断较晚和获得治疗的机会有限[3. ]。
一般人群患结直肠癌的风险并不统一,它与结直肠癌家族史、生活方式和饮食习惯等因素有关,最重要的是,息肉的存在,无论是孤立的还是与遗传性息肉病综合征相关的[4 ]。然后可以通过改变饮食和生活方式,以及早期检测和及时治疗来防止CRC。各种研究表明,筛查试验有助于在早期阶段检测前体病变。这增加了随后的消除,促进了CRC发病率和死亡率的降低[5 - 7 ]。
结肠镜检查是诊断大肠(结肠)和直肠疾病的金标准程序。世界胃肠病学组织确定,结肠镜检测息肉和结肠癌的敏感性和特异性均为95%[4 ]。美国预防服务工作组(United States Preventive Services Task Force)确定结肠镜检查对于检测10毫米及以上的腺瘤的敏感性在89%至98%之间。对于6毫米及以上的腺瘤,灵敏度为75%至93%,特异性为89%[8 ],在这种情况下,建议进行CRC的筛查试验。此外,在2008年美国癌症协会、美国多社会工作组和美国放射学会的联合工作中,结肠镜检查被强烈推荐为一种筛查试验,旨在检测早期癌症和腺瘤性息肉,如果资源可用,患者愿意接受浸润性检查[5 ]。同样,美国国家综合癌症网推荐并推广结肠镜检查用于检测腺瘤性息肉和早期结直肠癌[9 ]。值得注意的是结肠镜检查从根本上依赖于医生的观察。近几十年来,技术已被纳入检查程序,称为计算机辅助系统。
自1966年以来,已经提出,开发,临床使用,特别是在胸部和乳房成像以及癌症风险评估中进行了计算机辅助检测/诊断系统(CADE / CADX),以及癌症风险评估[10 ]。计算资源和医学成像设备的发展使CADe/CADx系统能够支持其他领域的任务,如内窥镜检查[11 ]。CADe的目的是发现或定位异常或可疑区域,在降低假阴性率的同时提高检测率。此外,CADx还提供了关于基于图像信息的疾病评估的第二种客观意见。在这两个系统的早期阶段,它们的算法主要基于领域专家设计的特征提取方法[12 ]。然而,疾病的广泛发展和病例的多变性已经使这些方法过时,并为新的和改进的方法打开了研究的大门。特别是,人工智能(AI)在特征提取、分类、检测、区域分割等人脸任务中,提供了在准确性、敏感性、特异性等方面都能达到高水平的工具和算法。
本研究重点关注AI在胃肠病学的主要贡献,特别是通过息肉的检测和分类,对CRC的早期发现。我们专注于那些提高内镜检查性能的工作,它允许直接显示结肠和直肠粘膜的现有病变。随着人工智能的大量应用和人们对人工智能相关话题的兴趣日益浓厚,一些误解被发现了,值得分析。
人工智能的世界
自1956年首次使用人工智能一词以来,它一直是一个蓬勃发展的领域,在多个领域都有相关应用,包括医学[10 ]。人工智能是指让计算机系统执行通常需要人类技能的任务的技术。人工智能的领域很广,包括机器人、计算机视觉、自然语言处理、机器学习等不同的领域,如图所示1 .通常,这些领域会重叠以交付更高级的特性和功能。在医学领域,机器人设备越来越多地用于微创外科手术,如机器人辅助CRC患者手术[13 ]。自然语言处理是另一个关键的人工智能领域,用于让机器阅读、理解和解释人类语言。在CRC治疗中,自然语言处理对于从扫描结肠镜检查和病理报告中提取相关的临床信息非常有用,否则必须手工提取[14 ]。计算机视觉和图像处理也有助于结肠镜检查,提高病变组织的可视化[15 ]。然而,在所有人工智能领域中,机器学习在医学的三个领域中应用最广泛:早期检测和诊断、治疗、预后预测和预后评估[16 ]。胃肠道内镜在这三个领域都有进步,但在息肉的检测和分类方面有明显的趋势(见Wang)等 [11 ), Nogueira-Rodriguez等 [17 ]及其参考文献)。
图1人工智能是一系列领域的组合,旨在改善涉及人类认知功能的任务,如学习、推理和自我纠正。
以下小节将重点分析内镜测试中最突出的基于人工智能的工作,而不忽略最常用的机器学习算法(包括深度神经网络)和评估指标的简要回顾。
机器学习
机器学习,AI的子集是指从提供的输入数据中学习的一组计算机算法,通过训练过程调整模型,并通过使用培训的模型来执行新颖情况的预测[18 ]。根据学习策略的类型,机器学习算法可以分为两类:监督和无监督的学习。在监督学习中,必须先前可用包含具有正确响应(目标)的输入数据的培训集。该模型使用训练集接受培训,直到它概括为正确响应所有可能的输入。在没有监督的学习的情况下,未提供正确的答案,并且模型尝试将数据分组为识别此类数据之间相似性的类别[19 ,20. ]。在医学中,监督学习是最常用的策略,因为目标是通过模仿医生或健康专业人士来预测已知结果。
在机器学习上下文中,医疗保健数据可分为结构化和非结构化。成像、遗传数据和电生理数据是结构化数据的一些例子,而包含大量叙述文本的体检记录或临床实验室结果是非结构化数据[19 ]。医学中的主要数字数据源是不同医学成像技术的发展和改进所产生的图像(如。 ,电脑断层摄影术、核磁共振成像、超音波、x光及内窥镜检查)[10 ]。
在胃肠病学中,大多数计算机辅助诊断/检测系统使用图像或视频,使机器学习技术能够提高其结果。在早期的工作中,CADe/x系统结合了特征提取方法和经典的机器学习技术,如随机森林、决策树和支持向量机[21 - 23 ]。最近的研究表明,深度学习算法的应用,如卷积神经网络(CNNs),部分是由于系统的高性能和低延迟[20. ]。
在选择一种机器学习算法而不是另一种算法时,应该通过分析可用数据以及用它执行的任务来指导。表格1 总结了近5年来最先进的息肉检测和/或分类算法的主要特点。根据Scopus和PubMed数据库在医学领域的应用,我们将分析范围缩小到四种最常用的方法,即支持向量机、随机森林、决策树和深度神经网络。即使数据具有高维数,支持向量机和随机森林也能表现出高性能。然而,当数据库较大时,不推荐使用支持向量机,因为它们增加了训练和推理时间,而没有提高性能[24 ]。相反,随机森林在处理大型数据库时表现出高性能[25 ]。深度神经网络在几乎所有标准上都优于经典机器学习算法,但需要大量可能无法获得的标记数据,或者获取和标记过程可能非常昂贵或耗时。
表1 不同类型的机器学习方法在息肉检测和分类研究中的比较。
特征
支持向量机
随机森林
决策树
深层神经网络
上下文
Ref。
高维度数据
高的
高的
温和的
高的
性能
沈等 [12 ];格拉汉姆·古德费勒等 [26 ]
重叠类
低
低
低
高的
不平衡数据集
温和的
高的
低
温和的
非线性数据
温和的
高的
温和的
高的
更大的数据集
温和的1
高的1
低
高的
离群值
温和的
温和的
低
高的
鲁棒性
沈等 [12 ];yu.等 [20. ]
过度学习
温和的
高的
低
高的
缺失值的处理
可怜的
好
好
好
再现性
高的
高的
高的
温和的
复杂性
yu.等 [20. ]
可解释性
温和的
温和的
高的
低
机器学习算法的评价指标
评估指标与任务(如。 如分类、检测、定位和分割),由机器学习模型执行。在胃肠病学的应用中,如息肉自动检测或分类,评估指标可以考虑不同的级别:视频序列、图像或区域(像素级)。
表格2 总结了用于机器学习模型性能评估的常用指标的术语和公式。特别是在结肠镜检查等人工智能应用领域。一些术语是理解用于自动息肉检测和/或分类的算法评估指标的关键。有两个明确的病例:有息肉的图像(阳性病例)和没有息肉的图像(阴性病例)。在这两种情况下,一些作者[15 ,27 ,28 当算法输出找到息肉的正确区域(检测)或将图像标记为息肉(分类)时,定义真正(TP)。在检测的情况下,每个息肉只考虑一个TP,避免过度检测。任何在息肉区域以外的检测或分类为阳性病例或无息肉的图像都被认为是假阳性。在息肉图像的检测或分类中没有正输出被认为是假阴性。如果算法在没有息肉的图像中没有提供任何正输出,则认为它是真正的负输出。息肉阳性检测是一种常见的评估指标,可作为真实阳性率计算(见表)2 )或基于多边形的分析,通过定义正框架级预测的阈值[29 ]。
表2 在检测、分割和分类任务中发现的最常见的评估指标。
术语
象征
描述
积极的
P
数据中真实阳性病例的数量
负
N
数据中真实否定案例的数量
真阳性
TP
正确分类/发现的阳性病例数
真正的负
TN
分类/发现正确的阴性病例数
假阳性
《外交政策》
实例被错误地分类/检测为阳性
假阴性
FN
实例被错误地分类/检测为阴性
曲线下的面积
AUC
ROC图下的面积
术语
任务
配方
精度
C, D, S
(tp + tn)/(tp + tn + fn + fp)
精密PPV /
C, D, S
TP / (TP + FP)
灵敏度/召回/ TPR
C, D, S
TP / (TP + FN)
特异性/ TNR
C, D, S
TN / (TN + FP)
玻璃钢
C, D, S
FP / (TN + FP)
FNR
C, D, S
FN / (TP + FN)
f1-score /骰子指数
C, D, S
2∙(精度∙召回)/(精度+召回)
f2-score
C, D, S
4∙(精度∙召回)/(4∙精度+召回)
借据/ Jaccard指数
D,年代
(目标∩预测)/(目标∪预测)
AAC格式
D,年代
(被检测区域∩真实面积)/(真实面积)
使用最广泛的评价指标是准确性(见表中的公式)2 ).它在每个类的样本数量相等的数据集(即。 ,均衡数据集),但不建议对不均衡数据集使用[30. ]。敏感性、特异性和阳性预测值等评价指标不依赖于类别分布;因此,它们不会因不平衡的数据集而产生偏差[31 ]。评估指标的使用还取决于要执行的任务。在检测任务中,Jaccard索引的f1-score(或DICE索引)和f2-score等指标被广泛使用[17 ]。我们在下面分析每个评价指标。
Accuracy表示算法在正确分类/检测样本数量与总样本数量比较时的整体有效性[17 ]。
精度(阳性预测值)表示预测阳性病例中实际阳性病例的比例[17 ]。
灵敏度(召回率或真实阳性率)衡量算法正确识别阳性病例的能力[17 ]。
特异性(真阴性率)衡量算法正确识别阴性病例的能力[17 ]。
假阳性率(FPR)表示数据中阴性病例被错误识别为阳性病例的比例。在统计学上,FPR相当于第一类错误[26 ]。
FNR表示数据中被错误识别为阴性病例的阳性病例的比例。在统计学中,FPR相当于第II类误差[26 ]。
无论算法是执行分割任务还是检测任务,DICE指数(f1-score)决定了两个不同区域之间的相似性。在分类中,f1分值是一种衡量准确性和回忆率之间权衡的指标[32 ]。
f2分值是一个衡量精确和回忆之间权衡的指标,但它降低了精确的重要性,增加了回忆的重要性[17 ]。
Jaccard index (IoU)是一种主要用于检测/分割算法的度量指标,用于量化目标区域与算法预测区域之间的重叠[32 ]。
标注区域覆盖是一种评估指标,主要用于检测或分割任务。表示算法检测/分割的实际面积的比例[33 ]。
曲线下面积(AUC)是由接收机工作特性曲线得到的与灵敏度有关的度量值vs 二元分类器的特异性[31 ]。最好的分类器是AUC最接近1的分类器。
提高结肠镜检查结果通过 人工智能
通过柔性管(内窥镜)进行结肠镜检查勘探,该柔性管(内窥镜)在尖端上包含一个微小的摄像机。相机允许医生通过在数字屏幕上显示图像来看看整个冒号的内部,如图所示2 .在这个过程中,医生检测(或不检测)结肠和息肉上的病变,然后,根据息肉的形状、颜色和质地,决定是否切除它[15 ]。结肠镜检查的结果取决于几个因素。一方面,这个过程本质上依赖于所使用的技术,如相机分辨率、屏幕尺寸和分辨率、帧率、处理模糊等问题的能力[15 ]。另一方面,结果可能会受到医生认知能力的影响(如。 如疲劳、疲劳或注意力集中)。[34 ]。其他因素,如肠道准备和结肠探查的百分比,也会影响探查的结果[35 ]。
图2传统和基于AI的计算机辅助系统对结肠镜检查的比较。
传统结肠镜在发现大于10mm的息肉时已经被证明是成功的,医生在检查时很容易发现息肉。然而,息肉检测的漏检率随着体积较小和/或扁平的息肉而增加[36 ]。有临床和技术两方面的努力来改善结肠镜检查的结果。例如,通过培训和实践不断提高医生的技能[37 ],以及图像/视频采集设备的改进,结合临床应用的CADx/e系统的开发已作了报道。另一种在内窥镜检查中使粘膜表面的细微细节更清晰可见(显示小或轻微病变)的技术是色素内窥镜(也称为色素内窥镜或色素结肠镜)[38 ]。
最初,染色体检查包括在粘膜上喷射对比染料,目的是概述粘膜形态(基于染料的染色镜DCE)[39 ]。最常用的对比染料是靛蓝胭脂红,其浓度从0.2%到2%不等[38 ]。DCE已经被证明是一个有用的工具,内窥镜医师发现和更准确地描述病变。布朗提出的一项研究等 [38 ]发现小息肉的检出率比DCE提高约90%。对2727例患者进行了这样的分析,结果显示,当使用色镜检查时,对可能发展成癌症的小息肉的检测增加了30%。虽然DCE技术使用简单和安全,但它是劳动密集型和耗时的,结果高度依赖肠道准备[38 ,39 ]。近年来,随着电子技术的引入和技术的进步,彩色内窥镜技术进入了一个新的时代,即虚拟彩色内窥镜技术。VCE包括光学成像前处理技术,如奥林巴斯的窄带成像(NBI)和自荧光成像,以及后处理技术,如宾得的i-SCAN和Fujinon的智能色内窥镜[15 ]。在所有VCE技术中,NBI最常用于评估胃肠疾病[40 ]。这种预处理技术使用特定波长的光(绿色- 540 nm和蓝色-415 nm)来增强粘膜表面的细节。虽然VCE技术如NBI可以检测到小的或扁平的息肉,但它们也存在一些缺陷,如观察者间和观察者内的变异性[41 ]。这些缺点指的是专业技能、分心程度或压力。然而,CADx/e系统的使用可能会提高过程中的标准化,也许最重要的是,更广泛地为该领域的非专家所采用[41 ]。
在这种背景下,CADx/e系统的新发展集中在帮助检测和/或定位息肉和分类不同类型的息肉的系统上,这两项基本任务都有助于临床医生在CRC诊断的各个阶段。人工智能已经成为两个分化良好的任务的强大工具:息肉检测(包括定位和分割)和息肉分类。通过在参与结肠镜检查的CADx/e系统中包含基于人工智能的算法,他们可以在给定的视频帧中仅使用白光预测是否有一个(或多个)息肉,而无需借助先进的内窥镜成像模式。如果也是为了定位息肉,则算法预测息肉在图像中的位置,如图所示2 .如果医生需要更精细的分析,分割工具可以在图像的像素级分离息肉区域。一旦发现息肉,息肉分类的目的是对息肉的类型进行分类。后者尤其重要,因为它允许临床医生根据息肉是良性的、癌前的还是恶性的来决定是否切除息肉。目前,为了确认息肉是否是恶性的,怀疑的息肉必须被切除,然后必须进行病理检查。然而,人工智能在未来有望帮助临床医生鉴别息肉。
结直肠息肉解剖病理分类为腺瘤型、增生性、锯齿型、炎性、错构瘤型、幼年型,由于其发病率低(10%-20%),后者在术语上被合成为杂项[42 ]。腺瘤性息肉最常见(60%-70%)。根据其组织学特征,它们可以是管状的,长柔毛的,或管状长柔毛的。它们可以是不同程度的发育不良,这是诊断或推定CRC的因素之一[8 ,42 ]。增生性息肉的患病率在10%到30%之间。虽然通常不是肿瘤性的,但有一种锯齿状息肉,无蒂锯齿状腺瘤,被认为是CRC的前体病变,通过锯齿状癌变途径[8 ,42 ,43 ]。
大肠息肉人工智能检测与分类研究进展
结肠镜视频中息肉的自动检测,包括分类和分割,在过去的二十年中一直是一个活跃的研究课题。在分析了文献中报告的方法后,有三种定义良好的方法:手工制作、基于特征的机器学习和端到端学习方法。下面将更详细地讨论每种方法。在分析的最后,我们总结了表中的工作3. ,显示每一项的筛查试验、成像方式和作用。
表3 综述了人工智能在息肉自动检测、分类和分割中的应用。
研究
筛选试验
成像模式
数据类型
基于ai算法
贡献
Acc
森
Spe
威默等 [46 ]
结肠镜检查
西城,NBI
图片
再邻居
息肉分类:非肿瘤性、肿瘤性
80%
-
-
Tajbakhsh等 [22 ]
结肠镜检查
王
图片
决策树;随机森林
自动检测息肉
-
88%
-
胡等 [21 ]
CT结肠镜
灰度
图片
随机森林
息肉分类:非肿瘤性、肿瘤性
-
-
-
张等 [50 ]
结肠镜检查
西城,NBI
图片
CNN:Caffet.
息肉的检测和分类:良恶性
86%
88%
-
胫骨等 [23 ]
结肠镜检查
王
图片
支持向量机
整体图像分类:从非息肉到息肉
96%
96%
96%
Sanchez-Gonzalez等 [32 ]
结肠镜检查
王
图片
随机森林;有线电视新闻网:Bayesnet
息肉分割
97%
76%
99%
棕褐色等 [52 ]
CT结肠镜
灰度
图片
定制CNN.
息肉分型:腺瘤或腺癌
87%
90%
71%
Fonolla等 [51 ]
结肠镜检查
王,NBI LCI
图片
有线电视新闻网:EfficientNet
息肉分型:从良性到恶性前
95%
96%
93%
黄等 [46 ]
结肠镜检查
王
图片
定制CNN.
息肉检测与分割
-
-
-
公园等 [53 ]
结肠镜检查
王
图片
定制CNN.
整体图像分类:正常、腺瘤、腺癌
94%
~ 94%
-
Viscaino等 [54 ]
结肠镜检查
灰度
图片
支持向量机;决定treesk-nearest邻居;随机森林
整个图像分类:息肉和非息肉
97%
98%
96%
手工制作的方法
手工方法是指利用低级图像处理技术来获取候选多边形边界的方法。这种方法认为息肉是一个突出的表面,它的边界用强度谷检测[37 ),黑森过滤器(44 ,或Hough变换[45 ]。
特征的机器学习方法
基于特征的方法包含了第一个机器学习时代:设计一个特征提取器,然后训练一个分类器来预测给定的类(如。 ,息肉或非息肉)。在早期的工作中,Wimmer利用小波子带信息利用纹理描述子提供图像中含有息肉区域的相关特征等 [46 , Haralick的共现矩阵等 [21 ,或Mamanov工作中的高斯核低通滤波等 [47 ]。其他特征,如形状、颜色和边缘几何,也被用于创建更健壮的检测系统,包括polyp分割[32 ]。Glasmachers [33 提出了一种CAD系统,该系统组合基于上下文的图像信息以删除非息肉信息和形状特征以可靠地定位息肉。
在使用纹理、颜色和/或形状描述符生成特征向量后,需要一个分类器来预测结肠镜图像中是否存在息肉,区分不同类型的息肉,或者在图像上描述的区域是否为息肉(定位)。最常用的分类器是k-nearest neighbors [46 ]决策树[22 ),随机森林22 ,32 ,支持向量机[23 ]。
端到端学习方法
端到端(E2E)学习方法是指训练一个由单一模型(一般为深度神经网络)表示的学习系统[33 ]。随着技术的发展和计算能力的提高,卷积神经网络作为CADx/e系统的关键部分的使用在自动息肉检测中越来越频繁[48 ]及/或polyp分类任务[49 ]。端到端加密方法的优势在于可以设计更复杂的多任务系统:检测息肉,然后确定所检测的息肉是增生性还是腺瘤性[50 ]。有关息肉是否恶性的信息将有助于临床医生作出更好的临床决定(是否切除息肉)[51 ]。
结肠镜检查还有其他替代方案;结肠腔或无线胶囊内窥镜检查也用作检测息肉的筛选技术。两种替代方案较少侵入性,并且由于结肠镜检查而言,患者并不呈现穿孔的风险。基于AI的算法也被用来增强分析通过 CT结肠镜。特别是在图像中使用灰度信息(在Tan的工作中使用灰度共生矩阵)等 [52 或胡适作品中的肌理信息等 [21 [])联合CNN已用于息肉的鉴别:腺瘤与腺癌[53 ,非肿瘤性息肉[21 ,或有息肉和无息肉的图像[54 ]。
Miccai 2015息肉检测挑战赛
MICCAI提出了生物医学图像分析领域发布的新算法的通用验证和评估框架(Bernal等 [15 ]及其参考文献)。每年MICCAI都会发起国际竞赛(挑战),允许在公开发布的数据集上对算法进行基准测试,并为讨论验证策略提供基础[22 ]。2015年,MICCAI发起了自动息肉子挑战,代表了该领域的重大进展。作为这次竞赛的结果,三个大型内窥镜图像数据库被公布,为新算法建立了一个基准[22 ,37 ,55 ]。
结肠镜检查的数据集
为了成功地训练经典的机器学习模型,有必要拥有合理规模的数据库[22 ]。然而,深度学习模型的训练需要大型数据库,因为数据量与网络性能有关。计算机科学中使用的最著名的公共数据库是ImageNet[56 ,拥有超过1400万张手工注释的自然图像,涵盖20000个类别,或微软的COCO[57 ,拥有超过250000张图片。在使用这些数据库预先训练的深度神经网络进行分类、目标检测和定位任务时,最新的报告的准确率超过90%。在医学领域,创建大型数据库是一项挑战,因为需要数据和专业注释的基本事实。在结肠镜检查方面,一些公开可用的息肉检测和分类数据集在过去几年已经发布。特别是,诸如2015年MICCA分挑战等努力促使不同团体创建并提供表中总结的数据库4 .
数据集
一年
描述
数据类型
地面实况
CVC-ColonDB [29 ,58 ]
2012
来自15个视频的380个连续WL图像
图像(574 × 500像素)
二元掩模来定位息肉
CVC-PolypHD [58 ,59 ]
2012
56 WL图像
图像(1920 × 1080像素)
二元掩模来定位息肉
ETIS-Larib [55 ]
2014
来自34个视频序列(44个不同息肉)的196张WL图像
图片(1125 × 966)
二元掩模来定位息肉
CVC-ClinicDB [37 ]
2015
来自31个视频序列的612张连续的WL图像(31个不同的息肉)
图像(388 × 284像素)
二元掩模来定位息肉
ASU-Mayo [22 ]
2016
38段短视频序列(NBI, WL)
视频(SD和HD视频)
20个训练视频的二进制掩码
结肠镜检查数据集(49 ]
2016
76短视频序列(NBI, WL)
视频
标记:增生性、腺瘤、锯齿状
Kvasir-SEG [60 ]
2017
1000张息肉图像
图片
二元掩模来定位息肉
CVC-ClinicVideoDB [61 ]
2017
18序列
视频(SD视频)
二元掩模来定位息肉
CP-CHILD-A, CP-CHILD-B [62 ]
2020
10000张图片
图像(256 × 256)
标签:息肉和非息肉
用于自动息肉检测的三个注释数据集在科学界非常流行:CVC-ClinicDB[37 ], ETIS-Larib [55 ,以及ASU-Mayo诊所结肠镜检查视频[22 ]。CVC-ClinicDB和ETIS-Larib数据集都是由带注释的框架组成的,而ASU-Mayo诊所数据集是由38个完整的带注释的视频组成,选择这些视频来显示结镜检查过程中的最大变化。所有公共数据库汇总于表中4 ,以及他们的特点。
误解在人工智能
基于深度学习的人工智能模型为医学图像分析提供了有前景的结果。然而,对可用数据及其局限性的透彻理解,以及对适当培训、测试和验证子集的熟练管理,都需要成功地负责地培训这些模型,并在临床设置中使用它们,如。 ,作为诊断支持工具。以下是一些最常见的误解。
不平衡数据集
在医学中,获得用于创建数据集的样本可能是耗时和昂贵的过程[15 ]。当样本从侵入性程序如结肠镜检查中获得时,这就变得更加复杂。另一个重要方面是,由于数据稀缺性(如。 例如,由于某种疾病的发病率较低),数据就可能发生内在的不平衡。因此,可用的结肠镜数据集通常不包含每个类相同数量的样本(也称为不平衡数据集)[29 ,63 ,64 ]。如果深度学习模型在这样的数据集上进行训练,其结果将呈现出对少数群体表现出偏见的高风险,在极端情况下,甚至完全忽略这种偏见。
此外,在研究深度学习模型的性能指标时需要考虑数据集的结构,如准确率和/或错误率,这是评价分类结果时最常用的指标。然而,当使用不平衡的数据集时,两者都是不够的,因为少数阶层对这些指标的相对贡献是微不足道的[30. ]。最佳实践是意识到每个度量的局限性,并使用一组补充度量来评估算法的性能(见表)2 ).
为本质不平衡的问题管理平衡数据集所需的时间和精力促使研究人员开发技术,使人工智能模型能够在不平衡数据集上成功训练[30. ]。目前,提出的方法可以分为数据级技术和算法级方法,它们可以组合成混合方法。
数据级技术旨在通过修改可用数据集中的类分布来降低不平衡的程度。一方面,欠采样方法自愿丢弃大多数类的数据,减少了训练模型可用的信息总量。不足抽样的简单方法是随机不足抽样,它抛弃了大多数类别的随机样本。尽管如此,有价值的信息可能会在这个过程中丢失。智能的欠采样方法使用更详细的标准来选择移除候选人,例如多数群体中每个类别内的冗余,称为单边选择[65 ,或者它们与少数样本的距离,也就是所谓的“近似误差算法”,就像《马尼》中提出的几种替代算法一样等 [66 ]。另一方面,过度抽样方法人为地增加了少数群体中可用数据的数量。一种技术,随机过采样(ROS),它从少数类中随机复制样本,是过采样的幼稚方法,已知会导致过拟合[67 ]。该模型记忆特定的训练样本,而不是学习对应类的潜在特征,因此无法推广到新的数据[26 ]。已经提出了几种方法来减少过采样时的过拟合,如Chawla中引入的合成少数过采样技术等 [68 及其变体“汉”等 [69 ),乔等 [70 ,或Jo中提出的基于聚类的过采样方法等 [70 ]。
算法级方法包括成本敏感的学习算法[71 ,它对每个多数阶级进行惩罚,增加少数阶级的重要性,以及调整决策过程,从而改变决策门槛,从而减少对少数阶级的偏见。
相关数据
在检查性能指标时要考虑的另一个数据集结构方面是数据集分割之间的相关性(最常见的是训练、测试和验证)[26 ]。我们认为分析从记录的结肠镜检查中获得的图像的任务是将检测到的结直肠息肉分为恶性或良性。如果训练和验证数据集分割包含来自同一视频或患者的帧,这种情况引入的相关性将影响验证指标,导致过于乐观的结果和隐藏的泛化或过拟合问题的风险。
可解释性
机器学习,以及更广泛的人工智能,本质上都是统计模型。在训练过程中,将调整一组定义基本模型的特定行为的参数,以便模型预测与数据库中元素的专家注释相匹配。尽管如此,常用的模型在预测时并没有考虑特定领域的专家知识。因此,经过训练的模型有可能学习不希望或不正确的特征,比如数据库中出现的非预期模式或视觉构件,而不是将特征空间限制为仅与医学相关的特征。为了避免这个问题,建议使用手工评估数据库元素以及内部特性可视化技术[72 ]。看到邓等 [73 ],综述了将专家知识作为先验信息纳入机器学习(ML)/人工智能模型的不同策略。
未来前景
基于人工智能模型得到的结果具有一定的前景,与传统方法相比具有一定的优势。然而,在未来的研究中,仍有一些局限性需要克服,以提出临床上有用的方法。
克服实时限制:结肠镜检查中的视频通常以每秒25帧的速度获取[15 ,这意味着处理每幅图像(帧)的最大可用时间必须小于40毫秒。
增加息肉病例的可变性,如有可能,包括使用多个医疗中心的数据进行研究。然而,考虑到较少常见病变(锯齿状腺瘤)的数据缺乏,以及深度学习方法需要大量标记训练样本,新的研究可能包括Vinyals引入的少镜头学习等技术等 [74 ]。这种技术专注于从一个或几个标记样本中学习类,并已成功应用于其他医学领域,如宫颈癌细胞分类[75 ,乳癌分类[76 ,以及转移性肿瘤的分类[77 ]。
在息肉检测方案中包括检测其他元素的能力,如褶皱或血管,这些元素可能出现在真实的探测中,并可能影响当前方法的性能。
在完整的视频序列上进行了测试,以分析模型在时间一致性约束下的性能,以及由于摄像机前进导致的息肉外观的高变异性。这两种情况都可能影响模型在真实临床环境中的表现。
从ML/AI模型预测中获得不确定性估计的能力是在临床设置中负责任地采用这些技术的关键,因为CADx/e的有偏见的建议可能会对最终诊断产生不利影响。贝叶斯深度学习被提出作为解决这一问题的框架,其中深度学习模型可以提供不确定性信息以及分类结果[78 ]的代价是增加训练参数的数量(因此需要更多的训练数据)或更受限制的模型结构,如。 ,需要在模式架构中合并退出单元,如Gal等 [79 2016年)。上述两种技术已经成功地与主动学习算法相结合,使增量数据集标记和/或模型参数训练成为可能,因为新数据可用(参见Gal等 [80 和伍德沃德等 [81 ), 2016)。
结论
人工智能在胃肠病学中是一个很有前途的领域。基于深度学习等算法的处理能力和高性能,一个基于人工智能的计算机辅助系统的新时代可以帮助医生完成基本任务,如结肠息肉的检测和分类。为了实现临床上有用的系统,临床医生和技术人员都必须合作,以减轻人工智能的缺点。尽管目前的大部分技术工作都集中在创建更精确的息肉检测和分类工具上,但在将基于人工智能的技术作为诊断决策的辅助工具应用到医生的日常工作中之前,还有很长的路要走。
原稿来源:自荐原稿
专业类型:工程、生物医学
原产国/地区:智利
同行评审报告的科学质量分类
A级(优秀):A
B级(非常好):0
C级(良好):0
D级(一般):0
E级(差):0
P-Reviewer: Ryan E - S-Editor: Gong ZM L-Editor: A P-Editor: Li JH