npj Digital Medicine:深度学习在耳鼻喉头颈外科的应用现状及“人工智能鸿沟”的启示

昨天 熊佳仪 MedSci原创 发表于上海

绝大多数研究(99.3%)仍停留在计算机模拟(in silico)阶段,临床验证严重缺乏,揭示了OHNS领域内“人工智能鸿沟”的存在。

人工智能(AI),特别是深度学习技术,因其在医学影像、生理信号、基因组学等复杂数据处理中的优势,已被视为提升耳鼻喉头颈外科医疗质量的重要手段。OHNS临床实践丰富的半结构化数据(影像、音频、视频等)为AI应用提供了良好基础。近年来,深度学习在OHNS的探索迅速增加,尤其在耳科和神经耳科等方向表现突出。

然而,临床AI应用推广远落后于概念验证研究,实际可用的OHNS专属FDA批准AI设备极少(仅2例)。这反映出AI从理论走向临床实践的过程中存在显著“人工智能鸿沟”,即技术开发与临床落地之间的巨大隔阂。临床验证阶段作为AI转化的关键环节,验证模型的准确性、安全性及实用性,现阶段对此的研究明显不足,对OHNS人工智能的临床应用形成制约。

发表在npj Digital Medicine上,由美国斯坦福大学和约翰霍普金斯大学等单位的Liu等学者共同完成。这是一项涵盖1996至2023年间,在MEDLINE、EMBASE及Web of Science三大数据库中检索共计3236篇文献,通过严格筛选纳入444篇涉及OHNS深度学习的研究的范围性回顾。研究系统梳理了深度学习模型在OHNS各亚专业的应用,分析了研究的地理分布、数据类型、模型结构及验证阶段等,并特别关注模型验证的成熟度和临床转化的进程,阐述了当前研究存在的“人工智能鸿沟”问题及应对策略。

figure 1

图 1:PRISMA流程图,展示文献筛选过程和结果。

本研究遵循PRISMA-ScR指南,设计透明、严谨的文献搜索策略,涵盖“深度学习”及“耳鼻喉头颈外科”相关关键词,检索三大数据库。排除无深度学习方法、非OHNS专用、未公开全文、非原创研究及非英语文献,共筛选纳入444篇符合条件的研究文章。数据提取涵盖发表时间、作者国别、子专业领域、应用目的、数据类型、深度学习模型类别、验证方法及研究阶段,力求客观全面呈现该领域研究动态。

研究结果

发表时序与地域分布

从2012年起,深度学习在OHNS的研究数量呈指数增长,2022年达到最高峰,年发表数量105篇(图 2a)。研究涉及48个国家,集中于美国(139篇)、中国(95篇)及韩国(38篇)(图 2b),表明深度学习在OHNS应用的全球性发展态势。

figure 2

图 2:OHNS深度学习论文的发表年度趋势及地域分布示意图。

研究领域与应用类别

深度学习涉及OHNS所有子专业,其中耳科与神经耳科(包含听力学)占比最高(28%)(图 3a)。绝大多数应用旨在扩展医疗人员能力(56%)和疾病筛查(30%)(图 3b)。输入数据以图像为主,占比55%(其中非放射学图像36%、放射学图像19%),包括耳镜、喉镜、临床照片、组织学图像等。模型以卷积神经网络(CNN)使用最广,占比63%(图 3c),适合图像与序列数据处理。

figure 3

图 3:研究领域(子专业)、应用目标及输入数据类型分布。

AI模型开发阶段与验证状况

绝大部分研究(99.3%)停留在in silico阶段,即纯数据驱动的计算机模拟验证,只有3篇(0.7%)进行了离线验证(offline validation)——包括语音降噪与视觉语音识别的实验室环境验证。无一研究实现了临床环境验证(0%)(图 4a),突出地反映出OHNS领域深度学习临床转化的断层。

figure 4

图 4:AI研究的开发阶段、采用报告指南及验证方法情况。

报告规范的采纳情况

仅24篇论文(5.4%)采用了任何形式的报告指南,主要涵盖STARD(2.9%)、TRIPOD(1.3%)和CONSORT-AI(0.2%)等,显示AI研究普遍缺乏规范的报告与透明度(图 4b)。

验证设计和数据方法

验证多为单中心回顾性研究,少数采用前瞻性设计(1.8%单中心,0.5%多中心),部分研究未明确验证方法或未实施独立测试或交叉验证(16%)(图 4c)。仅9.2%的研究尝试解释模型(如Grad-CAM、CAM等),模型解释性不足可能影响临床接受度。

总之,本研究首次系统勾勒出深度学习在耳鼻喉头颈外科领域的发展图谱,揭示该领域“人工智能鸿沟”尤为明显——尽管研究数量激增,但在临床验证环节形同空白,严重制约AI技术的实际应用和患者获益。

这一情况与医疗AI领域普遍难以跨越的转化瓶颈相契合。临床验证是AI产品安全性、有效性及可用性的关键保障,缺失临床验证将带来潜在风险和不确定性。研究提出,推动早期从低复杂度、低风险的非诊断任务入手,如自动化临床流程、辅助决策等,可快速实现落地价值。此外,采用和推动AI研究报告标准化、强化严谨的验证方法、重视数据多样性与标注质量,也至关重要。它们不仅提升研究质量,也有助于吸引资金投入与监管批准。未来应鼓励分阶段、迭代式的临床验证试点,从单中心局部验证做起,逐步拓展至多中心大规模应用,结合联邦学习等新型数据共享模式,突破隐私与数据壁垒。

此外,研究提醒临床标注的准确性对AI模型性能影响巨大,需避免粗糙或超纲诊断标签对模型训练产生干扰。最后,尽管AI模型的可解释性备受关注,但当前尚无统一要求,安全有效才是核心指标。

原始出处:

Liu GS, Fereydooni S, Lee MC, et al. Scoping review of deep learning research illuminates artificial intelligence chasm in otolaryngology-head and neck surgery. npj Digital Medicine. 2025;8:265. doi:10.1038/s41746-025-01693-0

相关资料下载:
[AttachmentFileName(sort=1, fileName=s41746-025-01693-0.pdf)] GetArticleByIdResponse(id=f2c188e802da, projectId=1, sourceId=null, title=npj Digital Medicine:深度学习在耳鼻喉头颈外科的应用现状及“人工智能鸿沟”的启示, articleFrom=MedSci原创, journalId=26898, copyright=原创, creationTypeList=[1], summary= 绝大多数研究(99.3%)仍停留在计算机模拟(in silico)阶段,临床验证严重缺乏,揭示了OHNS领域内“人工智能鸿沟”的存在。, cover=https://img.medsci.cn/20240627/1719459802273_92910.png, authorId=0, author=熊佳仪, originalUrl=, linkOutUrl=, content=<p><img src="https://img.medsci.cn/20250722/1753143889766_6512445.png" /></p> <p style="color: #333333;">人工智能(AI),特别是深度学习技术,因其在医学影像、生理信号、基因组学等复杂数据处理中的优势,已被视为提升耳鼻喉头颈外科医疗质量的重要手段。OHNS临床实践丰富的半结构化数据(影像、音频、<a href="https://class.medsci.cn">视频</a>等)为AI应用提供了良好基础。近年来,深度学习在OHNS的探索迅速增加,尤其在耳科和神经耳科等方向表现突出。</p> <p style="color: #333333;">然而,临床AI应用推广远落后于概念验证研究,实际可用的OHNS专属<a href="https://www.medsci.cn/search?q=FDA">FDA</a>批准AI设备极少(仅2例)。这反映出AI从理论走向临床实践的过程中存在显著&ldquo;人工智能鸿沟&rdquo;,即技术开发与临床落地之间的巨大隔阂。临床验证阶段作为AI转化的关键环节,验证模型的准确性、安全性及实用性,现阶段对此的研究明显不足,对OHNS人工智能的临床应用形成制约。</p> <p style="color: #333333;">发表在npj Digital Medicine上,由美国斯坦福大学和约翰霍普金斯大学等单位的Liu等学者共同完成。这是一项涵盖1996至2023年间,在MEDLINE、EMBASE及Web of Science三大数据库中检索共计3236篇文献,通过严格筛选纳入444篇涉及OHNS深度学习的研究的范围性回顾。研究系统梳理了深度学习模型在OHNS各亚专业的应用,分析了研究的地理分布、数据类型、模型结构及验证阶段等,并特别关注模型验证的成熟度和临床转化的进程,阐述了当前研究存在的&ldquo;人工智能鸿沟&rdquo;问题及应对策略。</p> <h3 style="color: #333333;"><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/images/20250702/5c29929169e746eb862e1fa77264fe6a-4SuLra0nSzZg.jpg" alt="figure 1" /></h3> <p style="text-align: center;">图 1:PRISMA流程图,展示文献筛选过程和结果。</p> <p style="color: #333333;">本研究遵循PRISMA-ScR<a href="https://www.medsci.cn/guideline/search">指南</a>,设计透明、严谨的文献搜索策略,涵盖&ldquo;深度学习&rdquo;及&ldquo;耳鼻喉头颈外科&rdquo;相关关键词,检索三大数据库。排除无深度学习方法、非OHNS专用、未公开全文、非原创研究及非英语文献,共筛选纳入444篇符合条件的研究文章。数据提取涵盖发表时间、作者国别、子专业领域、应用目的、数据类型、深度学习模型类别、验证方法及研究阶段,力求客观全面呈现该领域研究动态。</p> <p style="color: #333333;"><strong>研究结果</strong></p> <p style="color: #333333;"><strong>发表时序与地域分布</strong></p> <p style="color: #333333;">从2012年起,深度学习在OHNS的研究数量呈指数增长,2022年达到最高峰,年发表数量105篇(图 2a)。研究涉及48个国家,集中于美国(139篇)、中国(95篇)及韩国(38篇)(图 2b),表明深度学习在OHNS应用的全球性发展态势。</p> <p style="color: #333333;"><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/images/20250702/592bffa26ae144fe95dad1dd644b247a-C8li7EBNaZ5K.jpg" alt="figure 2" /></p> <p style="text-align: center;">图 2:OHNS深度学习论文的发表年度趋势及地域分布示意图。</p> <p style="color: #333333;"><strong>研究领域与应用类别</strong></p> <p style="color: #333333;">深度学习涉及OHNS所有子专业,其中耳科与神经耳科(包含听力学)占比最高(28%)(图 3a)。绝大多数应用旨在扩展医疗人员能力(56%)和疾病<a href="https://www.medsci.cn/search?q=%E7%AD%9B%E6%9F%A5">筛查</a>(30%)(图 3b)。输入数据以图像为主,占比55%(其中非放射学图像36%、放射学图像19%),包括耳镜、喉镜、临床照片、组织学图像等。模型以卷积神经网络(CNN)使用最广,占比63%(图 3c),适合图像与序列数据处理。</p> <p style="color: #333333;"><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/images/20250702/da1d5516f12f41b9bf4a44c4425cdd61-PlEyal0WH0uh.jpg" alt="figure 3" /></p> <p style="text-align: center;">图 3:研究领域(子专业)、应用目标及输入数据类型分布。</p> <p style="color: #333333;"><strong>AI模型开发阶段与验证状况</strong></p> <p style="color: #333333;">绝大部分研究(99.3%)停留在in silico阶段,即纯数据驱动的计算机模拟验证,只有3篇(0.7%)进行了离线验证(offline validation)&mdash;&mdash;包括语音降噪与视觉语音识别的实验室环境验证。无一研究实现了临床环境验证(0%)(图 4a),突出地反映出OHNS领域深度学习临床转化的断层。</p> <p style="color: #333333;"><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/images/20250702/23b3ca5fb88a4a0b9f791ad44fb8fe27-RMa5iuV4SuLE.jpg" alt="figure 4" /></p> <p style="text-align: center;">图 4:AI研究的开发阶段、采用报告指南及验证方法情况。</p> <p style="color: #333333;"><strong>报告规范的采纳情况</strong></p> <p style="color: #333333;">仅24篇论文(5.4%)采用了任何形式的报告指南,主要涵盖STARD(2.9%)、TRIPOD(1.3%)和CONSORT-AI(0.2%)等,显示AI研究普遍缺乏规范的报告与透明度(图 4b)。</p> <p style="color: #333333;"><strong>验证设计和数据方法</strong></p> <p style="color: #333333;">验证多为单中心回顾性研究,少数采用前瞻性设计(1.8%单中心,0.5%多中心),部分研究未明确验证方法或未实施独立测试或交叉验证(16%)(图 4c)。仅9.2%的研究尝试解释模型(如Grad-CAM、CAM等),模型解释性不足可能影响临床接受度。</p> <p style="color: #333333;">总之,本研究首次系统勾勒出深度学习在耳鼻喉头颈外科领域的发展图谱,揭示该领域&ldquo;人工智能鸿沟&rdquo;尤为明显&mdash;&mdash;尽管研究数量激增,但在临床验证环节形同空白,严重制约AI技术的实际应用和患者获益。</p> <p style="color: #333333;">这一情况与医疗AI领域普遍难以跨越的转化瓶颈相契合。临床验证是AI产品安全性、有效性及可用性的关键保障,缺失临床验证将带来潜在风险和不确定性。研究提出,推动早期从低复杂度、低风险的非<a href="https://www.medsci.cn/guideline/list.do?q=%E8%AF%8A%E6%96%AD">诊断</a>任务入手,如自动化临床流程、辅助决策等,可快速实现落地价值。此外,采用和推动AI研究报告标准化、强化严谨的验证方法、重视数据多样性与标注质量,也至关重要。它们不仅提升研究质量,也有助于吸引资金投入与监管批准。未来应鼓励分阶段、迭代式的临床验证试点,从单中心局部验证做起,逐步拓展至多中心大规模应用,结合联邦学习等新型数据共享模式,突破隐私与数据壁垒。</p> <p style="color: #333333;">此外,研究提醒临床标注的准确性对AI模型性能影响巨大,需避免粗糙或超纲诊断标签对模型训练产生干扰。最后,尽管AI模型的可解释性备受关注,但当前尚无统一要求,安全有效才是核心指标。</p> <p><span style="color: #808080; font-size: 12px;">原始出处:</span></p> <p style="color: #333333;"><span style="color: #808080; font-size: 12px;">Liu GS, Fereydooni S, Lee MC, et al. Scoping review of deep learning research illuminates artificial intelligence chasm in otolaryngology-head and neck surgery. npj Digital Medicine. 2025;8:265. doi:10.1038/s41746-025-01693-0</span></p>, belongTo=, tagList=[TagDto(tagId=16297, tagName=深度学习), TagDto(tagId=121771, tagName=耳鼻喉头颈外科)], categoryList=[CategoryDto(categoryId=23, categoryName=普通外科, tenant=100), CategoryDto(categoryId=30, categoryName=耳鼻咽喉, tenant=100), CategoryDto(categoryId=72, categoryName=人工智能, tenant=100), CategoryDto(categoryId=73, categoryName=头颈外科, tenant=100), CategoryDto(categoryId=84, categoryName=研究进展, tenant=100), CategoryDto(categoryId=20656, categoryName=梅斯医学, tenant=100)], articleKeywordId=0, articleKeyword=, articleKeywordNum=6, guiderKeywordId=0, guiderKeyword=, guiderKeywordNum=6, opened=1, paymentType=1, paymentAmount=0, recommend=0, recommendEndTime=null, sticky=0, stickyEndTime=null, allHits=254, appHits=0, showAppHits=0, pcHits=17, showPcHits=254, likes=0, shares=0, comments=0, approvalStatus=1, publishedTime=Tue Jul 22 10:48:00 CST 2025, publishedTimeString=昨天, pcVisible=1, appVisible=1, editorId=6556147, editor=耳鼻咽喉新前沿, waterMark=0, formatted=0, deleted=0, version=3, createdBy=074a6512445, createdName=xiongjy, createdTime=Tue Jul 22 08:29:53 CST 2025, updatedBy=92910, updatedName=rayms, updatedTime=Tue Jul 22 10:49:19 CST 2025, ipAttribution=上海, attachmentFileNameList=[AttachmentFileName(sort=1, fileName=s41746-025-01693-0.pdf)], guideDownload=1, surveyId=null, surveyIdStr=null, surveyName=null, pushMsXiaoZhi=true, qaList=[{id=860096, encryptionId=663886009642, articleId=f2c188e802da, userName=administrator, question=目前在耳鼻喉头颈外科领域,为什么FDA批准的AI设备如此之少?, answer=主要原因是绝大多数研究停留在计算机模拟验证阶段,缺乏严格的临床环境验证,且AI研究报告规范不足,难以满足监管机构对安全性、有效性的评估要求。, clickNum=0, type=article, createdAt=1753152580960, updatedAt=1753152580960}, {id=860098, encryptionId=4fec8600985e, articleId=f2c188e802da, userName=administrator, question=为什么卷积神经网络(CNN)在耳鼻喉头颈外科AI研究中占据主导地位?, answer=CNN特别适合处理图像和序列数据,能够有效提取局部特征和空间层次结构,而耳鼻喉头颈外科的大量诊断依赖于图像分析(如内窥镜图像、组织病理切片等)。, clickNum=0, type=article, createdAt=1753152580960, updatedAt=1753152580960}])
s41746-025-01693-0.pdf
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2274359, encodeId=875f22e43594b, content=<a href='/topic/show?id=e4cb6612395' target=_blank style='color:#2F92EE;'>#深度学习#</a> <a href='/topic/show?id=6210128e55af' target=_blank style='color:#2F92EE;'>#耳鼻喉头颈外科#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=5, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=66123, encryptionId=e4cb6612395, topicName=深度学习), TopicDto(id=128755, encryptionId=6210128e55af, topicName=耳鼻喉头颈外科)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Tue Jul 22 10:49:19 CST 2025, time=昨天, status=1, ipAttribution=上海)]

相关资讯

European Radiology:基于深度学习的MR血管壁图像中动脉血管壁和斑块的自动分割定量评估

近年来,基于深度学习的算法(如卷积神经网络(CNN)模型)在医学感兴趣区域(ROI)分割中表现优异。

Genome Medicine:PhenoDP——深度学习赋能孟德尔遗传病的表型驱动精准诊断

PhenoDP的诞生标志着表型驱动诊断迈入智能化新阶段。将大型语言模型与医学本体深度结合,展现出AI在精准医学诊断中的巨大潜力。

Nature:比专家更专业!基于超百万数据的深度学习模型EchoNext,可从心电图中高效、准确识别多种心脏病

研究开发出深度学习模型 EchoNext,用超百万份心律和影像记录训练,能精准检测多种结构性心脏病,性能稳定且优于医生,还公开数据助力研究。

European Radiology:高分辨率深度学习重建提高CT分流储量的精度

评估中度狭窄的功能意义对确定是否需进行血运重建至关重要。基于 CT 数据计算的血流储备分数(CT-FFR)已被推荐用于评估功能严重程度,其通过计算流体动力学(CFD)来计算冠状动脉血压。

Heart:眼底图像 AI 算法精准识别冠状动脉疾病患者轻度认知障碍

轻度认知障碍(MCI)最常见于60岁以上的人群,患病率约为16%-20%。该研究中基于眼底图像训练的人工智能算法在筛查CAD人群MCI方面表现良好,可能是一种无创、有效的疾病早期诊断替代方法。

Science:突破性进展:深度学习+物理模拟,精准操控蛋白质“形态切换”,未来药物设计新路径

这不仅仅是蛋白质设计领域的一次技术飞跃,更是为构建未来生物计算、智能药物递送,乃至全新生命系统奠定了坚实的基础。

European Radiology:深度学习重建联合双低剂量CT肺血管造影的对比增强检查

DLR 联合 CE - boost 技术可在降低辐射和对比剂剂量的情况下显著改善 CTPA 的图像质量,有助于更准确地诊断肺栓塞。

European Radiology:基于深度学习内核转换技术对CT进行更精确的气道量化

近年来深度学习(DL)算法在包括图像归一化在内的多种医学影像应用中取得成功,基于 DL 的图像归一化技术旨在降低不同图像间的测量变异性,其在减轻成像协议差异影响、提高测量一致性方面具有巨大潜力。

Chinese Medicine:AI赋能中医舌诊新范式

本研究通过深度融合传统舌诊特征与深度学习提取的图像特征,构建了一套智能化、定量化的中医体质识别模型,展现出出色的性能和广泛的应用潜力。