Genome Medicine:PhenoDP——深度学习赋能孟德尔遗传病的表型驱动精准诊断

19小时前 熊佳仪 MedSci原创 发表于上海

PhenoDP的诞生标志着表型驱动诊断迈入智能化新阶段。将大型语言模型与医学本体深度结合,展现出AI在精准医学诊断中的巨大潜力。

基于深度学习的PhenoDP工具,集成临床摘要生成、疾病优先级排序和症状推荐三大核心模块,显著提升孟德尔疾病诊断的准确性与效率。利用大规模生物医学语言模型DeepSeek-R1的推理能力,成功训练出轻量化的Bio-Medical-3B-CoT-R1-Distilled模型,能够生成高质量、患者聚焦的临床表型总结。通过信息内容(IC)、phi相关系数及语义嵌入相结合的多维相似性测度,PhenoDP的疾病排序模块在模拟及真实患者数据中均优于现有主要表型驱动工具。采用对比学习策略的症状推荐模块能有效提出诊断差异化重要的候选症状,优于GPT-4o与PhenoTips,为临床判断提供实用补充信息。
 
近期发表于Genome Medicine的一项研究报道了PhenoDP——一个基于深度学习的孟德尔疾病表型驱动诊断工具。PhenoDP通过融合自然语言处理和图神经网络,设计了包括临床摘要生成(Summarizer)、疾病排序(Ranker)与症状推荐(Recommender)三大关键模块,旨在克服现有表型驱动诊断工具对罕见病诊断的不准确和效率不足。本研究利用Human Phenotype Ontology(HPO)标准化患者临床表现,结合多维相似性和对比学习,显著提升疾病优先排序与辅助诊断的表现,为临床遗传诊断实践提供了有效新思路和开源工具https://github.com/TianLab-Bioinfo/PhenoDP。
 
孟德尔遗传病,作为单基因病的主要类型,每年影响全球大量新生儿,人群携带率约8%,累积发病率在1.5%-6.2%之间。早诊断对于预防、管理及患者预后至关重要。尽管全外显子组测序(WES)及全基因组测序(WGS)技术广泛应用,遗传诊断率仍不足50%,受限于复杂的表型异质性与基因型-表型关联解读难题。尤其是临床采集的表型信息往往不完整,且不同疾病间表型重叠使疾病优先排序面临挑战。
 
目前的诊断辅助工具通常依赖HPO编码的临床症状,通过计算患者表型与疾病表型间的相似度来缩小候选诊断范围,如Phrank、PhenoPro、GDDP及Phen2Disease等方法。然而,这些工具存在局限:(1)大多数未充分利用HPO图结构上下位词信息,或未精准加权相关表型;(2)忽略患者表型稀疏时的辅助症状推荐功能;(3)现有自然语言处理模型难以生成定制化、患者中心的临床摘要,影响临床交流和决策支持。因此,亟需一种集临床摘要、精准排序及智能症状推荐于一体的表型驱动诊断系统。
 

PhenoDP由三模块构成:

Summarize:利用DeepSeek-R1-671B生成包括患者临床上下文的高质量文本摘要,基于Bio-Medical-3B-CoT对其进行知识蒸馏,兼顾性能与部署实用性;

Ranker:基于患者HPO集合与疾病HPO定义,通过信息内容(IC)相似度(运用Jiang-Conrath算法)、phi系数统计以及基于图卷积网络(GCN)产生的语义嵌入三种相似度融合,综合计算疾病优先级得分;

Recommender:基于Transformer编码器和对比学习框架,建议可能遗漏的关键症状,辅助区分候选疾病,提升诊断准确度。

此外,研究团队构建了多种评估数据集,包括疾病定义数据集(OMIM、Orphanet)、生物医学文献摘要数据集(SUMPUBMED)、模拟患者表型数据集及多个真实患者数据集(包括LIRICAL和文献案例),全面验证模型性能。
 
 
1. Summarizer性能优化与评价
 
初始基于FlanT5-Base微调过的模型在疾病定义生成方面表现优异,针对OMIM和Orphanet数据库的疾病描述均有提升。在SUMPUBMED文献摘要生成任务中,FlanT5-Base微调模型反而表现不佳,表明单纯从疾病定义切入难以覆盖临床文本复杂性。利用DeepSeek-R1-671B生成的患者中心临床摘要及推理链条数据进行知识蒸馏,成功训练出Bio-Medical-3B-CoT-R1-Distilled模型,既继承了大模型的推理能力,也具备适合临床部署的轻量化特点。该模型在SUMPUBMED总结任务和合成的患者中心临床摘要生成上表现最优,显著优于原始模型和基线模型(见Fig.2~3)。
 
2. Ranker表现评估
 
在四类模拟患者数据集中(纯精准表型、含模糊表型、含噪声表型、混合表型),PhenoDP Ranker在疾病排名覆盖率及平均倒数排名(MRR)指标上均领先于七款主流工具,包括PhenoPro、GDDP、Phen2Disease等(见Fig.4)。真实患者数据集(LIRICAL提供的382例,文献收集的130例,以及LIRICAL更新的5485例)测试中,PhenoDP稳定超越其他算法,分别提升覆盖率约2.6%-8.6%(见Fig.5)分析发现,IC相似度是Ranker中的主要贡献因子,phi系数补充贡献明显,语义嵌入影响较小,提示可进一步扩大训练集改善语义表达。通过计算前3名疾病排名得分的变异系数(CV),高CV组结果往往对应正确诊断,提示CV指标可为诊断信心提供量化参考。
 
 
 
研究价值与意义
 
PhenoDP整合前沿大型语言模型与图神经网络,对患者的HPO表型集进行深度语义理解和多维比较,突破了传统工具单一相似度衡量的瓶颈,解决了临床常见的表型数据稀疏和噪声干扰问题,有力提升了孟德尔病诊断的准确度和效率。此外,能够自动生成患者中心的临床摘要,不仅方便医生快速了解复杂表型背景,还促进医患沟通和病历标准化。基于对比学习的症状推荐模块创新性的辅助诊断设计,增加了差异化临床表现的识别能力,具有显著的临床推广潜力。该系统的开源特性与模块化架构为后续引入基因-表型关联、扩大训练数据及升级算法提供了良好基础。
 
梅斯小编点评
 
PhenoDP的诞生标志着表型驱动诊断迈入智能化新阶段。将大型语言模型与医学本体深度结合,展现出AI在精准医学诊断中的巨大潜力。特别是对临床应用常见的表型不完整问题,PhenoDP通过 symptom recommendation 模块巧妙利用对比学习进行补全,显著提升了诊断准确性。这种创新思路值得未来进一步拓展,比如结合患者的基因组数据进行多模态融合分析。此外,未来扩展至多样化临床场景、丰富实时反馈机制,将进一步提升模型的临床实用性和可靠性。该研究为遗传病诊断提供了一个开源利器,值得临床遗传学和计算医学领域深入关注。
 
原始出处
 

相关资料下载:
[AttachmentFileName(sort=1, fileName=s13073-025-01496-8.pdf)] GetArticleByIdResponse(id=a47288395502, projectId=1, sourceId=null, title=Genome Medicine:PhenoDP——深度学习赋能孟德尔遗传病的表型驱动精准诊断, articleFrom=MedSci原创, journalId=12132, copyright=原创, creationTypeList=[1], summary=PhenoDP的诞生标志着表型驱动诊断迈入智能化新阶段。将大型语言模型与医学本体深度结合,展现出AI在精准医学诊断中的巨大潜力。, cover=https://img.medsci.cn/20240704/1720070333260_92910.png, authorId=0, author=熊佳仪, originalUrl=, linkOutUrl=, content=<div>基于深度学习的PhenoDP工具,集成临床摘要生成、疾病优先级排序和症状推荐三大核心模块,显著提升孟德尔疾病<a href="https://www.medsci.cn/guideline/list.do?q=%E8%AF%8A%E6%96%AD">诊断</a>的准确性与效率。利用大规模生物医学语言模型DeepSeek-R1的推理能力,成功训练出轻量化的Bio-Medical-3B-CoT-R1-Distilled模型,能够生成高质量、患者聚焦的临床表型总结。通过信息内容(IC)、phi相关系数及语义嵌入相结合的多维相似性测度,PhenoDP的疾病排序模块在模拟及真实患者数据中均优于现有主要表型驱动工具。采用对比学习策略的症状推荐模块能有效提出诊断差异化重要的候选症状,优于GPT-4o与PhenoTips,为临床判断提供实用补充信息。</div> <div>&nbsp;</div> <div><img src="https://img.medsci.cn/20250623/1750684262035_6512445.png" /></div> <div>近期发表于Genome Medicine的一项研究报道了PhenoDP&mdash;&mdash;一个基于深度学习的孟德尔疾病表型驱动诊断工具。PhenoDP通过融合自然语言处理和图神经网络,设计了包括临床摘要生成(Summarizer)、疾病排序(Ranker)与症状推荐(Recommender)三大关键模块,旨在克服现有表型驱动诊断工具对<a href="https://rare.medsci.cn/">罕见病</a>诊断的不准确和效率不足。本研究利用Human Phenotype Ontology(HPO)标准化患者临床表现,结合多维相似性和对比学习,显著提升疾病优先排序与辅助诊断的表现,为临床遗传诊断实践提供了有效新思路和开源工具https://github.com/TianLab-Bioinfo/PhenoDP。</div> <div>&nbsp;</div> <div>孟德尔遗传病,作为单基因病的主要类型,每年影响全球大量新生儿,人群携带率约8%,累积发病率在1.5%-6.2%之间。早诊断对于预防、<a href="https://www.medsci.cn/guideline/list.do?q=%E7%AE%A1%E7%90%86">管理</a>及患者预后至关重要。尽管全外显子组测序(WES)及全基因组测序(WGS)技术广泛应用,遗传诊断率仍不足50%,受限于复杂的表型异质性与基因型-表型关联<a href="https://www.medsci.cn/guideline/list.do?q=%E8%A7%A3%E8%AF%BB">解读</a>难题。尤其是临床采集的表型信息往往不完整,且不同疾病间表型重叠使疾病优先排序面临挑战。</div> <div>&nbsp;</div> <div>目前的诊断辅助工具通常依赖HPO编码的临床症状,通过计算患者表型与疾病表型间的相似度来缩小候选诊断范围,如Phrank、PhenoPro、GDDP及Phen2Disease等方法。然而,这些工具存在局限:(1)大多数未充分利用HPO图结构上下位词信息,或未<a href="https://www.medsci.cn/search?q=%E7%B2%BE%E5%87%86">精准</a>加权相关表型;(2)忽略患者表型稀疏时的辅助症状推荐功能;(3)现有自然语言处理模型难以生成定制化、患者中心的临床摘要,影响临床交流和决策支持。因此,亟需一种集临床摘要、精准排序及智能症状推荐于一体的表型驱动诊断系统。</div> <div>&nbsp;</div> <div><img src="https://img.medsci.cn/20250623/1750684326903_6512445.png" /></div> <p>PhenoDP由三模块构成:</p> <p>Summarize:利用DeepSeek-R1-671B生成包括患者临床上下文的高质量文本摘要,基于Bio-Medical-3B-CoT对其进行知识蒸馏,兼顾性能与部署实用性;</p> <p>Ranker:基于患者HPO集合与疾病HPO定义,通过信息内容(IC)相似度(运用Jiang-Conrath算法)、phi系数<a href="https://www.medsci.cn/search?q=%E7%BB%9F%E8%AE%A1">统计</a>以及基于图卷积网络(GCN)产生的语义嵌入三种相似度融合,综合计算疾病优先级得分;</p> <p>Recommender:基于Transformer编码器和对比学习框架,建议可能遗漏的关键症状,辅助区分候选疾病,提升诊断准确度。</p> <div>此外,研究团队构建了多种评估数据集,包括疾病定义数据集(OMIM、Orphanet)、生物医学文献摘要数据集(SUMPUBMED)、模拟患者表型数据集及多个真实患者数据集(包括LIRICAL和文献案例),全面验证模型性能。</div> <div>&nbsp;</div> <div><img src="https://img.medsci.cn/20250623/1750684348747_6512445.png" /></div> <div>&nbsp;</div> <div>1. Summarizer性能优化与评价</div> <div>&nbsp;</div> <div>初始基于FlanT5-Base微调过的模型在疾病定义生成方面表现优异,针对OMIM和Orphanet数据库的疾病描述均有提升。在SUMPUBMED文献摘要生成任务中,FlanT5-Base微调模型反而表现不佳,表明单纯从疾病定义切入难以覆盖临床文本复杂性。利用DeepSeek-R1-671B生成的患者中心临床摘要及推理链条数据进行知识蒸馏,成功训练出Bio-Medical-3B-CoT-R1-Distilled模型,既继承了大模型的推理能力,也具备适合临床部署的轻量化特点。该模型在SUMPUBMED总结任务和合成的患者中心临床摘要生成上表现最优,显著优于原始模型和基线模型(见Fig.2~3)。</div> <div>&nbsp;</div> <div>2. Ranker表现评估</div> <div>&nbsp;</div> <div>在四类模拟患者数据集中(纯精准表型、含模糊表型、含噪声表型、混合表型),PhenoDP Ranker在疾病排名覆盖率及平均倒数排名(MRR)指标上均领先于七款主流工具,包括PhenoPro、GDDP、Phen2Disease等(见Fig.4)。真实患者数据集(LIRICAL提供的382例,文献收集的130例,以及LIRICAL更新的5485例)测试中,PhenoDP稳定超越其他算法,分别提升覆盖率约2.6%-8.6%(见Fig.5)分析发现,IC相似度是Ranker中的主要贡献因子,phi系数补充贡献明显,语义嵌入影响较小,提示可进一步扩大训练集改善语义表达。通过计算前3名疾病排名得分的变异系数(CV),高CV组结果往往对应正确诊断,提示CV指标可为诊断信心提供量化参考。</div> <div>&nbsp;</div> <div><img src="https://img.medsci.cn/20250623/1750684371670_6512445.png" /></div> <div>&nbsp;</div> <div>&nbsp;</div> <div><strong>研究价值与意义</strong></div> <div>&nbsp;</div> <div>PhenoDP整合前沿大型语言模型与图神经网络,对患者的HPO表型集进行深度语义理解和多维比较,突破了传统工具单一相似度衡量的瓶颈,解决了临床常见的表型数据稀疏和噪声干扰问题,有力提升了孟德尔病诊断的准确度和效率。此外,能够自动生成患者中心的临床摘要,不仅方便医生快速了解复杂表型背景,还促进医患沟通和病历标准化。基于对比学习的症状推荐模块创新性的辅助诊断设计,增加了差异化临床表现的识别能力,具有显著的临床推广潜力。该系统的开源特性与模块化架构为后续引入基因-表型关联、扩大训练数据及升级算法提供了良好基础。</div> <div>&nbsp;</div> <div><strong>梅斯小编点评</strong></div> <div>&nbsp;</div> <div>PhenoDP的诞生标志着表型驱动诊断迈入智能化新阶段。将大型语言模型与医学本体深度结合,展现出AI在精准医学诊断中的巨大潜力。特别是对临床应用常见的表型不完整问题,PhenoDP通过 symptom recommendation 模块巧妙利用对比学习进行补全,显著提升了诊断准确性。这种创新思路值得未来进一步拓展,比如结合患者的基因组数据进行多模态融合分析。此外,未来扩展至多样化临床场景、丰富实时反馈机制,将进一步提升模型的临床实用性和可靠性。该研究为遗传病诊断提供了一个开源利器,值得临床遗传学和计算医学领域深入关注。</div> <div>&nbsp;</div> <div><span style="color: #333333; font-size: 12px;">原始出处</span></div> <div>&nbsp;</div> <div><span style="color: #333333; font-size: 12px;"><a style="color: #333333;" href="https://genomemedicine.biomedcentral.com/counter/pdf/10.1186/s13073-025-01496-8.pdf" target="_blank" rel="noopener">Wen B, Shi S, Long Y, Dang Y, Tian W. PhenoDP: leveraging deep learning for phenotype-based case reporting, disease ranking, and symptom recommendation. Genome Medicine. 2025;17:67. https://doi.org/10.1186/s13073-025-01496-8</a></span></div>, belongTo=, tagList=[TagDto(tagId=16297, tagName=深度学习), TagDto(tagId=505937, tagName=孟德尔遗传病)], categoryList=[CategoryDto(categoryId=84, categoryName=研究进展, tenant=100), CategoryDto(categoryId=304, categoryName=罕见病, tenant=100), CategoryDto(categoryId=20656, categoryName=梅斯医学, tenant=100)], articleKeywordId=0, articleKeyword=, articleKeywordNum=6, guiderKeywordId=0, guiderKeyword=, guiderKeywordNum=6, opened=1, paymentType=1, paymentAmount=0, recommend=0, recommendEndTime=null, sticky=0, stickyEndTime=null, allHits=248, appHits=5, showAppHits=0, pcHits=11, showPcHits=243, likes=0, shares=2, comments=0, approvalStatus=1, publishedTime=Wed Jul 02 16:15:00 CST 2025, publishedTimeString=19小时前, pcVisible=1, appVisible=1, editorId=6545039, editor=罕见病新前沿, waterMark=0, formatted=0, deleted=0, version=4, createdBy=074a6512445, createdName=xiongjy, createdTime=Mon Jun 23 21:15:03 CST 2025, updatedBy=92910, updatedName=rayms, updatedTime=Wed Jul 02 16:27:39 CST 2025, ipAttribution=上海, attachmentFileNameList=[AttachmentFileName(sort=1, fileName=s13073-025-01496-8.pdf)], guideDownload=1, surveyId=null, surveyIdStr=null, surveyName=null, pushMsXiaoZhi=true, qaList=[{id=801051, encryptionId=b0dd8010511d, articleId=a47288395502, userName=administrator, question=Bio-Medical-3B-CoT-R1-Distilled模型相比原始模型有哪些优势?, answer=Bio-Medical-3B-CoT-R1-Distilled模型利用DeepSeek-R1-671B生成的患者中心临床摘要及推理链条数据进行知识蒸馏,既继承了大模型的推理能力,也具备适合临床部署的轻量化特点,在SUMPUBMED总结任务和合成的患者中心临床摘要生成上表现最优。, clickNum=0, type=article, createdAt=1751444891967, updatedAt=1751444891967}, {id=801049, encryptionId=698b801049b1, articleId=a47288395502, userName=administrator, question=PhenoDP工具在模拟患者数据中的疾病排名覆盖率相比现有工具有多大提升?, answer=在四类模拟患者数据集中,PhenoDP Ranker在疾病排名覆盖率及平均倒数排名(MRR)指标上均领先于七款主流工具,包括PhenoPro、GDDP、Phen2Disease等(见Fig.4)。, clickNum=0, type=article, createdAt=1751444891967, updatedAt=1751444891967}])
s13073-025-01496-8.pdf
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2271754, encodeId=561b22e1754d9, content=<a href='/topic/show?id=e4cb6612395' target=_blank style='color:#2F92EE;'>#深度学习#</a> <a href='/topic/show?id=de30128285d6' target=_blank style='color:#2F92EE;'>#孟德尔遗传病#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=11, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=128285, encryptionId=de30128285d6, topicName=孟德尔遗传病), TopicDto(id=66123, encryptionId=e4cb6612395, topicName=深度学习)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Wed Jul 02 16:27:39 CST 2025, time=19小时前, status=1, ipAttribution=上海)]
    19小时前 梅斯管理员 来自上海

相关资讯

European Radiology:基于深度学习的MR血管壁图像中动脉血管壁和斑块的自动分割定量评估

近年来,基于深度学习的算法(如卷积神经网络(CNN)模型)在医学感兴趣区域(ROI)分割中表现优异。

European Radiology:高分辨率深度学习重建提高CT分流储量的精度

评估中度狭窄的功能意义对确定是否需进行血运重建至关重要。基于 CT 数据计算的血流储备分数(CT-FFR)已被推荐用于评估功能严重程度,其通过计算流体动力学(CFD)来计算冠状动脉血压。

Heart:眼底图像 AI 算法精准识别冠状动脉疾病患者轻度认知障碍

轻度认知障碍(MCI)最常见于60岁以上的人群,患病率约为16%-20%。该研究中基于眼底图像训练的人工智能算法在筛查CAD人群MCI方面表现良好,可能是一种无创、有效的疾病早期诊断替代方法。

Science:突破性进展:深度学习+物理模拟,精准操控蛋白质“形态切换”,未来药物设计新路径

这不仅仅是蛋白质设计领域的一次技术飞跃,更是为构建未来生物计算、智能药物递送,乃至全新生命系统奠定了坚实的基础。

European Radiology:深度学习重建联合双低剂量CT肺血管造影的对比增强检查

DLR 联合 CE - boost 技术可在降低辐射和对比剂剂量的情况下显著改善 CTPA 的图像质量,有助于更准确地诊断肺栓塞。

European Radiology:基于深度学习内核转换技术对CT进行更精确的气道量化

近年来深度学习(DL)算法在包括图像归一化在内的多种医学影像应用中取得成功,基于 DL 的图像归一化技术旨在降低不同图像间的测量变异性,其在减轻成像协议差异影响、提高测量一致性方面具有巨大潜力。

Chinese Medicine:AI赋能中医舌诊新范式

本研究通过深度融合传统舌诊特征与深度学习提取的图像特征,构建了一套智能化、定量化的中医体质识别模型,展现出出色的性能和广泛的应用潜力。