American Journal of Human Genetics:基于大规模电子健康记录OARD数据库,显著提升罕见病表型注释覆盖与关联识别
2025-07-17 熊佳仪 MedSci原创 发表于上海
本研究基于大规模跨机构真实世界电子健康数据,构建了开放的罕见病及其相关表型注释数据库OARD,突破了传统人工注释覆盖有限的瓶颈。
罕见病累及全球数千万患者,但多数临床医生对其认知不足,导致诊断周期长、误诊率高,患者及家庭承受沉重负担。基于表型驱动的遗传病诊断依赖于准确全面的疾病—表型注释知识库,如人类表型本体(Human Phenotype Ontology, HPO)。当前的主流知识库大多依赖专家手工整理和文献挖掘,难以应对罕见病知识快速增加的挑战。尽管电子健康记录(EHR)是潜在的丰富数据源,但因隐私、数据不完善和罕见病编码不足,尚未被充分利用。已有的公开资源例如Human Phenotype Ontology,向临床和科研提供了重要的注释,却难以高效涵盖所有罕见病表型信息。如何利用大规模真实世界数据、自动化技术填补这一空白,成为亟需解决的问题。 本研究获得哥伦比亚大学医学中心(CUIMC)和费城儿童医院(CHOP)授权,使用其电子健康记录数据。研究将数据统一映射至标准化本体,包括HPO中的“表型异常”分支和MONDO罕见病本体的“罕见病”子类。针对结构化数据(诊断代码、实验室测定)采用交叉本体映射,针对非结构化临床笔记,利用两种方法:(1)CuIMC数据采用上下文感知的关键词搜索(过滤否定和家族成员相关的表
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言

#早期诊断# #罕见病#
15 举报