西湖大学郭天南团队EMBOMol. Med.:蛋白分类器助力甲状腺滤泡肿瘤鉴别诊断

2025-06-04 BioMed科技 BioMed科技 发表于上海

西湖大学郭天南团队联合多中心研究,基于 24 种蛋白构建 XGBoost 分类器,有效鉴别滤泡状甲状腺腺瘤与癌,在多组样本中表现优异,为术前精准诊断提供新工具。

2025年5月29日,西湖大学医学院郭天南教授团队,联合广东省人民医院关海霞教授等多个团队,在EMBOMolecular Medicine发表了一项基于蛋白质组学的滤泡状甲状腺肿瘤精准分型研究。研究收集了来自中国和新加坡24家中心共1568名患者、2443样本的核酸与蛋白信息,通过构建并验证一个基于24种蛋白的分类器,有效改善了滤泡状甲状腺腺瘤与癌的鉴别诊断。

图片

提纲挈领

该研究收集了来自中国和新加坡24家中心共1568名患者、2443样本的核酸与蛋白信息,最终建并验证了一个基于24种蛋白的XGBoost分类器,能够有效区分组织学高度相似的滤泡状甲状腺腺瘤(FTA)与滤泡状甲状腺癌(FTC)。该模型在多个独立的回顾性组织样本和前瞻性FNA活检样本中均展现出优异的诊断性能(AUC最高达0.953,阴性预测值最高达95.7%),显著优于基于基因的诊断模型,并在多组独立回顾性及前瞻性样本中表现出较高的诊断准确性和阴性预测值,展示了蛋白质组学在甲状腺肿瘤术前精准诊断中的重要潜力和临床应用价值。

正文

甲状腺结节的临床诊断中存在一个关键难题——滤泡状甲状腺腺瘤(FTA)与滤泡状甲状腺癌(FTC)的鉴别诊断。二者在病理组织学上极为相似,仅凭术后组织切片的包膜或血管侵犯的存在才能区分,这使得术前基于细胞学或影像学的诊断几乎无法实现。因此,临床上常需依赖术后病理检查来进行确诊,这不仅增加了患者的手术风险,也造成了资源浪费。

本研究通过多中心、大样本设计,联合中国和新加坡24家机构,收集了2443份甲状腺样本,对1568名患者进行了系统性分析。首先,通过66-gene panel的二代测序发现,FTC与FTA的突变谱结构相似,仅在群体中的突变频率上存在差异,且并无特异性基因可作为明确的分型标志。因此,单靠基因层面的分析难以实现准确区分。这一点也反映在模型表现上,基于基因的分类器仅获得了AUROC为0.670的中等区分能力。

为突破这一瓶颈,研究团队转向蛋白质组学分析,通过TMT定量策略鉴定并量化了超过10,000种蛋白质,筛选出187个差异表达蛋白(DEPs)。随后,优化了XGBoost模型参数和蛋白质特征组合。最终模型从中筛选出24个具有高区分力的蛋白,构建蛋白质分类器。该模型在训练集中的AUROC为0.899,显著优于基因模型。

为实现临床转化,研究进一步采用靶向蛋白质谱检测技术(PRM)对候选蛋白进行精准定量,并在并在两个独立的回顾性组织样本和一个前瞻性FNA活检样本中均表现稳健(AUROC分别为0.871、0.853和0.781),多中心样本中验证了所建模型的重复性和实用性。其中FNA组的阴性预测值高达95.7%,具有良好的“排除恶性”效能,有助于减少不必要手术。

相比传统的抗体检测方法,质谱技术具备更高的通量、稳定性与扩展性,更适合与机器学习算法协同,构建复杂疾病的多维诊断工具,展现出在临床场景中更广阔的应用前景。

详细解读

患者特征与研究设计

本研究共纳入来自中国和新加坡24家中心的1568名患者,共收集了2443份样本数据。其中,FTA患者909例,FTC患者659例。患者中位年龄为49岁,女性占比约70%,男女比例为2.4:1。结节中位直径为35 mm,且近半数病例的结节小于40 mm。

研究采用多阶段设计:首先,通过NGS分析609例样本的基因变化;通过TMT标记定量质谱技术分析620例样本的蛋白质表达并进行分类模型构建、比较与优化。随后,在729例样本上实施靶向质谱(PRM)以构建蛋白质分类器,并在三个独立测试集(内部、回顾性、前瞻性)中进行了验证。

基因组模型不能有效区分FTA与FTC

对609例样本进行66基因panel测序发现,仅有41个基因(62.1%)在数据中被检测到。整体突变率为53.4%,其中FTA为46.2%,FTC为66.7%,但46.6%的样本无任何可检突变。

尽管FTA与FTC在患者人群水平突变频率上略有差异,如TERT(2.3% vs 18.8%)和NRAS(12.4% vs 21.6%),但二者的突变特点相似。以四个基因(TERT promoter、NRAS、DICER1、BRAF)为特征构建的XGBoost模型在外部测试集中仅实现AUC为0.670,说明基因变异本身不足以用于有效鉴别FTA与FTC,尤其是在缺乏特异性突变标志的情况下。

深度蛋白质组学可显著改善分类性能

研究通过TMT质谱分析620份回顾性FFPE样本,定量检测到10,336种蛋白,质量控制后用于后续分析的蛋白数为7876。

通过比较,FTC与FTA二者之间差异表达分析识别出187个DEPs,该蛋白群体主要富集于甲状腺激素生成和代谢通路。然而,进一步的降维分析显示,单靠这些DEPs仍难以完全区分FTA与FTC,进一步说明了分子表达水平上的相似性与鉴别二者的困难性。

因此,研究团队利用多种机器学习方法筛选最佳特征数和算法,最终构建了基于24个蛋白的XGBoost模型,在训练、交叉验证和独立测试集中分别获得AUC为0.953、0.905和0.899,显著优于基因模型。同时,该模型在独立测试集中的敏感性、特异性、准确率和NPV均表现良好。进一步分析显示,联合基因数据并未显著提升模型性能,强调蛋白组数据在分类中的主导作用。

靶向蛋白质组学模型的开发与验证

考虑到TMT的测试成本高和临床可及性低,研究转向PRM靶向质谱以提升临床实用性。在靶向可以检测到的44个差异蛋白中,筛选出24个蛋白用于构建分类器,并在四个数据集中(总样本1214例)进行测试。

在325例内部测试集中,分类器准确率为0.785,AUC为0.871。进一步在两个独立中心验证,其中回顾性样本组AUC为0.853,前瞻性FNA活检样本组AUC为0.781,尽管后者样本受限,但仍展现出较高的阴性预测值(95.7%),具备良好的“排除恶性”能力。多个中心的外部验证进一步证实了该模型的泛化能力和临床应用前景,尤其对术前诊断具有重要意义。

基因与蛋白质联合模型的比较分析

在494例同时具备基因和蛋白数据的样本中,研究构建了三个模型:仅基因、仅蛋白,以及二者联合。

结果显示,联合模型AUC为0.893,虽略高于蛋白模型(24蛋白),但提升主要归功于蛋白特征,基因信息的增益有限。该联合模型在独立测试集中表现稳定,准确率为0.820,特异性高达0.897,进一步验证了蛋白质组学在分类性能上的主导性和临床价值。

图片

图1

图片

图2

图片

图3

图片

图4

图片

图5

图片

图6

总结

本研究通过整合深度蛋白质组学和靶向蛋白组学,并结合机器学习方法,构建了一个高效、可推广的蛋白质分类器,首次实现了对FTA与FTC的高精度鉴别诊断。

研究不仅为甲状腺结节的精准诊疗提供了新工具,也展示了蛋白质组学在疾病分类与生物标志物开发中的广阔前景。未来,该策略有望拓展至其他组织病理分型难题,为临床病理诊断提供更科学、精准的解决方案。

作者及致谢

西湖大学医学院博士后研究员孙耀庭(现为德国马克斯·普朗克生物化学研究所博士后研究员),科研助理王赫(现为新加坡国立大学博士研究生)、访问学生李璐(现为浙江大学博士研究生)等为该研究共同第一作者。西湖大学医学院郭天南教授、广东省人民医院关海霞教授、西湖实验室朱怡研究员为共同通讯作者。

研究得到了慢性非传染性疾病国家科技重大专项、国家重点研发计划、浙江省“尖兵领雁”研发攻关计划、中国博士后科学基金以及医学蛋白质组全国重点实验室自主研究课题资助的支持。感谢西湖大学超级计算机中心提供的数据存储和计算服务。

原文链接:

https://www.embopress.org/doi/full/10.1038/s44321-025-00242-2

评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2267918, encodeId=dba4226e91856, content=<a href='/topic/show?id=915d88e3471' target=_blank style='color:#2F92EE;'>#蛋白质组学#</a> <a href='/topic/show?id=00206991218' target=_blank style='color:#2F92EE;'>#甲状腺肿瘤#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=11, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=69912, encryptionId=00206991218, topicName=甲状腺肿瘤), TopicDto(id=88734, encryptionId=915d88e3471, topicName=蛋白质组学)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Wed Jun 04 13:17:38 CST 2025, time=2025-06-04, status=1, ipAttribution=上海)]

相关资讯

J Ethnopharmacol:从网络药理学和蛋白质组学角度探讨鹿茸提取物抗糖尿病骨质疏松的作用机制

基于网络药理学策略的整合蛋白质组学研究鹿茸(VAE)对糖尿病性骨质疏松症(DOP)的治疗机制,研究相关靶点和通路。

华科大刘刚/廖云飞/潘安教授团队《自然·通讯》:发现蛋白质组学与糖尿病并发症风险新进展

研究发现心血管危险因素的综合控制可以为糖尿病患者带来多系统和器官的健康获益。

bioRxiv:“黑暗蛋白质组”研究揭示数千个新的人类基因

人类基因组测序后新研究聚焦 “黑暗蛋白质组”,发现被忽视的非传统基因,研究团队扩大基因定义,创建数据库等,其产物或有重要意义,已开展后续研究。

Cancer Cell:泛癌蛋白质组图谱揭示22种癌症的新型生物标志物和治疗靶点

本研究通过构建泛癌蛋白质组学图谱,系统地分析了22种癌症类型的蛋白质表达谱,揭示了癌症的共性和特异性生物学特征。

Molecular Psychiatry:改变的tRNA表达谱与自杀脑中密码子特异性蛋白质组学变化的关系

MDD自杀脑中tRNAGly-GCC表达显著升高,并与富含GGC密码子的蛋白质表达上调相关。tRNAGly-GCC过表达可促进这些蛋白的翻译,为自杀的分子机制研究提供了新的线索和潜在治疗靶点。

好文推荐 | 同一家系ALS患者和正常人骨间肌组织的差异蛋白分析

本研究拟从罕见的家族性肌萎缩侧索硬化症患者中找到相关的蛋白,为临床治疗研究提供相关的资料,为未来治愈该疾病提供思路。

Nature Medicine:司美格鲁肽为何不仅能减重?从蛋白质组学揭秘其多维治疗潜力

这项研究不仅为深入理解司美格鲁肽的药理机制提供了重要依据,还展示了蛋白质组学技术在疾病机制研究及药物开发中的巨大潜力。

Nat Aging:大规模蛋白质组学分析揭示帕金森病的新病理机制和潜在生物标志物

这项研究通过大规模蛋白质组学分析,揭示了帕金森病的新病理机制,并发现了多个潜在的生物标志物。