突破蛋白质组学数据隐私壁垒!首个跨平台、跨技术联邦学习框架ProCanFDL诞生,可实现16种癌症亚型精准分型

14小时前 测序中国 测序中国 发表于上海

发联邦深度学习框架ProCanFDL,整合7个国家30个队列的人类蛋白质组学数据,在14种癌症亚型分类中较局部模型提升43%,成功识别16种癌症亚型,为全球癌症研究提供兼顾数据隐私与模型性能的方案。

在生物医学领域中,人工智能(AI)在诊断预测、病理组织学图像解读和药物发现等方面发展迅速,为科研人员带来效率提升和超越传统研究可能性的新颖见解潜力。但目前AI建模面临数据隐私、跨国合规性、伦理及知识产权等核心挑战,尤其在大规模癌症研究中,敏感临床数据的共享壁垒严重阻碍了全球协作与高质量AI工具开发。

联邦学习(Federated Learning, FL)是一种新兴的分布式机器学习框架,通过局部训练敏感数据、共享模型更新的方式保护数据隐私,为整合跨地域生物医学数据提供可能。蛋白质组学在癌症研究中至关重要,却面临数据隐私难题,FL为解决此问题提供了一个有前景的方案,但其迄今仅应用于非人类蛋白质组学数据中。

近日,悉尼大学医学与健康学院儿童医学研究所科研人员开发了联邦深度学习框架ProCanFDL整合来自不同国家30个队列的7,525例人类样本,涵盖19,930次非依赖采集质谱(DIA-MS)检测数据通过模拟站点训练局部模型,并采用聚合参数更新构建全局模型。在14癌症亚型分类中,该模型局部模型提升43%,与集中式模型效果相当进一步使2个外部DIA-MS队列和8个串联质谱标签TMT蛋白质组学队列数据重训全局模型,该模型成功识别16种癌症亚型总之,ProCanFDL打破了数据孤岛为国际蛋白质组学协作机器学习提供了兼顾数据隐私与模型性能的方案。

图片

研究团队首先构建了ProCan Compendium数据集,包含来自7个国家、30个队列、4,954例癌症患者7,525例组织样本使7台质谱仪对样本进行19,930次DIA-MS重复检测,量化9,102种蛋白质。样本分布涵盖31种组织来源、29种癌症病理类型及65种癌症亚型。经验证,样本数据具有高度可靠性且无仪器特异性批次效应。

队列1基线泛癌队列其原始数据与光谱库已随研究公开其余29个单一癌症队列将在后续研究中单独发表。UMAP降维显示癌症类型簇分布稳健型富集蛋白分析结果与先前研究一致

图片

1.ProCan概述

ProCanFDL采用四步迭代流程,在保障数据隐私的前提下支持国际联盟开展协作研究

初始化与局部训练以随机权重初始化全局模型并分发至各参与的站点,各站点利用私有蛋白质组数据独立训练本地深度学习模型,且不跨站点共享原始数据;

全局模型聚合:将训练后的模型参数安全传输至中央服务器,通过联邦平均算法聚合更新,生成能融合所有本地知识的新全局模型,且服务器无需访问原始数据;

全局模型更新:将新聚合后的全局模型回传至各站点,作为下一轮局部训练的起点;

迭代与收敛:循环执行步骤1-3,持续优化全局模型直至收敛。最终模型精度提升,能更全面地代表合并数据集的整体特征。

图片

2.局部学习、集中学习和联邦学习。

为评估和基准测试ProCanFDL,研究团队使用ProCan Compendium的蛋白质组学数据作为输入,来训练局部模型、集中式模型和ProCanFDL全局模型。首先筛选了4,558个高质量样本共涉及14种癌症亚型构建训练集和固定测试集通过模拟四联邦学习站点(含十次重复实验),对比本地、集中式与联邦模型性能

针对乳腺癌、结直肠癌等14种癌症亚型的分型任务ProCanFDL全局模型宏平均AUROC达0.9992准确率0.965,其性能显著优于局部模型且与集中式模型(AUROC 0.9999)性能接近10种癌症亚型该模型实现100%的识别敏感度,证实其强大预测能力。上述结果表明,该框架成功平衡了数据隐私与模型效能,为全球多中心协作的精准医学研究提供了可行技术路径。

图片

3. 实验设置和模型性能

为验证ProCanFDL的泛化能力,研究团队纳入PRIDE数据库的2个DIA-MS队列和CPTAC的8个TMT 队列,新增高级别浆液性卵巢癌和透明细胞肾癌2种亚型,使癌症分型任务扩展至16种。结果显示ProCanFDL通过联邦学习整合6个站点数据,在外部验证集上宏平均AUROC达0.9987,其中胰腺导管腺癌、肝细胞癌等9种癌症亚型的敏感性达100%。

为探索ProCanFDL全局模型在下游临床应用中的潜在价值,研究团队通过SHAP值分析其关键区分蛋白及生物学关联。结果显示该模型能识别出具有临床意义的特异性标志物,如鳞癌分化标志物 DSG3上皮分化标志物AGR2以及组织特异性蛋白包括前列腺癌标志物KLK3结直肠癌标志物CDH17LGALS4

通路富集分析显示,全局模型相比局部模型更深度挖掘癌种核心特征——在肺癌中识别MET原癌基因及鞘糖脂代谢进展通路,在结直肠癌中发现由脂肪酸结合蛋白驱动的甘油三酯代谢/PPAR信号通路此外,该模型还识别出ERBB2(乳腺癌治疗标志物)、TACSTD2(ADC 靶点)、PD-L1(肺癌免疫治疗标志物)等药物相关靶点。

图片

4.泛化、整合和模型解释

综上所述,ProCanFDL首次实现了跨机构、跨技术的蛋白质组学联邦学习,为全球癌症研究提供了兼顾数据隐私与分析效能的标准化方案。该框架推动了AI在肿瘤精准分型中的临床转化,有望成为构建全球蛋白质组基础模型的核心工具,加速从基础研究到个性化医疗的转化进程。

参考文献:

https://aacrjournals.org/cancerdiscovery/article/doi/10.1158/2159-8290.CD-24-1488/762852/Federated-deep-learning-enables-cancer-subtyping

评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2269491, encodeId=b555226949138, content=前往app查看评论内容, beContent=null, objectType=article, channel=null, level=null, likeNumber=1, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=127835, encryptionId=600b12e83535, topicName=癌症亚型), TopicDto(id=88734, encryptionId=915d88e3471, topicName=蛋白质组学)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Sun Jun 15 15:16:30 CST 2025, time=10小时前, status=0, ipAttribution=上海)]

相关资讯

J Ethnopharmacol:从网络药理学和蛋白质组学角度探讨鹿茸提取物抗糖尿病骨质疏松的作用机制

基于网络药理学策略的整合蛋白质组学研究鹿茸(VAE)对糖尿病性骨质疏松症(DOP)的治疗机制,研究相关靶点和通路。

华科大刘刚/廖云飞/潘安教授团队《自然·通讯》:发现蛋白质组学与糖尿病并发症风险新进展

研究发现心血管危险因素的综合控制可以为糖尿病患者带来多系统和器官的健康获益。

Cancer Cell:泛癌蛋白质组图谱揭示22种癌症的新型生物标志物和治疗靶点

本研究通过构建泛癌蛋白质组学图谱,系统地分析了22种癌症类型的蛋白质表达谱,揭示了癌症的共性和特异性生物学特征。

Molecular Psychiatry:改变的tRNA表达谱与自杀脑中密码子特异性蛋白质组学变化的关系

MDD自杀脑中tRNAGly-GCC表达显著升高,并与富含GGC密码子的蛋白质表达上调相关。tRNAGly-GCC过表达可促进这些蛋白的翻译,为自杀的分子机制研究提供了新的线索和潜在治疗靶点。

好文推荐 | 同一家系ALS患者和正常人骨间肌组织的差异蛋白分析

本研究拟从罕见的家族性肌萎缩侧索硬化症患者中找到相关的蛋白,为临床治疗研究提供相关的资料,为未来治愈该疾病提供思路。

Genome Medicine:将蛋白质组学纳入罕见病常规诊断实践的理由

将蛋白质组学等先进工具引入标准诊断实践中,旨在缩短诊断时间,扩展罕见病患者的治疗选项。

Nat Aging:大规模蛋白质组学分析揭示帕金森病的新病理机制和潜在生物标志物

这项研究通过大规模蛋白质组学分析,揭示了帕金森病的新病理机制,并发现了多个潜在的生物标志物。

西湖大学郭天南团队EMBOMol. Med.:蛋白分类器助力甲状腺滤泡肿瘤鉴别诊断

西湖大学郭天南团队联合多中心研究,基于 24 种蛋白构建 XGBoost 分类器,有效鉴别滤泡状甲状腺腺瘤与癌,在多组样本中表现优异,为术前精准诊断提供新工具。