人工智能助力胰腺癌早期预测：一项涵盖600万患者的深度学习研究

by AIBackup 2023-05-21

written by AIBackup 2023-05-21

胰腺癌是一种侵袭性极强的疾病，通常在晚期才被发现，预后情况堪忧。因此，早期检测的需求尤为迫切。

在这项研究中，研究人员应用了人工智能方法，对来自丹麦国家患者注册处（DNPR）的600万患者（包括24000例胰腺癌病例）以及美国退伍军人事务部（USVA）的300万患者（包括3900例病例）的临床数据进行了分析。

研究人员训练了机器学习模型，对临床历史中的疾病代码序列进行了学习，并测试了在逐步增加的时间窗口内预测癌症发生的能力。对于在36个月内发生的癌症，最佳的DNPR模型的接收者操作特性曲线（AUROC）下的面积为0.88，当排除癌症诊断前3个月内的疾病事件进行训练时，该值降低到0.83。对于年龄超过50岁的1000名高风险患者，估计的相对风险为5.9。

将丹麦模型应用于USVA数据时，性能较低（AUROC=0.71），需要重新训练以提高性能（AUROC=0.78，AUROC 3m=0.76）。这些结果提高了为高风险患者设计实际监测计划的能力，通过早期检测这种侵袭性癌症，可能有助于提高生命质量和寿命。

在这项研究中，研究人员利用了最近发展的机器学习技术，使用临床事件的时间序列中编码的信息。首先，他们使用了丹麦国家患者注册处（DNPR）的数据，该数据包含了从1977年到2018年的860万患者的数据。随后，他们又使用了美国退伍军人事务部（USVA）的企业数据仓库（CDW）中的一部分患者数据。

为了从这些记录中最大限度地提取预测信息，研究人员测试了一系列的机器学习方法。理想情况下，从个人化的癌症风险预测产生的可能行动，应考虑到疾病在较短或较长的时间框架内发生的概率。因此，他们设计了这种人工智能方法，不仅预测癌症是否可能发生，而且在预测风险后的逐步时间间隔内提供风险评估。

为了解释训练模型学到了什么，研究人员分析了哪些诊断在患者的诊断代码历史中被方法标记为最能说明癌症风险的信息。他们提出了一个实际的监测计划场景，考虑到现实世界数据的可用性，对这些数据的预测精度的估计，监测计划的范围，监测方法的可能成本和成功率，以及早期治疗的整体潜在益处。

研究人员使用了来自DNPR的疾病轨迹和来自中央人口注册处（CPR）的人口信息。DNPR覆盖了约860万患者，有2290万的医院诊断，每个患者平均有267个诊断代码。他们使用了从1977年1月到2018年4月的国际疾病分类（ICD）诊断代码的轨迹，总共有620万患者，包括23985例胰腺癌病例。为了在另一个医疗系统中进行验证，同样使用了纵向临床记录。

更多项目信息，可见参考资料：

Nature Medicine: A deep learning algorithm to predict risk of pancreatic cancer from disease trajectories

人工智能助力胰腺癌早期预测：一项涵盖600万患者的深度学习研究

教程：私有GPT应用程序部署

《提示工程指南》：最新论文、学习指南、讲座、参考文献和工具

也许你还会喜欢

OpenAI推出新功能：函数调用，AI计算能力再升级（案例）

AI新突破：零样本文本引导的视频到视频转换技术

Galactic：以每秒100k步速度扩展端到端强化学习的重排任务

超越人类：探索“磨刀人”和生物黑客的未来

数据工程领域30个最实用的Python库

AI大清洗：生成型AI如何改变SEO内容流量、工作岗位和依赖网站的未来