MedPALM 2：专家级医疗问题解答，大型语言模型的新突破

by AIBackup 2023-05-20

written by AIBackup 2023-05-20

近年来，人工智能系统在各种领域取得了显著的进步，从围棋到蛋白质折叠，这些都是人类长期以来的挑战。如今，这种能力已经扩展到医疗领域，大型语言模型（LLM）在医疗问题解答方面取得了显著的进步。

MedPALM是首个在美国医学执照考试（USMLE）风格的问题中取得及格分数的模型，其在MedQA数据集上的得分为67.2。然而，这项和其他先前的工作都暗示了还有很大的改进空间，特别是当模型的答案与临床医生的答案进行比较时。

为了弥补这些差距，谷歌提出了新一代的医疗问题解答系统——MedPALM 2。这是一种结合了基础LLM改进、医疗领域微调和提示策略的系统，其中包括一种新颖的集成精炼方法。MedPALM 2在MedQA数据集上的得分高达86.5，比MedPALM提高了19%，创造了新的最高水平。研究人员还观察到，MedPALM 2在MedMCQA、PubMedQA和MMLU临床主题数据集上的表现接近或超过了最高水平。

研究人员对长篇问题进行了详细的人类评估，从多个与临床应用相关的角度进行评估。在对1066个消费者医疗问题的成对比较排名中，医生在九个与临床效用相关的轴上的八个轴上更喜欢MedPALM 2产生的答案，而不是医生产生的答案（P < 0.001）。研究人员还观察到，与MedPALM相比，MedPALM 2在每个评估轴上都有显著的改进（P < 0.001）。

研究人员还引入了240个长篇对抗性问题的新数据集，以探测LLM的限制。虽然需要进一步的研究来验证这些模型在真实世界环境中的效果，但这些结果突显了在医疗问题解答方面实现医生级别表现的快速进步。

参考资料：Towards Expert-Level Medical Question Answering with Large Language Models

MedPALM 2：专家级医疗问题解答，大型语言模型的新突破

病理性近视识别与解剖结构注解：PALM公开眼底照片数据集

描绘未来（STF）：将条件控制技术应用于文本到视频模型

也许你还会喜欢

OpenAI推出新功能：函数调用，AI计算能力再升级（案例）

AI新突破：零样本文本引导的视频到视频转换技术

Galactic：以每秒100k步速度扩展端到端强化学习的重排任务

超越人类：探索“磨刀人”和生物黑客的未来

数据工程领域30个最实用的Python库

AI大清洗：生成型AI如何改变SEO内容流量、工作岗位和依赖网站的未来