首页 » MedPALM 2:专家级医疗问题解答,大型语言模型的新突破

MedPALM 2:专家级医疗问题解答,大型语言模型的新突破

by AIBackup
近年来,人工智能系统在各种领域取得了显著的进步,从围棋到蛋白质折叠,这些都是人类长期以来的挑战。如今,这种能力已经扩展到医疗领域,大型语言模型(LLM)在医疗问题解答方面取得了显著的进步。
 
MedPALM是首个在美国医学执照考试(USMLE)风格的问题中取得及格分数的模型,其在MedQA数据集上的得分为67.2。然而,这项和其他先前的工作都暗示了还有很大的改进空间,特别是当模型的答案与临床医生的答案进行比较时。
 
为了弥补这些差距,谷歌提出了新一代的医疗问题解答系统——MedPALM 2。这是一种结合了基础LLM改进、医疗领域微调和提示策略的系统,其中包括一种新颖的集成精炼方法。MedPALM 2在MedQA数据集上的得分高达86.5,比MedPALM提高了19%,创造了新的最高水平。研究人员还观察到,MedPALM 2在MedMCQA、PubMedQA和MMLU临床主题数据集上的表现接近或超过了最高水平
 
研究人员对长篇问题进行了详细的人类评估,从多个与临床应用相关的角度进行评估。在对1066个消费者医疗问题的成对比较排名中,医生在九个与临床效用相关的轴上的八个轴上更喜欢MedPALM 2产生的答案,而不是医生产生的答案(P < 0.001)。研究人员还观察到,与MedPALM相比,MedPALM 2在每个评估轴上都有显著的改进(P < 0.001)。
 
研究人员还引入了240个长篇对抗性问题的新数据集,以探测LLM的限制。虽然需要进一步的研究来验证这些模型在真实世界环境中的效果,但这些结果突显了在医疗问题解答方面实现医生级别表现的快速进步。

 

也许你还会喜欢