Copyright 2015-2024 多趣味 版權所有 京ICP備2015051670號
AI醫生的時代正在到來!
哈佛、斯坦福等學術醫療中心的醫生發布重磅論文,測試了OpenAI o1-preview在醫療推理和診斷任務中的表現。
結果表明,在所有的實驗中,無論是臨床案例還是急診室的第二意見,o1-preview的表現都全面超出人類醫生!

文章中,研究團隊全面評估了o1-preview與數百名醫生表現的對比。
此外,他們還在波士頓一所大型學術三級急診中心隨機抽取患者,采用盲評方式,把大模型給出的「第二診療意見」與專家醫生的診斷進行對比。
實驗結果驚人
團隊首先使用《新英格蘭醫學雜志》(NEJM)發表的臨床病例討論(CPCs)來評估o1-preview。
兩位醫生對o1-preview給出的診斷質量評價高度一致——在143個病例中有120例觀點相同(84%)。
o1-preview在近八成病例(78.3%)中都把正確診斷列進了它的「待選清單」(圖 1)。
如果只看它給出的第一個診斷,有52%一擊即中。
另外,無論是在預訓練數據截止點之前還是之后,模型的表現沒有明顯差異:截止點前準確率為79.8%,截止點后為73.5%。
