GPT-4 未能完成實際醫療保健任務:新的 HealthBench 測試揭示了差距
簡單來說 研究人員推出了 HealthBench,這是一項新的基準,用於測試 LLM 的成績,例如 GPT-4 以及 Med-PaLM 2 在真實醫療任務中的應用。
大型語言模型無所不在——從搜尋到編碼,甚至是面向患者的健康工具。幾乎每週都會推出新系統,其中包括承諾 實現臨床工作流程自動化 。但他們真的值得信任做出真正的醫療決定嗎?一項名為 HealthBench 的新基準表明目前還沒有。根據結果,模型如下 GPT-4 (從 OpenAI) 和 Med-PaLM 2(來自 Google DeepMind)在實際的醫療保健任務上仍然存在不足,尤其是在準確性和安全性至關重要的時候。

HealthBench 與舊的測試不同。它不使用狹隘的測驗或學術問題集,而是用現實世界的任務來挑戰人工智慧模型。這些包括選擇治療方法、做出診斷以及決定醫生下一步應該採取什麼措施。這使得結果與人工智慧在醫院和診所的實際應用更加相關。

在所有任務中, GPT-4 比以前的型號表現更好。但這個差距還不足以證明其在現實世界的部署是合理的。在某些情況下, GPT-4 選擇了錯誤的治療方法。在其他情況下,它提供的建議可能會延遲治療甚至增加傷害。這個基準清楚地表明了一點:人工智慧聽起來可能很聰明,但在醫學領域,這還不夠好。
真實的任務,真實的失敗:人工智慧在醫學領域仍存在哪些突破
HealthBench 最大的貢獻之一是它如何測試模型。它包括五類 14 項現實世界的醫療保健任務:治療計劃、診斷、護理協調、藥物管理和患者溝通。這些都不是編造的問題。它們來自臨床指南、開放資料集和專家撰寫的資源,反映了實際醫療保健的工作方式。
在許多任務上,大型語言模型都表現出一致的錯誤。例如, GPT-4 經常無法做出臨床決策,例如確定何時開抗生素。在一些例子中,它被過度使用了。在其他情況下,它錯過了重要的症狀。這些類型的錯誤不僅僅是錯誤的——如果在實際的患者護理中使用,它們可能會造成真正的傷害。

這些模型也面臨複雜的臨床工作流程的挑戰。例如,當被要求推薦實驗室結果後的後續步驟時, GPT-4 給了一般性或不完整的建議。它經常跳過背景、不優先考慮緊急性或缺乏臨床深度。在時間和操作順序至關重要的情況下,這會導致危險。
在與藥物相關的任務中,準確率進一步下降。這些模型經常混淆藥物交互作用或給予過時的指導。這尤其令人擔憂,因為用藥錯誤已成為醫療保健中可預防傷害的主要原因之一。

即使模型聽起來很有信心,但它們並不總是正確的。基準測試表明,流利度和語調與臨床正確性不匹配。這是人工智慧在醫療領域的最大風險之一——它可能聽起來像人類,但事實上卻是錯的。
HealthBench 為何重要:真實評估,真實影響
到目前為止,許多人工智慧健康評估都使用 MedQA 或 USMLE 式考試等學術問題集。這些基準有助於衡量知識,但並未測試模型是否可以像醫生一樣思考。 HealthBench 透過模擬實際護理過程中發生的情況來改變這種狀況。
HealthBench 不會詢問一次性的問題,而是專注於整個決策鏈——從閱讀症狀清單到建議護理步驟。這更全面地展現了人工智慧能做什麼、不能做什麼。例如,它測試一個模型是否可以管理多次訪問的糖尿病或追蹤一段時間內的實驗室趨勢。

該基準還根據多種標準對模型進行評級,而不僅僅是準確性。它檢查臨床相關性、安全性以及造成傷害的可能性。這意味著僅僅從技術上正確回答問題是不夠的——答案還必須是安全且在現實生活中有用的。
HealthBench 的另一個優點是透明度。背後的團隊發布了所有提示、評分標準和註釋。這使得其他研究人員能夠測試新模型、改進評估並進行工作。這是對人工智慧社群的公開呼籲:如果您想聲稱您的模型在醫療保健方面有用,請在此證明這一點。
GPT-4 Med-PaLM 2 仍未準備好投入臨床使用
儘管最近大肆宣傳 GPT-4 和其他大型模型一樣,基準測試顯示它們仍然會犯下嚴重的醫療錯誤。總計 GPT-4 在所有任務中平均僅達到約 60–65% 的正確率。在治療和藥物決策等高風險領域,得分甚至更低。
Med-PaLM 2 是一款針對醫療保健任務進行調整的模型,但其表現並沒有好到哪裡去。它在基本醫療回憶中表現出稍強的準確性,但在多步驟臨床推理中失敗了。在多種情況下,它提供的建議是沒有執業醫師會支持的。這些包括錯誤識別危險症狀和建議非標準治療。

報告也強調了一個隱憂:過度自信。像模特兒一樣 GPT-4 常以自信、流利的語氣給出錯誤的答案。這使得使用者(即使是訓練有素的專業人員)也很難發現錯誤。語言的完善程度和醫療的精確度之間的不匹配是沒有嚴格保障措施的情況下在醫療保健領域部署人工智慧的主要風險之一。
說穿了:聽起來聰明不等於安全。
人工智慧在醫療保健領域獲得信任之前需要做出哪些改變
HealthBench 的結果不僅僅是一個警告。他們也指出了人工智慧需要改進的地方。首先,必須使用真實的臨床工作流程來訓練和評估模型,而不僅僅是教科書或考試。這意味著讓醫生參與其中——不僅作為用戶,而且作為設計者、測試者和審查者。

其次,應該建立人工智慧系統,以便在不確定時尋求協助。目前,模型經常進行猜測,而不是說「我不知道」。這在醫療保健領域是不可接受的。錯誤的答案可能會延遲診斷、增加風險或破壞患者的信任。未來的系統必須學會標記不確定性並將複雜的情況轉交給人類。
第三,像HealthBench這樣的評估必須成為真正部署之前的標準。僅僅通過學術考試已經不夠了。模型必須證明它們能夠安全地處理實際決策,否則它們應該完全遠離臨床環境。
未來之路:負責任地使用,而不是炒作
HealthBench 並沒有說人工智慧在醫療保健領域沒有未來。相反,它表明了我們目前所處的位置——以及還有多遠的路要走。大型語言模型可以幫助完成管理任務、總結或患者通道。但目前,它們還無法取代醫生,甚至無法可靠地支持醫生進行臨床照護。
負責任的使用意味著明確的限制。這意味著評估的透明度、與醫療專業人員的合作以及針對實際醫療任務的不斷測試。如果沒有這一點,風險就太高了。
HealthBench 的創建者邀請人工智慧和醫療保健社群採用它作為新標準。如果做得正確,它可能會推動該領域的發展——從炒作到真正的、安全的影響。
免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。
您也可能喜歡
關於 Bitget 上架 MSTR, COIN, HOOD, DFDV RWA 指數永續合約的公告
關於 Bitget 統一帳戶支援部分幣種借貸和保證金功能的公告
【首發上架】Camp Network (CAMP) 將在 Bitget 創新區和 Public Chain 區上架
關於 Bitget 上架 AAPL, GOOGL, AMZN, META, MCD RWA 指數永續合約的公告
加密貨幣價格
更多








