黑人巨茎大战白人美女-黑人巨茎大战俄罗斯美女-黑人巨茎大战欧美白妇-黑人狂躁日本妞无码A片-黑人群姣中国妞在线观看-黑人上司好猛我好爽中文字幕

聚慕 - 專(zhuān)業(yè)醫(yī)療器械服務(wù)商
設(shè)為首頁(yè) 收藏本頁(yè) 人事招聘 關(guān)于聚慕
400-901-5099
全部商品分類(lèi)
openai發(fā)布最新開(kāi)源框架:醫(yī)療大模型評(píng)估瞄準(zhǔn)現(xiàn)實(shí)情況
發(fā)布時(shí)間:2025-05-19 09:12:17

OpenAI近日發(fā)布了一款開(kāi)源基準(zhǔn)測(cè)試工具,旨在衡量大型語(yǔ)言模型在醫(yī)療健康領(lǐng)域的性能和安全性。

該公司在周一的博客文章中表示,這個(gè)名為HealthBench的大型數(shù)據(jù)集超越了傳統(tǒng)的考試式提問(wèn),它基于醫(yī)學(xué)專(zhuān)家認(rèn)為最重要的內(nèi)容,測(cè)試人工智能模型在真實(shí)醫(yī)療場(chǎng)景中的表現(xiàn)。

該公司在博文中寫(xiě)道:"通用人工智能(AGI)的決定性影響之一是改善人類(lèi)健康。如果開(kāi)發(fā)和部署得當(dāng),大型語(yǔ)言模型有潛力擴(kuò)大健康信息的獲取途徑,支持臨床醫(yī)生提供高質(zhì)量的醫(yī)療服務(wù),并幫助人們維護(hù)自身及其社區(qū)的健康。"

公司高管在博文中表示:"評(píng)估對(duì)于理解模型在醫(yī)療環(huán)境中的表現(xiàn)至關(guān)重要。學(xué)術(shù)界和業(yè)界雖已付出巨大努力,但許多現(xiàn)有評(píng)估未能反映真實(shí)場(chǎng)景,缺乏基于醫(yī)學(xué)專(zhuān)家意見(jiàn)的嚴(yán)格驗(yàn)證,或者未能給最先進(jìn)的模型留下改進(jìn)空間。"

該公司表示,該評(píng)估框架是與來(lái)自60個(gè)國(guó)家的262名執(zhí)業(yè)醫(yī)師合作構(gòu)建的。

HealthBench內(nèi)置了5000個(gè)真實(shí)的醫(yī)療對(duì)話(huà),并根據(jù)醫(yī)生制定的評(píng)分標(biāo)準(zhǔn)對(duì)模型的回應(yīng)進(jìn)行評(píng)分,評(píng)估其安全性、適當(dāng)性和準(zhǔn)確性。

77411747366336684

該公司表示,HealthBench中的對(duì)話(huà)模擬了AI模型與個(gè)人用戶(hù)或臨床醫(yī)生之間的互動(dòng),這些對(duì)話(huà)通過(guò)合成生成和人工對(duì)抗測(cè)試產(chǎn)生。OpenAI稱(chēng),這些對(duì)話(huà)"旨在真實(shí)地模擬大型語(yǔ)言模型在現(xiàn)實(shí)世界中的使用情況:它們是多輪次的、多語(yǔ)種的,涵蓋了各種普通用戶(hù)和醫(yī)療服務(wù)提供者的角色,跨越了多個(gè)醫(yī)學(xué)專(zhuān)業(yè)和背景,并根據(jù)難度進(jìn)行了篩選。"

HealthBench評(píng)估了48562項(xiàng)獨(dú)特的評(píng)分標(biāo)準(zhǔn),涵蓋多個(gè)健康情境和行為維度,如準(zhǔn)確性、指令遵循和溝通能力。

模型的回應(yīng)由一個(gè)基于模型的評(píng)分器進(jìn)行評(píng)估,以判斷是否滿(mǎn)足每個(gè)評(píng)分標(biāo)準(zhǔn)。基于滿(mǎn)足的標(biāo)準(zhǔn)所獲總分,與可能獲得的最高分?jǐn)?shù)進(jìn)行比較,得到模型回應(yīng)的總體得分。

HealthBench的對(duì)話(huà)分為七個(gè)主題,例如緊急情況、處理不確定性或全球健康。每個(gè)主題都有其專(zhuān)屬的評(píng)分標(biāo)準(zhǔn)。

OpenAI 健康人工智能團(tuán)隊(duì)負(fù)責(zé)人Karan Singhal在LinkedIn的帖子中表示,HealthBench的開(kāi)發(fā)面向兩大受眾:一是AI研究界,旨在"形成共同標(biāo)準(zhǔn)并激勵(lì)開(kāi)發(fā)有益于人類(lèi)的模型";二是醫(yī)療機(jī)構(gòu),旨在"提供高質(zhì)量證據(jù),以更好地理解當(dāng)前和未來(lái)的用例及局限性。"

OpenAI表示,HealthBench的開(kāi)發(fā)旨在遵循幾項(xiàng)核心原則來(lái)評(píng)估醫(yī)療領(lǐng)域的AI系統(tǒng)。首先,該公司稱(chēng),評(píng)分應(yīng)反映現(xiàn)實(shí)世界的影響。OpenAI在博文中表示:"這應(yīng)超越考題范圍,捕捉復(fù)雜的現(xiàn)實(shí)生活場(chǎng)景和工作流程,以反映個(gè)人和臨床醫(yī)生與模型互動(dòng)的方式。"

同時(shí),評(píng)估還應(yīng)反映醫(yī)療專(zhuān)業(yè)人士的標(biāo)準(zhǔn)和優(yōu)先事項(xiàng),為改進(jìn)AI系統(tǒng)提供堅(jiān)實(shí)的基礎(chǔ)。該公司指出:"應(yīng)顯示出巨大的改進(jìn)空間,從而激勵(lì)模型開(kāi)發(fā)者持續(xù)提升性能。"

斯坦福AI 研究與科學(xué)評(píng)估中心執(zhí)行主任Ethan Goh表示,HealthBench是推動(dòng)醫(yī)療 AI 性能評(píng)估邁向正確方向的一步。Goh在LinkedIn的帖子中提到,許多先前的基準(zhǔn)(如MedQA, MultiMedQA, MedMCQA, USMLE)依賴(lài)于選擇題,這些題目通常來(lái)自醫(yī)生資格考試。這些基準(zhǔn)現(xiàn)已飽和,對(duì)于衡量AI模型改進(jìn)的作用不大(即AI模型的得分已接近100%)。HealthBench通過(guò)一個(gè)用于任務(wù)級(jí)評(píng)估的基準(zhǔn)彌補(bǔ)了這一空白,涵蓋了患者和臨床醫(yī)生的使用場(chǎng)景。"

Goh表示,許多行業(yè)參與者早已將其模型用于各種醫(yī)療保健應(yīng)用,但坦率地說(shuō),在對(duì)AI回答進(jìn)行穩(wěn)健評(píng)估方面做得并不出色,因?yàn)樗麄兗庇诓渴鹨粋€(gè)可用的原型,而這在面向消費(fèi)者或醫(yī)療服務(wù)提供者的使用場(chǎng)景中可能具有極高的風(fēng)險(xiǎn)。

OpenAI評(píng)估了自家模型以及來(lái)自谷歌、Anthropic、Meta 和 xAI (Grok) 的模型。總體而言,OpenAI 的 o3 模型表現(xiàn)最佳。但值得注意的是,也有行業(yè)人士警告稱(chēng),一家公司自行制定基準(zhǔn),并顯示其模型在該基準(zhǔn)上表現(xiàn)最佳,這一做法存在風(fēng)險(xiǎn)。如果不公開(kāi)其模型及數(shù)據(jù)集以供公眾審查,那無(wú)異于同時(shí)扮演法官、陪審團(tuán)和行刑者的角色。在像醫(yī)療這樣討論生死的敏感領(lǐng)域,這種程度的不透明是不可接受的,這種不透明性可能會(huì)掩蓋模型的弱點(diǎn)。

54901747366342543

OpenAI在醫(yī)療健康領(lǐng)域動(dòng)作頻頻,該公司正與賽諾菲和Formation Bio合作,構(gòu)建一款由AI驅(qū)動(dòng)的工具,旨在通過(guò)加速臨床試驗(yàn)招募來(lái)改進(jìn)藥物研發(fā)。Iodine Software也正與OpenAI合作,將包括GPT-4在內(nèi)的生成式AI和大型語(yǔ)言模型整合到其廣泛的臨床管理和收入周期管理解決方案中。此外,Color Health也與OpenAI合作開(kāi)發(fā)了生成式AI工具,包括一款AI驅(qū)動(dòng)的癌癥輔助診療應(yīng)用,雙方正合作測(cè)試計(jì)算機(jī)生成的癌癥患者個(gè)性化護(hù)理計(jì)劃。休斯頓德克薩斯大學(xué)健康科學(xué)中心 (UTHealth Houston) 也與OpenAI合作,構(gòu)建和部署用于醫(yī)學(xué)培訓(xùn)和患者床旁的算法。


注:文章來(lái)源于網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系刪除

為您找貨 · 告訴我們您想要找什么商品?我們將盡快給您答復(fù)。
* 商品名稱(chēng):
* 您想了解:
  • 商品資料
  • 貨期
  • 價(jià)格
  • 安調(diào)
  • 其他
* 手機(jī)號(hào)碼:
* 姓名:
邻居少妇张开双腿让我爽一夜 | 亚洲av永久纯肉无码精品动漫 | 国产综合在线观看 | 美国大片成人性网 | 国产午夜精品理论片小yo奈 | 无码乱人伦一区二区亚洲一 | 韩国三级日本三级香港黄 | 欧美性猛交xxxx富婆 | 欧美精品久久天天躁 | 看av免费毛片手机播放 | 久久亚洲av成人无码电影a片 | 性高湖久久久久久久久 | 欧美精品人人做人人爱视频 | 99精品国产福利在线观看 | 九九精品免视看国产成人 | 中文字幕人妻熟女人妻 | 2015日韩永久免费视频播放 | 亚洲av福利天堂一区二区三 | 国产女人18毛片水真多1 | 日日摸日日踫夜夜爽无码 | 亚洲国产一区二区a毛片 | 性高湖久久久久久久久aaaaa | 在线天堂中文www官网 | 亚洲成色www久久网站 | 国产精品熟妇视频国产偷人 | 精品视频一区二区三区在线观看 | 中文字幕亚洲一区二区三区 | 48沈阳熟女高潮嗷嗷叫 | 精品国精品国产自在久国产应用 | 无套内射无矿码免费看黄 | 91国内外精品自在线播放 | 国产suv精品一区二区 | 97视频免费看 | 国产精品成人观看视频国产奇米 | 成人性视频全过程 | 1000部夫妻午夜免费 | 国产真人无码作爱视频免费 | 日韩gay小鲜肉啪啪18禁 | 亚洲av成人无码一二三在线观看 | 国内精品 第一页 | 亚洲国产精品无码久久久 |