蛋殼研究院曾在2018年的報告中提到,隨著我國人口總量峰值達到15億,僅醫(yī)療大數據總量就將達到ZB以上。前些年也有機構預測,到2020年全球醫(yī)療數據量預計將達到35ZB,而中國的數據量將占全球的20%。
雖然如今尚沒有確切的數據,但我國醫(yī)療數據資源豐富,應用場景涉及到醫(yī)療服務、醫(yī)院管理、醫(yī)學科研、公共衛(wèi)生、醫(yī)療保障、以及產業(yè)發(fā)展的各個環(huán)節(jié)和領域,健康醫(yī)療大數據行業(yè)市場規(guī)模也在逐年增長。數據不僅是AI模型訓練的基礎,還關系到AI技術在醫(yī)療中的應用效果和可信度。然而,醫(yī)療AI的發(fā)展過程中,面臨的最大挑戰(zhàn)之一也是數據的獲取與利用。
一、醫(yī)療AI大模型為何需要數據
醫(yī)療AI技術的核心在于通過海量數據的學習與分析,來構建和優(yōu)化模型,以達到診斷、治療、預測疾病等目標。只有擁有足夠多且高質量的數據,AI才能夠“學習”到足夠多的知識,從而做出準確的判斷。
例如,將患者的病歷、影像、基因信息等數據用于訓練AI大模型,使其能夠識別復雜的疾病模式和預測患者的健康風險,高質量的數據直接決定了AI大模型的性能。數據不僅用于模型的訓練,還用于模型的驗證和優(yōu)化,通過不斷地驗證和調整,AI大模型可以變得更加精準和可靠。醫(yī)療AI大模型還需要通過持續(xù)地接收新數據來進行更新,以適應不斷變化的醫(yī)學知識和臨床實踐。
醫(yī)療AI大模型的訓練、驗證與優(yōu)化、應用與更新,均高度依賴于大規(guī)模、高質量的數據。這些數據不僅是模型學習的基礎,也是它們在實際應用中提供精準預測和決策支持的關鍵。
二、醫(yī)療數據使用現狀
盡管醫(yī)療AI大模型的應用在不斷擴展,但在數據使用方面存在較大限制,真正能夠用于AI開發(fā)和應用的數據仍然有限。
首先,數據孤島問題嚴重。醫(yī)療數據分散在各個醫(yī)院、實驗室和機構中,缺乏統一的數據標準和共享機制,難以整合利用,AI大模型無法獲得足夠多樣化和全面的數據來進行有效的訓練。
其次,數據標準化不足。醫(yī)療數據的質量直接影響AI模型的表現,然而由于醫(yī)療數據來源多樣,且數據格式和結構各異,不完整、不準確或不一致的問題使得數據清洗和預處理工作變得異常復雜和耗時,數據的整合和應用難度大大增加。低質量的數據不僅影響AI大模型的訓練效果,甚至可能導致錯誤的診斷或治療建議。
此外,隱私與安全問題突出。醫(yī)療數據非常敏感,涉及個人隱私和倫理安全。隱私保護技術不足,嚴格的法律法規(guī)限制了數據的自由流動,進一步加劇了數據獲取和利用的難度。
多重困難之下,獲取醫(yī)療數據的成本較高,尤其是對于小型醫(yī)療機構和初創(chuàng)企業(yè)來說,數據的獲取和處理成本可能成為主要障礙。
三、醫(yī)療AI大模型訓練的數據來源
醫(yī)療AI大模型所需的數據來源廣泛,包括但不限于電子病歷數據、醫(yī)學影像數據、基因組數據、臨床試驗數據、檢驗數據、費用數據、醫(yī)院運營管理數據、醫(yī)藥研發(fā)數據、藥品流通數據、智能穿戴數據、體檢數據等等。
這些數據中,一部分是來自政府的公共數據,例如常規(guī)人口統計和重大疾病監(jiān)測數據、醫(yī)療保險數據等,這些數據具有較高的權威性和可靠性,當前我國有序推進公共數據開放,推動公共數據資源開發(fā)利用,充分釋放公共數據價值。
另一部分是企業(yè)自有數據,例如有些企業(yè)擁有自己的研究數據,還有軟硬件產品進行自主采集獲取的數據,再進行結構化處理,形成人工智能的訓練基礎。
此外,還有一些數據產業(yè)合作數據,通過與醫(yī)療機構的合作項目獲取高質量的醫(yī)療數據,并將其用于模型訓練。
除以上主要數據來源之外,互聯網上的公開數據、知識文獻以及行業(yè)開源的數據集,也是AI大模型訓練的重要數據來源。
四、產業(yè)各方正在探索 破解數據難題
在推進醫(yī)療AI大模型應用過程中,產業(yè)各方正在積極探索多種解決方案,以期破解數據難題。
政府層面,通過發(fā)布一系列政策文件,支持健康醫(yī)療大數據的應用發(fā)展,并推動人工智能技術的研發(fā)和應用。這些措施涵蓋了從頂層規(guī)劃到技術創(chuàng)新、標準制定、市場培育以及應用推廣等多個方面。例如積極加快醫(yī)療信息化建設,推進數據互聯互通,推動醫(yī)療數據的開放與共享,同時加強數據使用的監(jiān)管等。特別是“數據二十條”創(chuàng)新提出了建立數據資源持有權、數據加工使用權、數據產品經營權等分置的產權運行機制,以盤活數據資源要素的活力,推進了我國的建立。業(yè)內專家曾表示,在這個數據基礎制度的基礎上,有望破解醫(yī)療健康數據開放與信息保護的“兩難困境”、合法合規(guī)開展醫(yī)療健康數據流通和交易活動、激活數據提供者和開發(fā)者的動力、建立安全可控和彈性包容的數據要素治理制度。
在數據標準化方面,各國和地區(qū)正在努力推動醫(yī)療數據的標準化,制定統一的數據格式和協議,確保不同來源的數據能夠無縫整合。包括推廣HL7、FHIR等標準,以實現數據的互操作性。中國信通院自2020年開始,聯合業(yè)界陸續(xù)起草《醫(yī)療健康大數據平臺》系列標準解決醫(yī)療數據質量參差不齊、管理欠規(guī)范、應用不足等問題,對數據質量管理、數據資產管理、智能化處理等關鍵環(huán)節(jié)提出標準化技術規(guī)范,相關成果已于日前發(fā)布。此外,2023年,中國信通院還牽頭,聯合20余家相關產學研用單位共同研究起草《醫(yī)療健康行業(yè)大模型應用技術要求》系列標準發(fā)布,醫(yī)療健康領域也有了大模型應用技術標準規(guī)范。
數據交易所、數據平臺的建立,為醫(yī)療AI大模型的發(fā)展提供了助力。各地數據交易所不斷有醫(yī)療健康數據產品上架交易,例如國家健康醫(yī)療大數據中心(北方)推進數據產品場內交易,在惠醫(yī)領域,打造了腫瘤高風險人群全生命周期健康管理數據隊列產品。北數所近日專門推出AI大模型訓練數據集,包含170余個數據集產品,其中數十個涉及醫(yī)療健康領域,助力AI大模型訓練。數據平臺方面,例如2024年6月在北京智源大會上發(fā)布的北京人工智能數據運營平臺,匯聚了超過700萬億字節(jié)的通用數據集,包含醫(yī)療、教育、法律、新聞等18類行業(yè)數據,未來將進一步擴展到30類左右。此外,市場上也有不少企業(yè)乘著風口建立了AI數據平臺,提供AI數據采集標注等服務,成為AI大模型訓練的數據供應方。
技術層面,隱私計算、聯邦學習等技術不斷發(fā)展,期望通過在不直接共享數據的情況下,利用分布式計算模型來實現數據的聯合分析,為AI在保護隱私的同時實現數據共享提供新的解決方案。
產業(yè)合作層面,醫(yī)療大模型的應用勢不可擋,許多醫(yī)療機構也開始積極擁抱AI大模型。AI企業(yè)率先抱緊頭部公立醫(yī)院,與醫(yī)院開展合作共研,有效利用脫敏后的院內數據進行大模型訓練,再通過AI大模型能力,幫助醫(yī)院提升醫(yī)療服務和運營效率。除醫(yī)療機構外,AI企業(yè)與藥企、與醫(yī)療服務企業(yè)、科研院所的合作不勝枚舉,多方協同是產業(yè)發(fā)展的必經之路。
五、結語
醫(yī)療AI的未來發(fā)展離不開數據的支持,但數據的獲取和使用卻面臨諸多挑戰(zhàn)。盡管如此,隨著技術的進步和產業(yè)各方的共同努力,未來這些挑戰(zhàn)有望被逐步克服。
接下來還需要進一步發(fā)揮產業(yè)協同效應,共同推動醫(yī)療AI大模型真正發(fā)揮潛力,為醫(yī)療健康事業(yè)帶來更多可能性。我們誠邀醫(yī)療健康領域的企業(yè)和機構積極參與到“AI大模型應用場景”產學研融通創(chuàng)新活動中來,提出創(chuàng)新性的解決方案,推動醫(yī)療行業(yè)的智能化變革。
注:文章來源于網絡,如有侵權,請聯系刪除