3月29日,2024北京AI原生產(chǎn)業(yè)創(chuàng)新大會暨北京數(shù)據(jù)基礎(chǔ)制度先行區(qū)成果發(fā)布會在京舉行。會上,北京國際大數(shù)據(jù)交易所(下稱“北數(shù)所”)牽頭,正式發(fā)布了首批100個人工智能大模型高質(zhì)量訓(xùn)練數(shù)據(jù)集。
本批數(shù)據(jù)集首次匯聚了來自中科院大氣物理所、北京市科學(xué)技術(shù)研究院、中國知網(wǎng)、中汽智聯(lián)、北方健康、中文在線、中國搜索、牡丹集團(tuán)、瑞萊智慧等36家機構(gòu)及企業(yè)提供的非公開數(shù)據(jù)集作為大模型語料訓(xùn)練數(shù)據(jù)。
數(shù)據(jù)集內(nèi)容覆蓋科技創(chuàng)新、金融服務(wù)、醫(yī)療健康、醫(yī)藥研發(fā)、自動駕駛、氣象服務(wù)、商業(yè)航天、影視創(chuàng)作等20多個應(yīng)用場景,共計100余個語料數(shù)據(jù),數(shù)據(jù)總量逾150PB,涵蓋了專業(yè)知識問答、中外論文期刊、古今文化書籍、互聯(lián)網(wǎng)輿情資訊、知識產(chǎn)權(quán)多語種音視頻、教學(xué)資源題庫、科研數(shù)據(jù)、駕駛環(huán)境場景數(shù)據(jù)、高清圖片等多領(lǐng)域、多模態(tài)數(shù)據(jù)語料。
其中,涉及醫(yī)療健康、醫(yī)藥研發(fā)場景的約20個數(shù)據(jù)集,具體包括:
單細(xì)胞代謝、轉(zhuǎn)錄組數(shù)據(jù)
多肽藥物庫
二型糖尿病人群隊列基因位點
核酸適配數(shù)據(jù)庫
基于醫(yī)保數(shù)據(jù)構(gòu)建藥物平價替代智能推薦算法模型
就近購藥、就診智能推薦模型
就診醫(yī)生、醫(yī)院信息智能推薦模型
臨床知識數(shù)據(jù)集
腦電預(yù)訓(xùn)練數(shù)據(jù)
匿名化健康醫(yī)療大數(shù)據(jù)
騙保行為AI自動識別算法模型
生物醫(yī)藥研發(fā)質(zhì)量控制與精準(zhǔn)
小分子藥物庫
藥店評價智能推薦模型
藥物化合物結(jié)構(gòu)式及ADMET數(shù)據(jù)
醫(yī)學(xué)大模型監(jiān)督微調(diào)數(shù)據(jù)集
用于反向虛擬篩選的蛋白質(zhì)數(shù)據(jù)庫
中醫(yī)藥消費趨勢判斷
中醫(yī)知識數(shù)據(jù)集
醫(yī)藥衛(wèi)生科技(期刊、報紙、論文)
北數(shù)所表示,通過北數(shù)所進(jìn)行人工智能數(shù)據(jù)集進(jìn)場交易,將更好的為模型訓(xùn)練提供更加合規(guī)可靠、便捷化、規(guī)模化的數(shù)據(jù)服務(wù),進(jìn)一步提高數(shù)據(jù)來源合規(guī)性,降低數(shù)據(jù)交易成本。北京金控集團(tuán)董事長、北數(shù)所董事長范文仲表示,建議積極推動高價值數(shù)據(jù)訓(xùn)練集和智能算力進(jìn)場交易,不斷提高人工智能模型訓(xùn)練的合規(guī)性,增加透明度,共同推動數(shù)據(jù)要素的開放利用,推動北京數(shù)字經(jīng)濟高質(zhì)量發(fā)展。
會上,北京亦莊發(fā)布了《北京經(jīng)濟技術(shù)開發(fā)區(qū)關(guān)于加快打造AI原生產(chǎn)業(yè)創(chuàng)新高地的若干政策》,提出到2026年,培育性能達(dá)到國際先進(jìn)水平的通用大模型,打造人工智能標(biāo)桿應(yīng)用場景10個,集聚人工智能產(chǎn)業(yè)鏈企業(yè)100家,實現(xiàn)園區(qū)營業(yè)收入1000億元,建成人工智能算力10000 PFlops。
文件明確了一系列補貼和獎勵政策,例如:
每年將發(fā)放1億元的算力券;
支持企業(yè)深耕垂直領(lǐng)域,重點圍繞AI+新藥研發(fā)等領(lǐng)域進(jìn)行技術(shù)攻關(guān),打造行業(yè)垂直領(lǐng)域大模型;
采取“揭榜掛帥”機制,鼓勵重點圍繞“大模型+”醫(yī)療等領(lǐng)域,打造一批可復(fù)制、可推廣的標(biāo)桿型示范應(yīng)用場景;
每年發(fā)放1億元模型券;
推動“大模型+醫(yī)藥研發(fā)”,加強數(shù)字生物學(xué)、計算機藥物發(fā)現(xiàn)、實驗室自動化、AI輔助臨床試驗等領(lǐng)域研發(fā),鼓勵大模型在藥物發(fā)現(xiàn)、設(shè)計、合成和生產(chǎn)全過程應(yīng)用。
與此同時,北京亦莊人工智能公共算力平臺3000PFlops規(guī)模的算力設(shè)備正式點亮并投入使用,這也是北京最大規(guī)模的高性能人工智能計算集群,可以幫助企業(yè)推動開展大模型訓(xùn)練,推廣行業(yè)應(yīng)用,進(jìn)一步夯實了北京大模型研發(fā)創(chuàng)新與行業(yè)應(yīng)用的算力底座。
注:文章來源于網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系刪除