第八屆數(shù)字中國(guó)建設(shè)峰會(huì)期間,國(guó)務(wù)院國(guó)資委集中發(fā)布了首批10余個(gè)行業(yè)30項(xiàng)央企人工智能行業(yè)高質(zhì)量數(shù)據(jù)集優(yōu)秀建設(shè)成果。中國(guó)聯(lián)通信息通信領(lǐng)域高質(zhì)量數(shù)據(jù)集、醫(yī)療領(lǐng)域高質(zhì)量數(shù)據(jù)集成功入選。
中國(guó)聯(lián)通信息通信領(lǐng)域高質(zhì)量數(shù)據(jù)集
中國(guó)聯(lián)通立足信息通信行業(yè),緊盯大模型訓(xùn)練和數(shù)智應(yīng)用場(chǎng)景需求,充分發(fā)揮中國(guó)聯(lián)通數(shù)據(jù)一點(diǎn)集中和數(shù)據(jù)治理能力領(lǐng)先優(yōu)勢(shì),整合企業(yè)內(nèi)部600PB的文本、音頻、圖像、視頻等多模態(tài)數(shù)據(jù)資源,構(gòu)建了覆蓋網(wǎng)絡(luò)運(yùn)營(yíng)、客戶服務(wù)、智能終端、電信反詐、經(jīng)營(yíng)決策、管理辦公、科研創(chuàng)新、政企服務(wù)8個(gè)高質(zhì)量數(shù)據(jù)集,總規(guī)模超40TB。支撐聯(lián)通元景大模型訓(xùn)練與微調(diào),賦能網(wǎng)絡(luò)運(yùn)營(yíng)、客戶服務(wù)等AI場(chǎng)景應(yīng)用30+。
與此同時(shí),中國(guó)聯(lián)通率先完成了數(shù)據(jù)中臺(tái)面向AI多模態(tài)數(shù)據(jù)處理的智能化躍遷。新增AI數(shù)據(jù)集處理、管理、標(biāo)注及知識(shí)管理4項(xiàng)能力,形成星瀚數(shù)壤平臺(tái)。覆蓋AI數(shù)據(jù)集“采集、清洗、標(biāo)注、質(zhì)檢、使用、評(píng)測(cè)”全過程,面向數(shù)據(jù)清洗、標(biāo)注、質(zhì)檢3個(gè)關(guān)鍵環(huán)節(jié),上線35項(xiàng)智能處理算子、16項(xiàng)智能標(biāo)注能力,用于提升AI數(shù)據(jù)集質(zhì)量。目前,平臺(tái)已具備行業(yè)領(lǐng)先的一站式數(shù)據(jù)集生產(chǎn)流水線與億級(jí)多模態(tài)數(shù)據(jù)處理能力,服務(wù)軟研院、數(shù)智、數(shù)科等9個(gè)子公司,24個(gè)省分公司,累計(jì)1300+人次。
展望未來,中國(guó)聯(lián)通將以央企使命為引領(lǐng),充分發(fā)揮人工智能產(chǎn)業(yè)鏈“鏈主”作用,緊抓數(shù)據(jù)要素在人工智能發(fā)展過程中作用日益凸顯的關(guān)鍵時(shí)期,促進(jìn)數(shù)據(jù)資源的優(yōu)化配置與高效利用,助力數(shù)字經(jīng)濟(jì)與實(shí)體經(jīng)濟(jì)深度融合,為行業(yè)高質(zhì)量發(fā)展注入強(qiáng)勁動(dòng)能。
中國(guó)聯(lián)通醫(yī)療領(lǐng)域高質(zhì)量數(shù)據(jù)集
聯(lián)通數(shù)據(jù)智能有限公司作為中國(guó)聯(lián)通數(shù)智能力核心承載平臺(tái),鍛造數(shù)據(jù)智能標(biāo)注、數(shù)據(jù)增強(qiáng)等技術(shù)能力,建設(shè)可信數(shù)據(jù)空間,構(gòu)建醫(yī)療高質(zhì)量數(shù)據(jù)集。同時(shí)以數(shù)據(jù)之力,增模型之智,依托聯(lián)通元景大模型為智慧醫(yī)療發(fā)展注入強(qiáng)勁動(dòng)力。
規(guī)模大、維度全、安全可信的高質(zhì)量數(shù)據(jù)集。中國(guó)聯(lián)通聯(lián)合國(guó)內(nèi)多家頂尖醫(yī)療機(jī)構(gòu),構(gòu)建了覆蓋影像、診療、藥品等全維度的高質(zhì)量數(shù)據(jù)集,其中,數(shù)據(jù)集總規(guī)模達(dá) 100TB,胸部CT影像數(shù)據(jù)集標(biāo)注2萬余例,肺結(jié)核輔助診斷模型準(zhǔn)確率超95%;耳部CT影像數(shù)據(jù)集標(biāo)注5000余例,聽覺障礙識(shí)別準(zhǔn)確率達(dá)95%;腎臟病慢病管理數(shù)據(jù)集整合1萬例患者全周期數(shù)據(jù),風(fēng)險(xiǎn)預(yù)警模型準(zhǔn)確率突破95%;藥品說明書數(shù)據(jù)集涵蓋58000份藥品信息,實(shí)現(xiàn)用藥風(fēng)險(xiǎn)智能解析與動(dòng)態(tài)評(píng)估。
在數(shù)據(jù)治理與管理方面,中國(guó)聯(lián)通依托北京市全民言息平臺(tái),構(gòu)建醫(yī)療健康行業(yè)可信空間,制定數(shù)據(jù)脫敏規(guī)范,運(yùn)用數(shù)據(jù)沙箱和隱私計(jì)算雙引擎處理數(shù)據(jù),確保“原始數(shù)據(jù)不出域、數(shù)據(jù)可用不可見”。建立11項(xiàng)數(shù)據(jù)治理全流程運(yùn)營(yíng)標(biāo)準(zhǔn),通過多維度舉措保障數(shù)據(jù)質(zhì)量與安全。例如,在胸部CT影像數(shù)據(jù)標(biāo)注中,采用雙盲標(biāo)注和專家抽樣審核,確保標(biāo)注一致性評(píng)估結(jié)果超95%,準(zhǔn)確性達(dá)98%以上。
高效、準(zhǔn)確的系列醫(yī)療專科智能體。基于該高質(zhì)量數(shù)據(jù)集,中國(guó)聯(lián)通研發(fā)了一系列醫(yī)療專科智能體。基于胸部CT影像的肺結(jié)核疾病篩查與診斷模型智能體,準(zhǔn)確率超 95%,可實(shí)現(xiàn)分鐘級(jí)快速檢測(cè);腎臟病慢病管理干預(yù)模型智能體、耳部疾病輔助診斷模型智能體,助力醫(yī)務(wù)人員提高診斷效率及診療方案準(zhǔn)確性;藥品全生命周期智能評(píng)估模型智能體,為藥品研發(fā)、監(jiān)管等提供全鏈條數(shù)據(jù)支撐。
這些成果已在實(shí)際應(yīng)用中展現(xiàn)顯著成效,填補(bǔ)了多項(xiàng)技術(shù)空白,提升了醫(yī)療診斷效率與準(zhǔn)確性。后續(xù)將通過醫(yī)療健康行業(yè)可信數(shù)據(jù)空間,建設(shè)數(shù)據(jù)能力開放體系;通過基層醫(yī)療機(jī)構(gòu)推廣優(yōu)質(zhì)大模型應(yīng)用,持續(xù)推動(dòng)醫(yī)療健康數(shù)據(jù)要素流通。
高質(zhì)量醫(yī)療數(shù)據(jù)集是智慧醫(yī)療的基石,關(guān)乎國(guó)計(jì)民生。未來,中國(guó)聯(lián)通將攜手醫(yī)療機(jī)構(gòu)、科研院所、央國(guó)企及醫(yī)療企業(yè),持續(xù)構(gòu)建高質(zhì)量語料庫,加速行業(yè)應(yīng)用場(chǎng)景落地;打造可信數(shù)據(jù)服務(wù)商,推動(dòng)數(shù)據(jù)資源“供得出、流得動(dòng)、用得好、保安全”。