第八屆數字中國建設峰會于4月29日至30日在福建福州舉辦。本屆峰會聚焦突破數據領域堵點難點問題,圍繞如何進一步實現數據要素市場化價值化,如何進一步豐富并用好已有工具箱為數據“供得出、流得動、用得好、保安全”架橋、鋪路、筑基等展開。峰會期間,中國電信發布星海·多模態數據智能標注平臺和星海·多方隱私計算工具服務,推進高質量數據集和數據安全流通利用,助力數據產業發展。
數據產業規模擴展與生態完善并進
國家數據局數據顯示,2024年,全國數據市場交易規模超1600億元,同比增長30%以上。數據標注產業發展也取得了階段性成果。我國七個基地的數據標注規模達17282TB,形成醫療、工業、教育等行業的高質量數據集335個,帶動數據標注相關產值83億元。
以中國電信為代表的通信運營商,依托“云網數智安”一體化優勢,已建成覆蓋全國的7大數據標注基地,形成“算力+平臺+場景”的生態閉環。中國電信以星海·數據要素服務平臺為著力點,支撐全國7省+30地市級公共數據要素運營,依托“云網數智安”一體化優勢,助力打造國家級數據標注試點基地,例如在四川成都新津區,聯合地方政府打造國家級數據標注基地。
高質量數據集是技術創新燃料
高質量數據集是人工智能發展的基石,其價值不僅在于技術突破,更在于推動社會經濟的全面數字化轉型。
中國電信四川公司與成都市國家數據標注基地牧山園區合作,從地方應用痛點出發,利用已采集的19個地市方言語音大數據,成功構建了四川方言高質量數據集,并基于此訓練出四川方言大模型,支撐落地政務服務熱線、醫療問診等場景,提升座席人員工作效率超20%。
憑借海量數據資源和自主可控技術優勢,中國電信形成了多模態數據智能標注能力,本次峰會,中國電信展出了星海·多模態數據智能標注平臺,集成50余種數據標注工具,以大模型自動預標注技術提升標注效率17倍,復雜任務一致性突破95%。
產業協同推進數據標注合規
數據標注作為生成式AI的“第一道安全閥”,其合規性決定著數據要素流通的根基。中國電信通過融合量子加密、區塊鏈技術,打造“蓉數公園·新津節點”,實現數據標注全流程可追溯。推出的“大模型多方隱私計算訓練平臺”創新性地融合“彈性調度+隱私安全”技術架構,支持至少3種分布式優化聚合算法,可靈活適配10余方參與的大規模隱私協同訓練。
同時中國電信加強生態合作,聯合整數智能、路米科技等10余家中小企業,構建數據標注、人才培訓、智能服務等生態合作圈,開放電信技術平臺及工具鏈能力,扶持中小企業發展;聯合上海庫帕思、中文在線等10余家數商企業,打造語料共建共享生態聯盟,促進跨領域跨行業數據集進一步開放;打造星海企業級可信數據空間,即星海數據開源社區,提供一體化數據治理、模型訓練等供需,促進上下游企業共建共用。