Labs 導讀
為了更好地解決行業合作、交互可信和數據共享問題,實現跨行業的模型共享訓練以及生態構建,天津公司人工智能實驗室打造了“珍瓏”,一款基于“區塊鏈+聯邦學習”的多方數據共享模型訓練引擎,用于智慧零售、風險評估和滿意度預測等場景,實現多方隱私數據共享,構建數據生態,打破數據孤島,挖掘數據聯合價值,從而實現多方安全計算。
“珍瓏”取名字珍瓏棋局,來自于天龍八部小說情節,逍遙派掌門人無崖子擺出一個“珍瓏”棋局,邀請天下英雄來破解。可是30年均無人解得,最后,棋局竟然被虛竹閉著眼睛胡亂撞開。珍瓏,就是要匯聚各行業數據來產生價值,又能安全可信,最終一招點睛,全盤皆活。
這就是珍瓏的價值,通過引入先進的聯邦學習技術,充分發揮聯邦學習的跨行業模型共享能力,并將AI模型上鏈,結合聯盟鏈去中心化、開放、防篡改、匿名、可追溯的關鍵特性,打造構思奇巧又智慧共贏的共享智能引擎系統,在運營商、本地生活、視頻內容、交通出行等多行業數據的支撐下,實現精確的營銷識別,并推薦最佳產品權益,讓區塊鏈+聯邦學習成為智慧零售的引擎、智腦。
1 珍瓏的創新點
(1)打造聯邦學習的模型共享訓練引擎,實現更精準的推薦。
基于聯邦學習模型實現中國移動和互聯網合作伙伴間的共享、共贏 ,在保護各企業的數據安全的基礎上,協調多方資源,實現企業間的聯合建模,提升數據挖掘和推薦的準確率。聯邦學習模型具有合理的激勵機制,參與方提供的數據越多,其模型的學習效果越好。珍瓏采用縱向聯邦學習機制,取出合作方針對相同用戶而特征不同的那部分數據進行共享訓練。
(2)打破數據壁壘,實現多方安全計算的新機制
“珍瓏”打破堅固的數據壁壘,其聯邦學習模型可以很好的解決數據不可出數據庫的壁壘問題,企業數據不需要出倉,不存在原始數據被復制,以及傳輸過程中的安全隱患,即可完成多方聯合建模,取得比單獨企業數據更好的預測效果,聯邦學習框架,也支持獲取更全面的客戶特征,打造共享又可信的合作生態機制。
(3)結合區塊鏈優勢解決聯邦學習的安全問題,筑牢多方合作的信任基礎。
聯邦學習模型涉及到多方數據的共享訓練,由聯邦中心負責秘鑰管理和模型梯度管理,需要定期對聯邦中心進行審計,存在信任的問題。“珍瓏”采用區塊鏈這種“可信媒介”技術解決共識和可信問題,所記錄的交易不可篡改,模型的訓練、推理、角色對齊均上鏈,通過智能合約、共識計算等實現多方合作的可信網絡,且能在多方聯邦情況下以區塊代替中心節點的作用,降本增效。
2 珍瓏的技術先進性
珍瓏具有優異的技術價值,創新性的將聯邦學習和區塊鏈結合起來,解決運營商實際問題,其架構如圖所示。
企業數據層,中國移動及合作伙伴的用戶隱私數據依然只存儲于各自內網系統中,訓練及推理請求均由內網應用發起。
聯邦參與方服務層,中國移動及合作伙伴分別構建一套本地AI模型,將模型特征及參數,以及數據標識,提供給區塊服務層進行數據上鏈,并接收其他參與方的模型等數據進行數據共享的模型迭代更新。
區塊服務層,作為AI模型與區塊鏈CMBaas平臺的中間服務節點,提供定制化數據上鏈及數據消費的服務。
共享數據區塊平臺層,即CMBaas,通過智能合約及共識機制為整個系統提供去中心化、不可逆、互信的模型共享訓練平臺。
珍瓏的“聯邦學習+區塊鏈”應用,主要有數據對齊、模型訓練、模型推理三個數據流:
(1)數據對齊,在模型開始訓練之前,各參與方需要共享加密后的用戶id數據,同步給其他參與方進行id對齊。
(2)模型訓練,聯邦參與方進行數據特征提取和本地模型訓練,模型參數通過區塊鏈上鏈服務進行數據上鏈,經過CMBaas的智能合約判斷,并通過區塊鏈共識算法后,生成新的區塊。其他參與方的區塊消費服務檢測發現新區塊的生成,獲取到區塊數據后進行自己模型的參數迭代優化,更新參數,直到所有聯邦參與方均達到模型預設收斂條件。
(3)模型推理,中國移動及合作伙伴發起模型推理請求,區塊服務進行數據上鏈,智能合約及共識算法進行數據驗證并生成區塊,其他參與方監測新區塊生成,判斷推理請求是否與自身相關,進行共同推理解密,請求方獲得最終模型推理結果,返回業務系統。
3 珍瓏的商業推廣價值
(1)“運營商+互聯網公司”多方共享的智慧零售
智慧零售的目的,就是要用AI和大數據技術為客戶帶來個性化的營銷服務。成功的營銷方案必須合理搭配產品特征、客戶購買能力和購買偏好等三大要素。互聯網內容商擁有大量的產品信息、銀行或保險公司有客戶購買能力的數據,中國移動有用戶的購買偏好信息。出于隱私保護是無法實現數據共享的,“珍瓏”就可以打破這種堅固的數據壁壘,基于聯邦學習模型,各個參與企業的數據停留在本地數據庫,即可完成多方安全計算和聯合建模,取得比單獨企業數據進更好的分析效果,獲取更全面的客戶特征,推薦更精準,挖掘更多的商機。
(2)“運營商+銀行”聯合信用評估
珍瓏利用聯邦學習技術搭建中國移動和銀行之間的聯邦和信用評分模型,雙方在不共享數據的基礎上實現了聯合建模,從技術上打破數據孤島,實現更準確高效的信用評估,同時,區塊鏈也確保了去中心化架構,多家運營商和銀行可以打造信用評分共享機制,結果可追溯且不可篡改,形成模型共享訓練生態。
4 珍瓏與區塊鏈的聯系
產品和區塊鏈技術結合緊密,真正用區塊鏈解決了AI建模的難題,實現“聯邦學習+區塊鏈”的新模式、新應用。
在多方共同參與模型訓練后,如何對多方數據進行統一管理,就成為一個重要課題,珍瓏通過引入區塊鏈智能合約技術解決這個難題。
(1)多方貢獻度判定
多參與方在進行數據上鏈時,均會在區塊鏈平臺生成一個永久不可逆的數據區塊,以此計算當前參與方本次上鏈對整體模型的貢獻度,在模型收斂后,可以對全部參與方對最終模型的貢獻度進行量化判斷,為聯邦參與方的合作提供談判依據。
(2)異常參與方識別
在平臺運營過程中,通過智能合約及共識算法對各參與方的訓練及推理請求進行統一規則的判定,如發現非法上鏈請求,將會拒絕在區塊鏈中生成區塊,從而規避風險,控制流量,保障優質合作方的請求。
5 產品成效及下一步發展
當前,“珍瓏”整體架構已經在CMBAAS區塊鏈平臺大賽中進行了demo的開發、部署、驗證工作,將B域大數據用戶標簽與O域家寬數據模擬兩方進行聯合共享訓練,實現用戶資費滿意度的預測模型。已實現的滿意度預測聯合訓練部署架構如下:
下一步將在三個方面持續提升:
(1)整體平臺部署及網絡聯調
在整體平臺架構中涉及內網應用主動訪問互聯網應用的需求,一方面,CMBaas區塊平臺及服務需要部署公網,以吸引更多域外企業加入生態,另一方面,聯邦學習需要獲取企業內網用戶數據實現多方數據聯合訓練,因此,需要打通內外網網絡,通過防火墻管控內外網聯通端口。
(2)構建統一管理平臺
構建一套參與方管理平臺,通過頁面可視化方式,一方面實現參與方的自助注冊、數據上傳、模型申請、推理服務等業務能力,另一方面為平臺提供參與方入駐審核、狀態管理、貢獻度查詢、異常參與方判斷等管理能力。
(3)擴展聯邦學習模型算法類型
目前已完成基于決策樹模型的資費滿意度預測模型構建,后續可以預置其他高級智能模型,如CNN/RNN,預訓練模型等,實現各參與方入駐后直接選擇相關模型進行業務場景構建。
后續,“珍瓏”將積極推進平臺推廣及生態運營,吸引運營商領域以外的企業入駐,通過多方數據的可控共享,實現多方的業務共贏。
團隊介紹:
趙東明,項目負責人,博士,浙江大學博士后,中國移動AI中臺專家/“高層次”專家/IT高級專家,天津移動AI實驗室負責人,累計獲得116項科技獎勵及榮譽,16項發明專利,20余篇高水平論文,負責產品的人工智能、區塊鏈技術研發、算法研究和產業賦能工作。
田雷,技術負責人,北大數學系碩士,天津中心大數據架構專家,積累了大量數據倉庫和大數據平臺的系統架構、數據模型、需求開發的先進經驗,負責產品的聯邦學習算法及大數據支撐工作。
劉靜,系統架構師,華中師范大學碩士,中國移動集團大數據專家,長期鉆研客戶需求深度挖掘,基于AI算法促進存量客戶價值循環升檔研究,負責產品的區塊鏈算法及工程實現。
石理,算法工程師,南開大學碩士,集團AI中臺專家,在人工智能、計算機視覺、機器學習方面具有較豐富的研發經驗,負責視覺產品的聯邦學習算法研發。
吳娜,交互設計師,北京郵電大學碩士,UI專家,負責產品交互界面的設計、開發,以及AI模型的標準、運營和優化。
特別鳴謝:亞信科技PRD研發中心技術專家楊愛東、孔令魯、林大興、劉志勇、韋強申,以及CMC客服產品部的徐晨興、王新,給予充分的技術支持和幫助。