中國信通院云計算與大數(shù)據(jù)研究所何寶宏:面向AI,數(shù)據(jù)技術(shù)體系正朝著“數(shù)智融合”方向演進
飛象網(wǎng)訊 12月13日,在“2026中國信通院深度觀察報告會”上,中國信息通信研究院云計算與大數(shù)據(jù)研究所所長何寶宏就面向AI的數(shù)據(jù)發(fā)展分享了自身思考和見解。

數(shù)據(jù)的規(guī)模、質(zhì)量決定大模型的上限
談及在AI大模型發(fā)展中,數(shù)據(jù)扮演的角色,何寶宏分別從AI和數(shù)據(jù)的發(fā)展兩個角度進行了解答。他表示,早期的人工智能是基于規(guī)則,和數(shù)據(jù)關(guān)系不大;而這一波以大模型為代表的人工智能,數(shù)據(jù)扮演著非常核心的角色。
從數(shù)據(jù)的角度來看,大數(shù)據(jù)上一波的核心驅(qū)動主要是推薦算法,典型的應(yīng)用包括一些用戶畫像,風險控制、市場獲客等;而這一波數(shù)據(jù)的熱潮主要是以人工智能驅(qū)動,可以說數(shù)據(jù)在這一波人工智能大模型的發(fā)展中,起著非常核心的作用!皵(shù)據(jù)的規(guī)模、數(shù)據(jù)的質(zhì)量決定著大模型的上限,所以能看到數(shù)據(jù)是重中之重!
人工智能發(fā)展對數(shù)據(jù)提出新的需求和挑戰(zhàn)
2025年以來,人工智能的發(fā)展呈現(xiàn)出一些新特征,對數(shù)據(jù)也提出了一些新需求。比如語言大模型,它的邊際效應(yīng)遞減已經(jīng)非常明顯,所以語言大模型要進一步提高它的能力,就需要更高質(zhì)量的數(shù)據(jù)。另外一方面,除了語言大模型,越來越多的關(guān)注點開始轉(zhuǎn)向了多模態(tài),無論是對語言大模型的持續(xù)優(yōu)化,還是對多模態(tài)模型等數(shù)據(jù)都提出了一些新的需求、新的挑戰(zhàn)。
何寶宏指出,為了進一步提高語言大模型的能力,就需要發(fā)展更高質(zhì)量、覆蓋范圍更廣的數(shù)據(jù)。為了提升語言大模型推理能力,圍繞推理甚至應(yīng)用如Agent等,需要結(jié)合場景和應(yīng)用等一些私域的、行業(yè)的、專有的數(shù)據(jù)。對于多模態(tài)大模型的發(fā)展來說,就不能僅僅只有文字類,還需要音頻、視頻等,這些數(shù)據(jù)如何對齊,在數(shù)據(jù)發(fā)展中也提出新的需求和挑戰(zhàn)。
數(shù)據(jù)技術(shù)正以體系化的方式發(fā)生巨大變革
在何寶宏看來,為應(yīng)對這些新需求、新挑戰(zhàn),數(shù)據(jù)技術(shù)正以體系化的方式發(fā)生巨大變革。
具體來看,一方面,現(xiàn)有數(shù)據(jù)體系需面向人工智能進行定制化轉(zhuǎn)型與適配。以數(shù)據(jù)治理為例,以往通用的治理模式,如今需結(jié)合人工智能的專用場景進行調(diào)整優(yōu)化;即便是已有的DataOps體系,也需要衍生出面向AI的專屬分支(DataOps For AI),重點推進數(shù)據(jù)安全治理等相關(guān)工作,本質(zhì)上是現(xiàn)有數(shù)據(jù)領(lǐng)域工作向AI適配的轉(zhuǎn)型。
另一方面,人工智能的發(fā)展也催生了數(shù)據(jù)領(lǐng)域的新情況、新問題,這是以往未曾出現(xiàn)的。當前這一波人工智能以生成式AI為核心,其生成的結(jié)果本身也屬于數(shù)據(jù)范疇。隨著近年來生成式AI的快速迭代,如今的數(shù)據(jù)格局已發(fā)生改變——人類產(chǎn)生的數(shù)據(jù)、傳統(tǒng)互聯(lián)網(wǎng)數(shù)據(jù)與AI合成/生成的數(shù)據(jù)日益交融,難以精準區(qū)分。后續(xù),如何應(yīng)對AI合成數(shù)據(jù)帶來的挑戰(zhàn),尤其是如何規(guī)范AI合成數(shù)據(jù)在模型訓練與迭代中的應(yīng)用,已成為數(shù)據(jù)領(lǐng)域亟待解決的新課題。
何寶宏進一步講到:“除了數(shù)據(jù)資源層面的變化,數(shù)據(jù)技術(shù)層面也需同步迭代升級。”受上述數(shù)據(jù)資源體系變革的驅(qū)動,數(shù)據(jù)技術(shù)正迎來一系列新調(diào)整:在數(shù)據(jù)存算領(lǐng)域,宏觀層面上存算架構(gòu)逐步向分布式、存算分離的方向發(fā)展,而面向本地或就近數(shù)據(jù)處理的需求,近存計算模式也愈發(fā)重要;同時,由于數(shù)據(jù)體量激增,需根據(jù)數(shù)據(jù)“溫度”(熱數(shù)據(jù)、溫數(shù)據(jù)、冷數(shù)據(jù))進行分級存儲,對應(yīng)的存儲介質(zhì)也需隨之優(yōu)化。在數(shù)據(jù)庫技術(shù)領(lǐng)域,人工智能的發(fā)展同樣提出了新要求——隨著AI向多模態(tài)方向演進,傳統(tǒng)單模態(tài)數(shù)據(jù)庫已顯現(xiàn)出效率偏低、成本偏高的問題,因此向量數(shù)據(jù)庫、多模態(tài)數(shù)據(jù)庫成為技術(shù)升級的重要方向。
最后,何寶宏強調(diào),受人工智能技術(shù)發(fā)展的驅(qū)動,當前數(shù)據(jù)技術(shù)正經(jīng)歷全方位的巨大變革,其核心目標是實現(xiàn)數(shù)智深度融合。
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責。
3.如因作品內(nèi)容、版權(quán)和其它問題,請在相關(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
1ms城市算網(wǎng)筑基:四川千行百業(yè)數(shù)智煥新
當前,人工智能引領(lǐng)的新一輪科技革命和產(chǎn)業(yè)變革正加速推進,各行各業(yè)都在嘗試以大數(shù)據(jù)、AI模型來升級業(yè)務(wù),這對算力基礎(chǔ)設(shè)施及其提供服務(wù)的靈活性提出了更高的要求。為更好地支持各行各業(yè)的..[詳細]
手機輕松暢玩PC游戲?G胖引發(fā)玩家大猜想
PC游戲在手機上游玩不是新鮮事,PC游戲通過模擬器在手機上游玩也不是什么新鮮事,然而Steam親自下場,讓Arm設(shè)備能夠運行PC設(shè)備,就絕對是一件值得關(guān)注的事了。畢竟前有SteamOS的成功,甚至能..[詳細]
中國具身智能機器人市場呈六大發(fā)展趨勢,2030年市場規(guī)模將達770億美元
根據(jù)國際數(shù)據(jù)公司(IDC)發(fā)布《中國具身智能機器人應(yīng)用市場分析與典型應(yīng)用實踐,2025》報告顯示,在政策、資本與產(chǎn)業(yè)鏈的三重驅(qū)動下,中國具身智能機器人市場已完成從“技術(shù)突破”到“價值落..[詳細]
中國電信柯瑞文:智能領(lǐng)航、智惠共生,全面擁抱人工智能推動數(shù)智生態(tài)高質(zhì)量發(fā)展
當前,人工智能正以前所未有的廣度和深度融入經(jīng)濟社會各領(lǐng)域,重塑生產(chǎn)方式、生活方式乃至治理模式。作為建設(shè)網(wǎng)絡(luò)強國、科技強國、數(shù)字中國的重要力量,中國電信主動把握以人工智能為代表的..[詳細]
趁AI之勢 開數(shù)智新局 中國電信戰(zhàn)略升級按下“AI+”加速鍵
12月5日,中國電信 2025 數(shù)智科技生態(tài)大會在廣州正式啟幕。本屆大會由中國電信攜手廣大生態(tài)伙伴共同打造,以 “智能領(lǐng)航,智惠共生” 為主題,全面展示了中國電信 “五位一體” 智能云體系的..[詳細]













