日前,騰訊發(fā)布了具身智能開放平臺Tairos,這是國內(nèi)首個以模塊化的方式提供模型、開發(fā)工具和數(shù)據(jù)服務(wù)的具身智能軟件平臺!澳P蛯影硕嗄B(tài)感知模型、規(guī)劃大模型以及感知行動聯(lián)合大模型,相當(dāng)于提供機(jī)器人的右腦、左腦和小腦,機(jī)器人硬件本體廠商可以各取所需!彬v訊首席科學(xué)家、騰訊Robotics X實驗室主任、福田實驗室主任張正友在接受中國證券報記者采訪時表示。
“身智相融”“軟硬協(xié)同”,這是張正友在采訪中頻繁提及的關(guān)鍵詞。2018年加入騰訊組建機(jī)器人實驗室Robotics X以來,張正友團(tuán)隊推出過多款不同形態(tài)的機(jī)器人原型產(chǎn)品。在對國內(nèi)六七十家機(jī)器人公司的廣泛調(diào)研過程中,其團(tuán)隊發(fā)現(xiàn),很多廠商很難同時做好軟硬件。張正友表示:“具身智能本身需要非常大的投入,我們想把自己的一部分能力,例如具身智能軟件的能力變成平臺化的東西開放出來,希望能夠讓整個行業(yè)發(fā)展得更快、更健康。這是我們的出發(fā)點(diǎn)!
● 本報記者 楊潔
補(bǔ)齊關(guān)鍵軟件能力
跑著跑著,“頭”掉了仍然繼續(xù)跑……在張正友看來,機(jī)器人馬拉松比賽中的這一幕,充分反映了當(dāng)時機(jī)器人在感知行動聯(lián)合能力方面的不足。不過,他也表示:“行業(yè)進(jìn)步很快,明年再比,也許就可以甩開遙控器,實現(xiàn)自主奔跑。”
“智能”正成為各大機(jī)器人追求“進(jìn)化”的核心著力點(diǎn)。在Tairos發(fā)布環(huán)節(jié),一臺接入了Tairos平臺能力的宇樹機(jī)器人G1按照“走到我身邊”的指令順利走到了張正友身邊——它知道“身邊”是什么意思,在哪里,還能規(guī)劃怎么走過去。
“我問它,要不要喝一杯,它回答說,太忙了,晚上要加班。昨天晚上彩排的時候,它還不是這么說的。這是我第一次聽到它說晚上還要加班!睆堈严蛴浾呋貞洶l(fā)布環(huán)節(jié)的細(xì)節(jié),這是“智能”帶給人類的“小驚喜”。
這些都是機(jī)器人感知、規(guī)劃、行動能力提升的表現(xiàn)。但還遠(yuǎn)遠(yuǎn)不夠,比如除了視覺感知,還要有力感知、觸覺感知這些能力。“如果地面結(jié)冰了,不在跑道了,視覺沒有看到,一定要靠傳感器的力感知才能快速調(diào)整。”張正友說,這都是機(jī)器人仍然需要進(jìn)化的領(lǐng)域。
事實上,當(dāng)前機(jī)器人整體硬件能力提升要比軟件能力提升更快,因為具身智能本身更難、投入也更大!拔覀冋{(diào)研了國內(nèi)六七十家機(jī)器人公司發(fā)現(xiàn),一個公司想要把具身智能從本體到軟件全部做好是不現(xiàn)實的,尤其是初創(chuàng)公司,它可能硬件能力比較強(qiáng),但AI能力比較弱,因為所需投入比較大。如果能夠利用Tairos平臺幫助他們在模型方面實現(xiàn)進(jìn)步,整個能力就會提升。”張正友表示,“身智融無礙”,這正是騰訊推出具身智能開放平臺Tairos的初衷,致力于為機(jī)器人本體與應(yīng)用開發(fā)商補(bǔ)齊關(guān)鍵軟件能力。他強(qiáng)調(diào),騰訊聚焦于軟件能力不斷進(jìn)化和開放,而非做機(jī)器人本身。
雙足人形并非終點(diǎn)
張正友2018年組建騰訊機(jī)器人實驗室Robotics X,其團(tuán)隊曾推出多模態(tài)四足機(jī)器人Max、輪腿式機(jī)器人Ollie以及自研三指/五指靈巧手TRX-Hand、自研機(jī)械臂TRX-Arm以及人居環(huán)境機(jī)器人原型“小五”等。
2024年9月推出的“小五”,采用四腿輪足復(fù)合設(shè)計,兼具足式越障與輪式高效移動能力,并配備大面積觸覺皮膚、多指靈巧手及安全人機(jī)物理交互系統(tǒng),主要面向智慧養(yǎng)老場景需求。比如騰訊展示了養(yǎng)老院場景實驗中,“小五”抱扶老人、取快遞、自主避障推輪椅等功能。
復(fù)雜的人居環(huán)境,是張正友最感興趣也是探索機(jī)器人技術(shù)應(yīng)用的核心戰(zhàn)場!叭司迎h(huán)境是一個極具難度的場景,安全性、魯棒性挑戰(zhàn)都很大,用這樣比較難的場景驅(qū)動來打造研究原型,目的不是把機(jī)器人變成產(chǎn)品,而是把機(jī)器人的智能水平和本體里的某些核心技術(shù)(例如觸覺傳感器技術(shù)等)向前推進(jìn)。”張正友認(rèn)為,前沿探索有很多不確定性,不能被產(chǎn)品化所引導(dǎo),靠產(chǎn)品引導(dǎo)來做研究是做不成的,“假如是說什么時候一定要交付什么,往往就會做成hardcode(硬編碼)的東西!
張正友也認(rèn)為,雙足人形并不一定是人居環(huán)境的最佳形態(tài)。他指出,目前的人居環(huán)境以平地為主,雙足效率相對較低,如果把雙足人形作為標(biāo)準(zhǔn),就把很多想象力限制了,“人居環(huán)境里是不是會有更高效、更理想、更佳的機(jī)器人形態(tài),這是我們要去探索的!
張正友坦言,養(yǎng)老這樣的復(fù)雜人居環(huán)境場景具有很多困難,“我加入騰訊成立機(jī)器人實驗室曾有一個十年的規(guī)劃,現(xiàn)在七年已經(jīng)過去了,三年以后,我希望養(yǎng)老等各方面應(yīng)用能做起來。這也是騰訊為什么沒有在機(jī)器狗等形態(tài)的產(chǎn)品上做過多停留的原因。因為還有更大的目標(biāo)在支撐著我們,假如一開始停留在輪腿一體化、機(jī)器狗上面,那后面就沒精力去做其他東西了!
公眾熱情不是壞事
張正友指出,騰訊現(xiàn)階段的重點(diǎn)是模型能力和仿真環(huán)境的優(yōu)化!澳P湍芰、數(shù)據(jù)采集、仿真環(huán)境,這里面難點(diǎn)很多,每個環(huán)節(jié)都有不少需要提升的地方!彼e例說明,“在仿真環(huán)境里面如何讓觸覺很真實地仿真出來?像人的觸覺,空間分辨率在1毫米左右,在仿真環(huán)境里面目前還達(dá)不到這么好的分辨率!
此外,張正友認(rèn)為,大語言模型可以通過文本來理解世界,但機(jī)器人不行,針對真實世界有很多東西是用文字描述不出來的,3D世界模型還處于初步階段,“機(jī)器人需要的對3D世界的認(rèn)知并不是簡單地將一張照片變成3D就可以了”,這些方面可能沒有任何一家企業(yè)能單打獨(dú)斗就很好地攻關(guān),需要全行業(yè)一起努力!案嗥髽I(yè)和研究單位參與進(jìn)來,對具身智能的發(fā)展是利好。我們也愿意把具身智能軟件能力開放出來,幫助行業(yè)發(fā)展!睆堈颜f,也許會有技術(shù)不夠成熟的企業(yè)最后倒閉,但這是任何一個技術(shù)發(fā)展過程當(dāng)中都會出現(xiàn)的現(xiàn)象。
在張正友看來,外界的高度熱情不是壞事。他表示:“投資人以及行業(yè)從業(yè)者其實對具身智能領(lǐng)域什么能做、什么不能做、發(fā)展到什么階段、什么時候到來,心里是很清晰的。社會公眾對于機(jī)器人服務(wù)人、融入生產(chǎn)和生活有很高的期待,這種熱情對我們來說是一件好事,也對我們提出了更高要求,給我們提供了很多試驗場!
“具身智能行業(yè)還是剛剛起步,處于初級階段,如何讓具身智能行業(yè)往前走,我們怎樣用現(xiàn)有的能力投入,讓整個生態(tài)更完善,這是最重要的。”張正友說。