“人形機(jī)器人訓(xùn)練的問題歸根結(jié)底就是數(shù)據(jù)的問題”。多位采訪對象向新京報貝殼財經(jīng)記者表達(dá)了相似的觀點。
從不同企業(yè)近期的一些戰(zhàn)略布局動作來看,數(shù)據(jù)的重要性正在提升。3月17日,傅利葉正式開源全尺寸人形機(jī)器人數(shù)據(jù)集Fourier ActionNet,并發(fā)布全球首個全流程工具鏈,首批上線超3萬條高質(zhì)量真機(jī)訓(xùn)練數(shù)據(jù);3月10日,智元機(jī)器人正式發(fā)布首個通用具身基座大模型—智元啟元大模型(GenieOperator-1),借助人類和多種機(jī)器人數(shù)據(jù),讓機(jī)器人獲得學(xué)習(xí)能力;1月9日,銀河通用機(jī)器人發(fā)布端到端具身抓取基礎(chǔ)大模型GraspVLA,利用合成數(shù)據(jù)學(xué)習(xí)測試。
薩摩耶云科技集團(tuán)AI機(jī)器人行業(yè)研究員鄭揚洋認(rèn)為,“數(shù)據(jù)未來會成為拉開企業(yè)差距的重要因素,擁有高質(zhì)多樣化數(shù)據(jù)集的企業(yè),能在訓(xùn)練、優(yōu)化機(jī)器人模型上取得優(yōu)勢,提高自己的市場競爭力?!?/p>
供具身大模型學(xué)習(xí)的數(shù)據(jù)遠(yuǎn)低于通用大模型可學(xué)習(xí)的數(shù)據(jù)
從行業(yè)發(fā)展的歷史來看,人形機(jī)器人并不是一個新鮮的事物,但在ChatGPT發(fā)布以后,市場將AI帶來的想象空間和具身智能進(jìn)行了結(jié)合,希望大模型可以賦予機(jī)器人更高的智能水平,熱度開始上漲。
人形機(jī)器人本質(zhì)上是一個智能體,要想做出和人類一樣的動作,需要龐大的數(shù)據(jù)作為訓(xùn)練的基礎(chǔ),培育出性能優(yōu)秀的具身智能大模型,機(jī)器人才有可能實現(xiàn)泛化的能力。
“我們可以隨意拿起一個水瓶或者咖啡杯,但對機(jī)器人來說,這是兩個完全不同的物體,用多大的力,摩擦系數(shù)的大小是多少都不一樣,這些都是需要機(jī)器人通過學(xué)習(xí)的數(shù)據(jù)計算而來?!便y河通用機(jī)器人公司某算法工程師告訴貝殼財經(jīng)記者。
大語言模型之所以可以快速發(fā)展,和數(shù)據(jù)量充足有著直接關(guān)系,網(wǎng)絡(luò)上的文本、圖片、視頻以及各種公開資料都是模型可以學(xué)習(xí)的。但到具身大模型領(lǐng)域,可供學(xué)習(xí)的數(shù)據(jù)并不多。
清控金信資本高級投資經(jīng)理萬安在接受貝殼財經(jīng)記者采訪時指出,“機(jī)器人訓(xùn)練所需要的是對三維空間的運動描述的數(shù)據(jù),而現(xiàn)在這些可供機(jī)器人學(xué)習(xí)訓(xùn)練的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)不夠?!?/p>
“具身智能大模型的發(fā)展遠(yuǎn)落后于通用大模型的發(fā)展?!庇顦淇萍紕?chuàng)始人王興興曾公開表示。
但如今各家企業(yè)已經(jīng)開始發(fā)力解決“數(shù)據(jù)饑渴”的問題。傅利葉將開源全尺寸人形機(jī)器人數(shù)據(jù)集Fourier ActionNet,據(jù)介紹,該數(shù)據(jù)集囊括了傅利葉GRx系列所有機(jī)型的各類任務(wù)訓(xùn)練,完整記錄機(jī)器人在真實環(huán)境中的任務(wù)執(zhí)行數(shù)據(jù);智元機(jī)器人此前發(fā)布的智元啟元大模型將結(jié)合互聯(lián)網(wǎng)視頻和真實人類示范進(jìn)行學(xué)習(xí),增強模型對人類行為的理解;銀河通用機(jī)器人將利用仿真數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí)。
去年12月底,國家地方共建具身智能機(jī)器人創(chuàng)新中心與北京大學(xué)計算機(jī)學(xué)院聯(lián)合推出了一個大規(guī)模多構(gòu)型具身智能數(shù)據(jù)集和Benchmark——RoboMIND,支持多本體任務(wù)并具備通用性。
“數(shù)據(jù)集可以通過提供高質(zhì)量的訓(xùn)練數(shù)據(jù)提升機(jī)器人的性能和適應(yīng)性,降低開發(fā)成本,推動行業(yè)標(biāo)準(zhǔn)化和技術(shù)創(chuàng)新,從而加速機(jī)器人企業(yè)的商業(yè)化進(jìn)程?!编崜P洋指出。
既要比拼數(shù)據(jù)類型,又要比拼數(shù)據(jù)成本
雖然各家企業(yè)在使用哪種數(shù)據(jù)進(jìn)行訓(xùn)練的方面有不同選擇,但他們共同需要考慮的一個問題就是數(shù)據(jù)的成本問題。過去數(shù)據(jù)采集的成本居高不下,人力、物力以及時間成本都制約了高質(zhì)量數(shù)據(jù)的獲取。
據(jù)相關(guān)媒體報道,2024年8月,特斯拉為了解決數(shù)據(jù)不足的問題開始招聘了“數(shù)據(jù)收集操作員”,具體工作時間則是“三班倒”,預(yù)期時薪為25.25美元至48美元。特斯拉的Optimus(擎天柱,特斯拉開發(fā)的一款人形機(jī)器人)社交媒體賬戶曾發(fā)布過一段視頻,展示了該崗位的具體工作內(nèi)容,在視頻中,一名操作員穿著動作捕捉服,戴著觸覺手套和VR頭顯拾取物體,而虛擬版特斯拉Optimus機(jī)器人則執(zhí)行相同的動作。
萬安告訴貝殼財經(jīng)記者,“現(xiàn)在最大的成本就來自人力成本,動作數(shù)據(jù)的復(fù)雜程度很高,要實現(xiàn)預(yù)期的訓(xùn)練效果需要海量高質(zhì)量數(shù)據(jù)。例如一個簡單的‘倒水’動作就需要學(xué)習(xí)幾百條數(shù)據(jù)?!?/p>
在鄭揚洋看來,除高成本之外,數(shù)據(jù)采集還存在數(shù)據(jù)質(zhì)量參差不齊,如不同傳感器存在采樣精度差異的問題,行業(yè)缺乏數(shù)據(jù)集的處理標(biāo)準(zhǔn),對數(shù)據(jù)的處理方法不一將導(dǎo)致數(shù)據(jù)難以共享和通用。
相較于具身大模型的發(fā)展和突破,機(jī)器人硬件本體的創(chuàng)新會相對更加容易一些。宇樹科技之所以可以在這一次機(jī)器人熱浪中受到較高的關(guān)注,就在于本體的運動控制。王興興曾指出,因為有了四足機(jī)器狗的技術(shù)積累,做人形機(jī)器人相對來說會比較容易,硬件等一些零部件是可以通用的。
多位受訪者將當(dāng)下人形機(jī)器人的發(fā)展階段與早期自動駕駛技術(shù)的發(fā)展進(jìn)行類比,豐富海量的數(shù)據(jù)和足夠的算力是自動駕駛技術(shù)得以普及的關(guān)鍵因素。人形機(jī)器人未來想要普及,數(shù)據(jù)的突破至關(guān)重要。
“不同企業(yè)之間在訓(xùn)練數(shù)據(jù)上不僅要比拼數(shù)據(jù)類型,還要比拼數(shù)據(jù)成本。至于數(shù)據(jù)類型和成本哪個更重要,取決于企業(yè)的需求和應(yīng)用場景?!编崜P洋認(rèn)為。
在她看來,仿真數(shù)據(jù)的采集成本相對較低,但可能需要額外的資源來縮小仿真與現(xiàn)實之間的差距,企業(yè)在選擇數(shù)據(jù)采集方式的同時,也需要考慮到成本的影響,在采集方式和成本之間找到平衡。數(shù)據(jù)將會成為未來拉開企業(yè)差距的重要因素。
但萬安也坦言,“現(xiàn)在數(shù)據(jù)的收集還處在較為初期的階段,這些數(shù)據(jù)在人形機(jī)器人實際操作落地的階段將會起到哪些作用,還沒有看到顯著的差異化,還需繼續(xù)觀察。”
新京報貝殼財經(jīng)記者 張晗
編輯 陳莉
校對 柳寶慶