市場

具身智能“數(shù)據(jù)荒”，催熱“賣水人”

蓋世汽車 2026-03-19 07:30

近日，靈初智能和光輪智能相繼宣布完成20億元及10億元融資。

作為兩家新晉“獨(dú)角獸”企業(yè)，光輪智能主攻支撐物理AI生態(tài)運(yùn)行的仿真與數(shù)據(jù)基礎(chǔ)設(shè)施，靈初智能則致力于攻克靈巧操作難題，用自研的數(shù)采引擎將數(shù)據(jù)采集成本砍至“骨折”。換言之，在核心業(yè)務(wù)上，這兩家公司均聚焦于底層的數(shù)據(jù)基建。

那么，在各種機(jī)器人本體百花齊放的當(dāng)下，資本為何紛紛開始重注賽道的“買水人”？

答案藏在一個(gè)行業(yè)共識(shí)里：數(shù)據(jù)，正在成為具身智能發(fā)展的“命門”。

如果說算法是機(jī)器人的“大腦”，硬件是“骨骼”，那么數(shù)據(jù)就是流淌其間的“血液”——沒有血液，大腦的指令傳不到四肢，四肢的反饋回不到大腦，整個(gè)系統(tǒng)將陷入癱瘓。

伴隨著具身智能從概念驗(yàn)證快速走向規(guī)?；涞?，當(dāng)前行業(yè)的競爭主軸正在悄然移位，從“本體秀”進(jìn)入“數(shù)據(jù)戰(zhàn)”。

數(shù)據(jù)饑渴：具身機(jī)器人的“成長之困”

在AI的世界里，所有智能都源于數(shù)據(jù)的“喂養(yǎng)”。

回顧過去幾年大語言模型能力的涌現(xiàn)，正是建立在海量互聯(lián)網(wǎng)文本之上。同理，具身智能機(jī)器人想要實(shí)現(xiàn)真正意義上的“通用”，也必須用海量的數(shù)據(jù)去驅(qū)動(dòng)“大腦”。

“很多團(tuán)隊(duì)以為具身模型訓(xùn)不出來是卡在訓(xùn)練階段，實(shí)際多數(shù)問題在數(shù)據(jù)生成的起點(diǎn)就已經(jīng)埋下了，后面再堆模型、堆算力，只是在給錯(cuò)誤輸入繼續(xù)加速?！贝饲埃谡劶熬呱碇悄軘?shù)據(jù)重要性時(shí)，鹿明機(jī)器人CTO丁琰就如是說。

不僅如此，對(duì)于具身智能而言，數(shù)據(jù)規(guī)模越大、質(zhì)量越高，模型的泛化能力和操作精度就越強(qiáng)。沒有數(shù)據(jù)，再先進(jìn)的算法、再精密的硬件，都只是沒有靈魂的空殼。

然而，與大語言模型可以從互聯(lián)網(wǎng)上低成本甚至免費(fèi)獲取數(shù)據(jù)不同，具身智能所需的數(shù)據(jù)因其多方面的獨(dú)特性，大規(guī)模獲取并不容易。

圖片來源：靈初智能

首先，是數(shù)據(jù)模態(tài)的復(fù)雜性。

不同于大語言模型，具身智能需要的是機(jī)器人在真實(shí)物理世界中與環(huán)境互動(dòng)產(chǎn)生的多模態(tài)數(shù)據(jù)，這不僅包括圖像、視頻，還需要力覺、觸覺、聽覺等多種傳感器的實(shí)時(shí)反饋，以及機(jī)器人自身的運(yùn)動(dòng)學(xué)、動(dòng)力學(xué)參數(shù)。這種多維度數(shù)據(jù)的同步采集和標(biāo)注，比單純的文本或圖像處理復(fù)雜得多。

其次，是應(yīng)用場景的開放性與多樣性。

具身智能需要面對(duì)的環(huán)境覆蓋家庭、工廠、商場、戶外等多個(gè)不同類型的三維空間，涉及的交互對(duì)象既包括靜態(tài)的物體，也包括動(dòng)態(tài)的人類和其他生物，并且不同場景下的物理交互方式、物體屬性、環(huán)境特征千差萬別，物體的材質(zhì)、形狀、光照條件、甚至微小的干擾因素，都會(huì)對(duì)數(shù)據(jù)產(chǎn)生顯著影響，由此使得數(shù)據(jù)的采集、標(biāo)注和處理難度也呈幾何級(jí)增長。

例如，為了教會(huì)機(jī)器人完成一個(gè)簡單的擰瓶蓋動(dòng)作，可能就需要在不同光照、不同瓶型、不同握持力度下進(jìn)行成百上千次的嘗試和數(shù)據(jù)記錄，每一次嘗試都需要專業(yè)的設(shè)備和人工配合。

再者，是數(shù)據(jù)的閉環(huán)時(shí)序性。

與自動(dòng)駕駛一樣，具身智能需要的數(shù)據(jù)也是“狀態(tài)-動(dòng)作-新狀態(tài)”的連續(xù)閉環(huán)序列，因?yàn)闄C(jī)器人每個(gè)動(dòng)作都會(huì)改變環(huán)境，模型必須學(xué)會(huì)根據(jù)新狀態(tài)調(diào)整下一步動(dòng)作。這意味著，采集數(shù)據(jù)時(shí)不僅要記錄動(dòng)作，還要同步記錄環(huán)境變化和決策過程，這也導(dǎo)致技術(shù)實(shí)現(xiàn)難度指數(shù)級(jí)上升。

還有數(shù)據(jù)與硬件的強(qiáng)耦合關(guān)系，也是制約具身數(shù)據(jù)發(fā)展的關(guān)鍵瓶頸。

圖片來源：智元機(jī)器人

具身數(shù)據(jù)存在“數(shù)據(jù)跟著本體走”的現(xiàn)象，不同型號(hào)機(jī)器人的傳感器布局、算法差異，導(dǎo)致采集的數(shù)據(jù)往往會(huì)格式互不兼容。比如，工廠流水線上的裝配數(shù)據(jù)無法直接遷移到家庭服務(wù)場景，另外，不同品牌、型號(hào)的機(jī)器人硬件參數(shù)差異也會(huì)導(dǎo)致數(shù)據(jù)兼容性差。

全國政協(xié)委員賀晗此前就直言，目前國內(nèi)各研究機(jī)構(gòu)和企業(yè)的數(shù)據(jù)采集平臺(tái)、傳感器接口、數(shù)據(jù)格式各自為戰(zhàn)，形成了大量“數(shù)據(jù)孤島”。這種碎片化現(xiàn)狀，導(dǎo)致數(shù)據(jù)難以共享和復(fù)用，行業(yè)缺乏具有廣泛共識(shí)的高質(zhì)量、大規(guī)模開源數(shù)據(jù)集，嚴(yán)重制約了技術(shù)進(jìn)步。

而即便跨越了采集門檻，后續(xù)的數(shù)據(jù)清洗、標(biāo)注同樣是“深坑”——第一人稱視頻需要拆解為原子動(dòng)作片段，力覺數(shù)據(jù)需要對(duì)齊時(shí)序，3D點(diǎn)云需要位姿標(biāo)注，這每一項(xiàng)都需要耗費(fèi)大量的人力和時(shí)間成本。

然而目前的現(xiàn)實(shí)是，現(xiàn)有標(biāo)注工具多側(cè)重于靜態(tài)圖像或簡單視頻標(biāo)注，難以高效支持VLA模型對(duì)長序列、3D空間和物理動(dòng)態(tài)標(biāo)注的需求。

正是由于上述多重挑戰(zhàn)，目前具身智能行業(yè)整體面臨巨大的數(shù)據(jù)缺口。據(jù)全球知名中文IT技術(shù)交流平臺(tái)CSDN的數(shù)據(jù)顯示：具身智能需要數(shù)百PB級(jí)物理交互數(shù)據(jù)，當(dāng)前存量缺口超99%。

如此顯著的數(shù)據(jù)鴻溝下，數(shù)據(jù)采集早已不再是錦上添花的輔助工作，而是決定行業(yè)向下一階段進(jìn)階的關(guān)鍵戰(zhàn)役。特別是如何低成本、高質(zhì)量、高效率地打通數(shù)據(jù)管道，已成為具身智能從實(shí)驗(yàn)室走向真實(shí)世界必須跨越的關(guān)鍵隘口。

四大流派，逐鹿具身數(shù)據(jù)“金礦”

毋庸置疑，在具身智能領(lǐng)域，數(shù)據(jù)正成為決勝下一階段競爭的關(guān)鍵錨點(diǎn)。

借鑒自動(dòng)駕駛領(lǐng)域的技術(shù)演進(jìn)范式，不難預(yù)測在具身智能賽道，誰能率先跑通“采集-訓(xùn)練-落地-反饋”的數(shù)據(jù)閉環(huán)，誰就能在模型迭代速度上形成代際優(yōu)勢，并且這種優(yōu)勢一旦確立，后來者想要追趕十分困難。

正因如此，面對(duì)同一道“數(shù)據(jù)難題”，不同企業(yè)依據(jù)各自的技術(shù)基因，紛紛給出了差異化的解題思路，由此形成了四條主流技術(shù)路線。每條路線都在“數(shù)據(jù)質(zhì)量”與“獲取成本”之間做出了不同的權(quán)衡取舍，如同四支勘探隊(duì)，從不同方向向著同一座“金礦”掘進(jìn)。

第一種技術(shù)路線是遙操作采集，即通過人類操作員遠(yuǎn)程控制機(jī)器人完成特定任務(wù)，從而記錄下關(guān)節(jié)角度、末端位姿、相機(jī)圖像以及力傳感器等數(shù)據(jù)。

圖片來源：智元機(jī)器人

智元機(jī)器人在上海打造的數(shù)據(jù)采集工廠與應(yīng)用實(shí)驗(yàn)基地，就是這一路線的典型代表。依托該基地，智元的AgiBot World數(shù)據(jù)集深度復(fù)刻了家居、餐飲、工業(yè)、商超和辦公五大核心場景，包含數(shù)百種真實(shí)子場景與3000多種真實(shí)物品，為機(jī)器人研發(fā)和測試構(gòu)建了實(shí)現(xiàn)具身智能的必要條件。

但這同時(shí)也是一條極為“燒錢”的路線，主打以高成本換取高質(zhì)量。

“遙操作數(shù)據(jù)采集能夠提供高質(zhì)量真實(shí)機(jī)器人操作數(shù)據(jù)，對(duì)模型起到有效的訓(xùn)練效果，”日前，在蓋世汽車第四屆具身智能機(jī)器人產(chǎn)業(yè)發(fā)展論壇上，穹徹智能研究科學(xué)家呂峻如是說。但他同時(shí)也直言，遙操作數(shù)據(jù)采集的局限也很明顯，總結(jié)下來主要有三點(diǎn)：

第一，成本極為高昂，因?yàn)樾枰涮装嘿F的機(jī)器人本體與遙操作設(shè)備；

第二，操作難度很大，據(jù)相關(guān)調(diào)研顯示，約1/3的普通受試者首次使用遙操作設(shè)備時(shí)無法完成對(duì)應(yīng)任務(wù)，即便完成任務(wù)的受試者，操作速度也普遍很慢，并且?guī)в忻黠@的機(jī)械感；

第三，遙操作還存在一個(gè)無法克服的缺陷：真實(shí)世界的背景多樣性、物體多樣性與數(shù)采工廠往往存在巨大的差異，這會(huì)使得采集到的數(shù)據(jù)與真實(shí)世界偏差較大，從而導(dǎo)致模型在真實(shí)場景中的表現(xiàn)較為糟糕。

簡言之，遙操作采集雖然是具身數(shù)據(jù)的“黃金標(biāo)準(zhǔn)”，但因其高成本、低效率，注定難以快速大規(guī)模鋪開。

相較于遙操作采集的“重投入”，第二種路線——仿真合成數(shù)據(jù)，則試圖用無限虛擬空間對(duì)抗真實(shí)世界的長尾難題。

所謂仿真合成數(shù)據(jù)，即通過物理仿真引擎，在虛擬環(huán)境中生成機(jī)器人與環(huán)境交互的數(shù)據(jù)。這條路線的優(yōu)勢在于單條數(shù)據(jù)成本更低、更容易規(guī)?；?，環(huán)境高度可控，且場景幾乎能無限擴(kuò)展。

銀河通用便是這條路線堅(jiān)定的支持者。

基于“以合成仿真數(shù)據(jù)為主、真機(jī)數(shù)據(jù)為輔”的虛實(shí)融合訓(xùn)練范式，銀河通用已經(jīng)構(gòu)建了百億級(jí)具身智能數(shù)據(jù)集。按照其說法，該方案實(shí)現(xiàn)了僅需少量樣本甚至零樣本即可讓人形機(jī)器人對(duì)新場景、新物體“舉一反三”的泛化能力，在實(shí)現(xiàn)機(jī)器人訓(xùn)練效率比特斯拉高1000倍的同時(shí)，基于該數(shù)據(jù)集訓(xùn)練的模型成功率達(dá)到99%。

近期剛剛拿到10億元融資的光輪智能，采用的也是這一路線。

圖片來源：光輪智能

在光輪智能CEO謝晨看來，當(dāng)前機(jī)器人領(lǐng)域存在巨大的數(shù)據(jù)短缺，但與大語言模型不同，現(xiàn)實(shí)世界中沒有足夠的機(jī)器人持續(xù)采集數(shù)據(jù)，因此必須在仿真環(huán)境中，通過人類遙操生成足夠的數(shù)據(jù)來訓(xùn)練機(jī)器人基礎(chǔ)模型。

光輪智能認(rèn)為，在物理AI時(shí)代，仿真世界、行為數(shù)據(jù)與評(píng)測體系正在成為新的技術(shù)底座。

為此，光輪智能以世界、行為、評(píng)測三層架構(gòu)為核心，構(gòu)建了一套覆蓋從物理真實(shí)仿真、規(guī)?；瘮?shù)據(jù)生產(chǎn)到模型能力評(píng)測的完整鏈路。其中在數(shù)據(jù)環(huán)節(jié)，光輪智能構(gòu)建了大規(guī)模非本體數(shù)據(jù)引擎，覆蓋仿真合成數(shù)據(jù)與人類視頻數(shù)據(jù)兩大路徑，目前已在全球范圍內(nèi)規(guī)?；桓?。

跨維智能更是大膽假設(shè)，僅憑100%的生成式仿真數(shù)據(jù)，只要生成速率突破臨界點(diǎn)，機(jī)器人就能在真實(shí)世界中涌現(xiàn)出超越SOTA的泛化能力。

盡管如此，這并不能完全掩蓋仿真合成的缺陷：虛擬環(huán)境的狀態(tài)過于理想化，并且無法完美模擬真實(shí)物理規(guī)律，由此導(dǎo)致一些模型在仿真中雖然學(xué)到了很好的策略，但遷移到實(shí)體機(jī)器人時(shí)性能容易衰減，這就像在游戲里考了滿分，到了真實(shí)考場卻不及格。

因此業(yè)界普遍認(rèn)為，仿真合成最終還是必須結(jié)合真機(jī)數(shù)據(jù)，才能真正解決“最后一公里”問題。在銀河通用的方案里，就是先讓機(jī)器人在虛擬世界中遍歷各種極端情況，再以極少量真機(jī)數(shù)據(jù)完成實(shí)戰(zhàn)打磨。

如果說，仿真合成是在虛擬世界中構(gòu)建“練兵場”，那么第三種路線便攜采集（UMI），則相當(dāng)于隨身攜帶了一個(gè)“數(shù)據(jù)記錄儀”，讓數(shù)據(jù)采集可以更好地突破場景限制。

UMI數(shù)據(jù)采集，即通過手持集成了夾爪、魚眼相機(jī)、IMU等的輕便設(shè)備，在真實(shí)環(huán)境中演示操作，實(shí)時(shí)記錄下操作過程中的力反饋、圖像信息、運(yùn)動(dòng)軌跡等關(guān)鍵數(shù)據(jù)，從而將數(shù)據(jù)解耦后供不同機(jī)器人學(xué)習(xí)。

相較于同樣是采集真實(shí)場景數(shù)據(jù)的遙操作方案，UMI便攜式采集硬件成本更低，數(shù)據(jù)采集效率更高，且跨本體可復(fù)用，可以極大地提升數(shù)據(jù)的復(fù)用價(jià)值。

圖片來源：靈初智能

鹿明機(jī)器人、它石智航、靈初智能、穹徹智能等，以及國外的Sunday Robotics、Generalist等，都是這一技術(shù)路線的踐行者。

其中，靈初智能自研的具身原生人類數(shù)據(jù)采集方案Psi-SynEngine，可以直接采集一線作業(yè)人員在真實(shí)工作中的操作數(shù)據(jù)，覆蓋物流、工廠、商超、酒店和家庭等真實(shí)場景，并且無需二次遷移。

不過與傳統(tǒng)UMI方案主要使用夾爪不同，靈初智能的Psi-SynEngine末端搭配的是便攜式外骨骼觸覺手套數(shù)采套裝，即便如此據(jù)悉該方案的綜合成本也已經(jīng)降至真機(jī)遙操作方案的十分之一左右。在此基礎(chǔ)上，未來靈初智能還計(jì)劃推出可攜帶的便攜式眾包版本，有望讓成本進(jìn)一步下降。

而穹徹智能的RoboPocket，通過復(fù)用智能手機(jī)成熟的硬件生態(tài)，更是讓每一位普通用戶都可以成為數(shù)據(jù)采集的參與者。

圖片來源：穹徹智能

該方案利用手機(jī)內(nèi)置的RGB相機(jī)、深度相機(jī)及傳感器，替代傳統(tǒng)昂貴且笨重的專業(yè)采集設(shè)備，實(shí)現(xiàn)了從“定點(diǎn)采集”到“隨時(shí)隨地采集”的范式轉(zhuǎn)變。據(jù)穹徹智能此前公布數(shù)據(jù)，RoboPocket自今年初正式發(fā)布并啟動(dòng)規(guī)?；桓兑詠?，首月即成功簽約數(shù)百套訂單。

其后，穹徹智能通過與頭部二手電子產(chǎn)品平臺(tái)達(dá)成深度合作，實(shí)現(xiàn)了極致的成本與效率平衡。據(jù)悉，按照嚴(yán)苛的12個(gè)月折舊計(jì)算，該方案硬件成本僅占數(shù)據(jù)采集成本的3.5%。

但UMI也有其“阿喀琉斯之踵”——數(shù)據(jù)質(zhì)量治理。由于缺乏對(duì)數(shù)據(jù)采集過程的監(jiān)管，這一路線下很多設(shè)備采出的數(shù)據(jù)，可能存在無法用于訓(xùn)練的情況，需要嚴(yán)苛的數(shù)據(jù)治理流程。

呂峻就坦言，按照3月第一周該公司設(shè)備上海數(shù)據(jù)采集情況，以單日8小時(shí)工作時(shí)長計(jì)算，其RoboPocket最新單人單日有效數(shù)據(jù)采集量平均值約3小時(shí)。

第四種是人類視頻學(xué)習(xí)，即讓機(jī)器人像人類一樣“看視頻學(xué)習(xí)”，這種方式的優(yōu)勢在于成本更低，更容易大規(guī)模獲取真實(shí)場景數(shù)據(jù)。

代表企業(yè)如特斯拉，早期曾花大量時(shí)間和金錢在真實(shí)數(shù)據(jù)采集上，去年5月，特斯拉宣布Optimus將告別傳統(tǒng)的動(dòng)作捕捉和遠(yuǎn)程操控訓(xùn)練方式，轉(zhuǎn)向基于視頻數(shù)據(jù)的“純視覺”AI訓(xùn)練模式，從而提升數(shù)據(jù)收集效率、提升訓(xùn)練規(guī)模。

圖片來源：樞途科技

樞途科技的SynaData解決方案，也是這一路線的典型代表。該方案開創(chuàng)了從互聯(lián)網(wǎng)單目視頻中提取多模態(tài)訓(xùn)練數(shù)據(jù)的新路徑，據(jù)稱將具身智能數(shù)據(jù)綜合采集成本降至了行業(yè)平均水平的千分之五，有效解決了行業(yè)長期面臨的數(shù)據(jù)成本與質(zhì)量困境。

除此之外還有跨維智能、逐際動(dòng)力、千尋智能等，都不同程度采用了視頻學(xué)習(xí)方式，進(jìn)行具身智能訓(xùn)練。

縱使如此，視頻學(xué)習(xí)的缺陷同樣不容忽視：信息密度相對(duì)較低，缺乏力覺、觸覺等關(guān)鍵交互信號(hào)，需要強(qiáng)大的后處理技術(shù)將視頻轉(zhuǎn)化為訓(xùn)練數(shù)據(jù)。

結(jié)語

從智元的遙操作工廠到銀河通用的仿真帝國，從穹徹智能的RoboPocket到樞途科技的視頻學(xué)習(xí)，不同的數(shù)據(jù)路線憑借各自不同的優(yōu)劣勢，共同構(gòu)成了當(dāng)前具身數(shù)據(jù)領(lǐng)域多元發(fā)展的生態(tài)圖景。

其中不少頭部企業(yè)甚至同時(shí)布局了多種技術(shù)路線，這種“多線并舉”的策略，恰恰印證了一個(gè)事實(shí)：具身智能領(lǐng)域這場圍繞數(shù)據(jù)的“掘金之戰(zhàn)”，遠(yuǎn)未進(jìn)入終局。

接下來，隨著技術(shù)的不斷演進(jìn)和實(shí)踐深入，各技術(shù)流派有望進(jìn)一步融合創(chuàng)新，比如根據(jù)不同階段、不同項(xiàng)目或者不同成本預(yù)算，選取合適的采集方式組合，抑或催生新的數(shù)據(jù)范式。

最終，這場“數(shù)據(jù)戰(zhàn)”的勝負(fù)手，或許并不在于某條技術(shù)路線的單點(diǎn)突破，而在于誰能率先跑通“采集—訓(xùn)練—部署—反饋”的完整閉環(huán)。

來源：第一電動(dòng)網(wǎng)

作者：蓋世汽車

本文地址：http://m.cbbreul.com/news/shichang/292033

返回第一電動(dòng)網(wǎng)首頁 >

以上內(nèi)容轉(zhuǎn)載自蓋世汽車，目的在于傳播更多信息，如有侵僅請聯(lián)系admin#d1ev.com(#替換成@)刪除，轉(zhuǎn)載內(nèi)容并不代表第一電動(dòng)網(wǎng)（m.cbbreul.com）立場。

文中圖片源自互聯(lián)網(wǎng)，如有侵權(quán)請聯(lián)系admin#d1ev.com（#替換成@）刪除。

贊27

分享到：

發(fā)表評(píng)論

新聞推薦

選擇車型
上牌城市	購車城市
姓名
手機(jī)號(hào)
驗(yàn)證碼
	xxx

具身智能“數(shù)據(jù)荒”，催熱“賣水人”

具身智能“數(shù)據(jù)荒”，催熱“賣水人”