国产精品在线视频资源|av人人人人操爱香蕉视频|AAA黄色片子黄色a级片视频|亚洲综合视频网2|成人免费网站观影|国产天堂AV在线播放资源|成人无码精品一区二区黑寡妇在线|论理聚合视频一区二区三区|在线无码视频一区二区|淫荡人妻不卡av

  1. 首頁
  2. 資訊
  3. 市場
  4. 具身智能“數(shù)據(jù)荒”,催熱“賣水人”

具身智能“數(shù)據(jù)荒”,催熱“賣水人”

蓋世汽車

近日,靈初智能和光輪智能相繼宣布完成20億元及10億元融資。

作為兩家新晉“獨(dú)角獸”企業(yè),光輪智能主攻支撐物理AI生態(tài)運(yùn)行的仿真與數(shù)據(jù)基礎(chǔ)設(shè)施,靈初智能則致力于攻克靈巧操作難題,用自研的數(shù)采引擎將數(shù)據(jù)采集成本砍至“骨折”。換言之,在核心業(yè)務(wù)上,這兩家公司均聚焦于底層的數(shù)據(jù)基建。

那么,在各種機(jī)器人本體百花齊放的當(dāng)下,資本為何紛紛開始重注賽道的“買水人”?

答案藏在一個(gè)行業(yè)共識(shí)里:數(shù)據(jù),正在成為具身智能發(fā)展的“命門”。

如果說算法是機(jī)器人的“大腦”,硬件是“骨骼”,那么數(shù)據(jù)就是流淌其間的“血液”——沒有血液,大腦的指令傳不到四肢,四肢的反饋回不到大腦,整個(gè)系統(tǒng)將陷入癱瘓。

伴隨著具身智能從概念驗(yàn)證快速走向規(guī)?;涞?,當(dāng)前行業(yè)的競爭主軸正在悄然移位,從“本體秀”進(jìn)入“數(shù)據(jù)戰(zhàn)”。

數(shù)據(jù)饑渴:具身機(jī)器人的“成長之困”

在AI的世界里,所有智能都源于數(shù)據(jù)的“喂養(yǎng)”。

回顧過去幾年大語言模型能力的涌現(xiàn),正是建立在海量互聯(lián)網(wǎng)文本之上。同理,具身智能機(jī)器人想要實(shí)現(xiàn)真正意義上的“通用”,也必須用海量的數(shù)據(jù)去驅(qū)動(dòng)“大腦”。

“很多團(tuán)隊(duì)以為具身模型訓(xùn)不出來是卡在訓(xùn)練階段,實(shí)際多數(shù)問題在數(shù)據(jù)生成的起點(diǎn)就已經(jīng)埋下了,后面再堆模型、堆算力,只是在給錯(cuò)誤輸入繼續(xù)加速?!贝饲埃谡劶熬呱碇悄軘?shù)據(jù)重要性時(shí),鹿明機(jī)器人CTO丁琰就如是說。

不僅如此,對(duì)于具身智能而言,數(shù)據(jù)規(guī)模越大、質(zhì)量越高,模型的泛化能力和操作精度就越強(qiáng)。沒有數(shù)據(jù),再先進(jìn)的算法、再精密的硬件,都只是沒有靈魂的空殼。

然而,與大語言模型可以從互聯(lián)網(wǎng)上低成本甚至免費(fèi)獲取數(shù)據(jù)不同,具身智能所需的數(shù)據(jù)因其多方面的獨(dú)特性,大規(guī)模獲取并不容易。

具身智能“數(shù)據(jù)荒”,催熱“賣水人”

圖片來源:靈初智能

首先,是數(shù)據(jù)模態(tài)的復(fù)雜性。

不同于大語言模型,具身智能需要的是機(jī)器人在真實(shí)物理世界中與環(huán)境互動(dòng)產(chǎn)生的多模態(tài)數(shù)據(jù),這不僅包括圖像、視頻,還需要力覺、觸覺、聽覺等多種傳感器的實(shí)時(shí)反饋,以及機(jī)器人自身的運(yùn)動(dòng)學(xué)、動(dòng)力學(xué)參數(shù)。這種多維度數(shù)據(jù)的同步采集和標(biāo)注,比單純的文本或圖像處理復(fù)雜得多。

其次,是應(yīng)用場景的開放性與多樣性。

具身智能需要面對(duì)的環(huán)境覆蓋家庭、工廠、商場、戶外等多個(gè)不同類型的三維空間,涉及的交互對(duì)象既包括靜態(tài)的物體,也包括動(dòng)態(tài)的人類和其他生物,并且不同場景下的物理交互方式、物體屬性、環(huán)境特征千差萬別,物體的材質(zhì)、形狀、光照條件、甚至微小的干擾因素,都會(huì)對(duì)數(shù)據(jù)產(chǎn)生顯著影響,由此使得數(shù)據(jù)的采集、標(biāo)注和處理難度也呈幾何級(jí)增長。

例如,為了教會(huì)機(jī)器人完成一個(gè)簡單的擰瓶蓋動(dòng)作,可能就需要在不同光照、不同瓶型、不同握持力度下進(jìn)行成百上千次的嘗試和數(shù)據(jù)記錄,每一次嘗試都需要專業(yè)的設(shè)備和人工配合。

再者,是數(shù)據(jù)的閉環(huán)時(shí)序性。

與自動(dòng)駕駛一樣,具身智能需要的數(shù)據(jù)也是“狀態(tài)-動(dòng)作-新狀態(tài)”的連續(xù)閉環(huán)序列,因?yàn)闄C(jī)器人每個(gè)動(dòng)作都會(huì)改變環(huán)境,模型必須學(xué)會(huì)根據(jù)新狀態(tài)調(diào)整下一步動(dòng)作。這意味著,采集數(shù)據(jù)時(shí)不僅要記錄動(dòng)作,還要同步記錄環(huán)境變化和決策過程,這也導(dǎo)致技術(shù)實(shí)現(xiàn)難度指數(shù)級(jí)上升。

還有數(shù)據(jù)與硬件的強(qiáng)耦合關(guān)系,也是制約具身數(shù)據(jù)發(fā)展的關(guān)鍵瓶頸。

具身智能“數(shù)據(jù)荒”,催熱“賣水人”

圖片來源:智元機(jī)器人

具身數(shù)據(jù)存在“數(shù)據(jù)跟著本體走”的現(xiàn)象,不同型號(hào)機(jī)器人的傳感器布局、算法差異,導(dǎo)致采集的數(shù)據(jù)往往會(huì)格式互不兼容。比如,工廠流水線上的裝配數(shù)據(jù)無法直接遷移到家庭服務(wù)場景,另外,不同品牌、型號(hào)的機(jī)器人硬件參數(shù)差異也會(huì)導(dǎo)致數(shù)據(jù)兼容性差。

全國政協(xié)委員賀晗此前就直言,目前國內(nèi)各研究機(jī)構(gòu)和企業(yè)的數(shù)據(jù)采集平臺(tái)、傳感器接口、數(shù)據(jù)格式各自為戰(zhàn),形成了大量“數(shù)據(jù)孤島”。這種碎片化現(xiàn)狀,導(dǎo)致數(shù)據(jù)難以共享和復(fù)用,行業(yè)缺乏具有廣泛共識(shí)的高質(zhì)量、大規(guī)模開源數(shù)據(jù)集,嚴(yán)重制約了技術(shù)進(jìn)步。

而即便跨越了采集門檻,后續(xù)的數(shù)據(jù)清洗、標(biāo)注同樣是“深坑”——第一人稱視頻需要拆解為原子動(dòng)作片段,力覺數(shù)據(jù)需要對(duì)齊時(shí)序,3D點(diǎn)云需要位姿標(biāo)注,這每一項(xiàng)都需要耗費(fèi)大量的人力和時(shí)間成本。

然而目前的現(xiàn)實(shí)是,現(xiàn)有標(biāo)注工具多側(cè)重于靜態(tài)圖像或簡單視頻標(biāo)注,難以高效支持VLA模型對(duì)長序列、3D空間和物理動(dòng)態(tài)標(biāo)注的需求。

正是由于上述多重挑戰(zhàn),目前具身智能行業(yè)整體面臨巨大的數(shù)據(jù)缺口。據(jù)全球知名中文IT技術(shù)交流平臺(tái)CSDN的數(shù)據(jù)顯示:具身智能需要數(shù)百PB級(jí)物理交互數(shù)據(jù),當(dāng)前存量缺口超99%。

如此顯著的數(shù)據(jù)鴻溝下,數(shù)據(jù)采集早已不再是錦上添花的輔助工作,而是決定行業(yè)向下一階段進(jìn)階的關(guān)鍵戰(zhàn)役。特別是如何低成本、高質(zhì)量、高效率地打通數(shù)據(jù)管道,已成為具身智能從實(shí)驗(yàn)室走向真實(shí)世界必須跨越的關(guān)鍵隘口。

四大流派,逐鹿具身數(shù)據(jù)“金礦”

毋庸置疑,在具身智能領(lǐng)域,數(shù)據(jù)正成為決勝下一階段競爭的關(guān)鍵錨點(diǎn)。

借鑒自動(dòng)駕駛領(lǐng)域的技術(shù)演進(jìn)范式,不難預(yù)測在具身智能賽道,誰能率先跑通“采集-訓(xùn)練-落地-反饋”的數(shù)據(jù)閉環(huán),誰就能在模型迭代速度上形成代際優(yōu)勢,并且這種優(yōu)勢一旦確立,后來者想要追趕十分困難。

正因如此,面對(duì)同一道“數(shù)據(jù)難題”,不同企業(yè)依據(jù)各自的技術(shù)基因,紛紛給出了差異化的解題思路,由此形成了四條主流技術(shù)路線。每條路線都在“數(shù)據(jù)質(zhì)量”與“獲取成本”之間做出了不同的權(quán)衡取舍,如同四支勘探隊(duì),從不同方向向著同一座“金礦”掘進(jìn)。

第一種技術(shù)路線是遙操作采集,即通過人類操作員遠(yuǎn)程控制機(jī)器人完成特定任務(wù),從而記錄下關(guān)節(jié)角度、末端位姿、相機(jī)圖像以及力傳感器等數(shù)據(jù)。

具身智能“數(shù)據(jù)荒”,催熱“賣水人”

圖片來源:智元機(jī)器人

智元機(jī)器人在上海打造的數(shù)據(jù)采集工廠與應(yīng)用實(shí)驗(yàn)基地,就是這一路線的典型代表。依托該基地,智元的AgiBot World數(shù)據(jù)集深度復(fù)刻了家居、餐飲、工業(yè)、商超和辦公五大核心場景,包含數(shù)百種真實(shí)子場景與3000多種真實(shí)物品,為機(jī)器人研發(fā)和測試構(gòu)建了實(shí)現(xiàn)具身智能的必要條件。

但這同時(shí)也是一條極為“燒錢”的路線,主打以高成本換取高質(zhì)量。

“遙操作數(shù)據(jù)采集能夠提供高質(zhì)量真實(shí)機(jī)器人操作數(shù)據(jù),對(duì)模型起到有效的訓(xùn)練效果,”日前,在蓋世汽車第四屆具身智能機(jī)器人產(chǎn)業(yè)發(fā)展論壇上,穹徹智能研究科學(xué)家呂峻如是說。但他同時(shí)也直言,遙操作數(shù)據(jù)采集的局限也很明顯,總結(jié)下來主要有三點(diǎn):

第一,成本極為高昂,因?yàn)樾枰涮装嘿F的機(jī)器人本體與遙操作設(shè)備;

第二,操作難度很大,據(jù)相關(guān)調(diào)研顯示,約1/3的普通受試者首次使用遙操作設(shè)備時(shí)無法完成對(duì)應(yīng)任務(wù),即便完成任務(wù)的受試者,操作速度也普遍很慢,并且?guī)в忻黠@的機(jī)械感;

第三,遙操作還存在一個(gè)無法克服的缺陷:真實(shí)世界的背景多樣性、物體多樣性與數(shù)采工廠往往存在巨大的差異,這會(huì)使得采集到的數(shù)據(jù)與真實(shí)世界偏差較大,從而導(dǎo)致模型在真實(shí)場景中的表現(xiàn)較為糟糕。

簡言之,遙操作采集雖然是具身數(shù)據(jù)的“黃金標(biāo)準(zhǔn)”,但因其高成本、低效率,注定難以快速大規(guī)模鋪開。

于遙操作采集的“重投入”,第二種路線——仿真合成數(shù)據(jù),則試圖用無限虛擬空間對(duì)抗真實(shí)世界的長尾難題。

所謂仿真合成數(shù)據(jù),即通過物理仿真引擎,在虛擬環(huán)境中生成機(jī)器人與環(huán)境交互的數(shù)據(jù)。這條路線的優(yōu)勢在于單條數(shù)據(jù)成本更低、更容易規(guī)?;?,環(huán)境高度可控,且場景幾乎能無限擴(kuò)展。

銀河通用便是這條路線堅(jiān)定的支持者。

基于“以合成仿真數(shù)據(jù)為主、真機(jī)數(shù)據(jù)為輔”的虛實(shí)融合訓(xùn)練范式,銀河通用已經(jīng)構(gòu)建了百億級(jí)具身智能數(shù)據(jù)集。按照其說法,該方案實(shí)現(xiàn)了僅需少量樣本甚至零樣本即可讓人形機(jī)器人對(duì)新場景、新物體“舉一反三”的泛化能力,在實(shí)現(xiàn)機(jī)器人訓(xùn)練效率比特斯拉高1000倍的同時(shí),基于該數(shù)據(jù)集訓(xùn)練的模型成功率達(dá)到99%。

近期剛剛拿到10億元融資的光輪智能,采用的也是這一路線。

具身智能“數(shù)據(jù)荒”,催熱“賣水人”

圖片來源: 光輪智能

在光輪智能CEO謝晨看來,當(dāng)前機(jī)器人領(lǐng)域存在巨大的數(shù)據(jù)短缺,但與大語言模型不同,現(xiàn)實(shí)世界中沒有足夠的機(jī)器人持續(xù)采集數(shù)據(jù),因此必須在仿真環(huán)境中,通過人類遙操生成足夠的數(shù)據(jù)來訓(xùn)練機(jī)器人基礎(chǔ)模型。

光輪智能認(rèn)為,在物理AI時(shí)代,仿真世界、行為數(shù)據(jù)與評(píng)測體系正在成為新的技術(shù)底座。

為此,光輪智能以世界、行為、評(píng)測三層架構(gòu)為核心,構(gòu)建了一套覆蓋從物理真實(shí)仿真、規(guī)?;瘮?shù)據(jù)生產(chǎn)到模型能力評(píng)測的完整鏈路。其中在數(shù)據(jù)環(huán)節(jié),光輪智能構(gòu)建了大規(guī)模非本體數(shù)據(jù)引擎,覆蓋仿真合成數(shù)據(jù)與人類視頻數(shù)據(jù)兩大路徑,目前已在全球范圍內(nèi)規(guī)?;桓?。

跨維智能更是大膽假設(shè),僅憑100%的生成式仿真數(shù)據(jù),只要生成速率突破臨界點(diǎn),機(jī)器人就能在真實(shí)世界中涌現(xiàn)出超越SOTA的泛化能力。

盡管如此,這并不能完全掩蓋仿真合成的缺陷:虛擬環(huán)境的狀態(tài)過于理想化,并且無法完美模擬真實(shí)物理規(guī)律,由此導(dǎo)致一些模型在仿真中雖然學(xué)到了很好的策略,但遷移到實(shí)體機(jī)器人時(shí)性能容易衰減,這就像在游戲里考了滿分,到了真實(shí)考場卻不及格。

因此業(yè)界普遍認(rèn)為,仿真合成最終還是必須結(jié)合真機(jī)數(shù)據(jù),才能真正解決“最后一公里”問題。在銀河通用的方案里,就是先讓機(jī)器人在虛擬世界中遍歷各種極端情況,再以極少量真機(jī)數(shù)據(jù)完成實(shí)戰(zhàn)打磨。

如果說,仿真合成是在虛擬世界中構(gòu)建“練兵場”,那么第三種路線便攜采集(UMI),則相當(dāng)于隨身攜帶了一個(gè)“數(shù)據(jù)記錄儀”,讓數(shù)據(jù)采集可以更好地突破場景限制。

UMI數(shù)據(jù)采集,即通過手持集成了夾爪、魚眼相機(jī)、IMU等的輕便設(shè)備,在真實(shí)環(huán)境中演示操作,實(shí)時(shí)記錄下操作過程中的力反饋、圖像信息、運(yùn)動(dòng)軌跡等關(guān)鍵數(shù)據(jù),從而將數(shù)據(jù)解耦后供不同機(jī)器人學(xué)習(xí)。

相較于同樣是采集真實(shí)場景數(shù)據(jù)的遙操作方案,UMI便攜式采集硬件成本更低,數(shù)據(jù)采集效率更高,且跨本體可復(fù)用,可以極大地提升數(shù)據(jù)的復(fù)用價(jià)值。

具身智能“數(shù)據(jù)荒”,催熱“賣水人”

圖片來源:靈初智能

鹿明機(jī)器人、它石智航、靈初智能、穹徹智能等,以及國外的Sunday Robotics、Generalist等,都是這一技術(shù)路線的踐行者。

其中,靈初智能自研的具身原生人類數(shù)據(jù)采集方案Psi-SynEngine,可以直接采集一線作業(yè)人員在真實(shí)工作中的操作數(shù)據(jù),覆蓋物流、工廠、商超、酒店和家庭等真實(shí)場景,并且無需二次遷移。

不過與傳統(tǒng)UMI方案主要使用夾爪不同,靈初智能的Psi-SynEngine末端搭配的是便攜式外骨骼觸覺手套數(shù)采套裝,即便如此據(jù)悉該方案的綜合成本也已經(jīng)降至真機(jī)遙操作方案的十分之一左右。在此基礎(chǔ)上,未來靈初智能還計(jì)劃推出可攜帶的便攜式眾包版本,有望讓成本進(jìn)一步下降。

而穹徹智能的RoboPocket,通過復(fù)用智能手機(jī)成熟的硬件生態(tài),更是讓每一位普通用戶都可以成為數(shù)據(jù)采集的參與者。

具身智能“數(shù)據(jù)荒”,催熱“賣水人”

圖片來源: 穹徹智能

該方案利用手機(jī)內(nèi)置的RGB相機(jī)、深度相機(jī)及傳感器,替代傳統(tǒng)昂貴且笨重的專業(yè)采集設(shè)備,實(shí)現(xiàn)了從“定點(diǎn)采集”到“隨時(shí)隨地采集”的范式轉(zhuǎn)變。據(jù)穹徹智能此前公布數(shù)據(jù),RoboPocket自今年初正式發(fā)布并啟動(dòng)規(guī)?;桓兑詠?,首月即成功簽約數(shù)百套訂單。

其后,穹徹智能通過與頭部二手電子產(chǎn)品平臺(tái)達(dá)成深度合作,實(shí)現(xiàn)了極致的成本與效率平衡。據(jù)悉,按照嚴(yán)苛的12個(gè)月折舊計(jì)算,該方案硬件成本僅占數(shù)據(jù)采集成本的3.5%。

但UMI也有其“阿喀琉斯之踵”——數(shù)據(jù)質(zhì)量治理。由于缺乏對(duì)數(shù)據(jù)采集過程的監(jiān)管,這一路線下很多設(shè)備采出的數(shù)據(jù),可能存在無法用于訓(xùn)練的情況,需要嚴(yán)苛的數(shù)據(jù)治理流程。

呂峻就坦言,按照3月第一周該公司設(shè)備上海數(shù)據(jù)采集情況,以單日8小時(shí)工作時(shí)長計(jì)算,其RoboPocket最新單人單日有效數(shù)據(jù)采集量平均值約3小時(shí)。

第四種是人類視頻學(xué)習(xí),讓機(jī)器人像人類一樣“看視頻學(xué)習(xí)”這種方式的優(yōu)勢在于成本低,更容易大規(guī)模獲取真實(shí)場景數(shù)據(jù)。

代表企業(yè)如特斯拉,早期曾花大量時(shí)間和金錢在真實(shí)數(shù)據(jù)采集上,去年5月,特斯拉宣布Optimus將告別傳統(tǒng)的動(dòng)作捕捉和遠(yuǎn)程操控訓(xùn)練方式,轉(zhuǎn)向基于視頻數(shù)據(jù)的“純視覺”AI訓(xùn)練模式,從而提升數(shù)據(jù)收集效率、提升訓(xùn)練規(guī)模。

具身智能“數(shù)據(jù)荒”,催熱“賣水人”

圖片來源: 樞途科技

樞途科技的SynaData解決方案,也是這一路線的典型代表。該方案開創(chuàng)了從互聯(lián)網(wǎng)單目視頻中提取多模態(tài)訓(xùn)練數(shù)據(jù)的新路徑,據(jù)稱將具身智能數(shù)據(jù)綜合采集成本降至了行業(yè)平均水平的千分之五,有效解決了行業(yè)長期面臨的數(shù)據(jù)成本與質(zhì)量困境。

除此之外還有跨維智能、逐際動(dòng)力、千尋智能等,都不同程度采用了視頻學(xué)習(xí)方式,進(jìn)行具身智能訓(xùn)練。

縱使如此,視頻學(xué)習(xí)的缺陷同樣不容忽視:信息密度相對(duì)較低,缺乏力覺、觸覺等關(guān)鍵交互信號(hào),需要強(qiáng)大的后處理技術(shù)將視頻轉(zhuǎn)化為訓(xùn)練數(shù)據(jù)。

結(jié)語

從智元的遙操作工廠到銀河通用的仿真帝國,從穹徹智能的RoboPocket到樞途科技的視頻學(xué)習(xí),不同的數(shù)據(jù)路線憑借各自不同的優(yōu)劣勢,共同構(gòu)成了當(dāng)前具身數(shù)據(jù)領(lǐng)域多元發(fā)展的生態(tài)圖景。

其中不少頭部企業(yè)甚至同時(shí)布局了多種技術(shù)路線,這種“多線并舉”的策略,恰恰印證了一個(gè)事實(shí):具身智能領(lǐng)域這場圍繞數(shù)據(jù)的“掘金之戰(zhàn)”,遠(yuǎn)未進(jìn)入終局。

接下來,隨著技術(shù)的不斷演進(jìn)和實(shí)踐深入,各技術(shù)流派有望進(jìn)一步融合創(chuàng)新,比如根據(jù)不同階段、不同項(xiàng)目或者不同成本預(yù)算,選取合適的采集方式組合,抑或催生新的數(shù)據(jù)范式。

最終,這場“數(shù)據(jù)戰(zhàn)”的勝負(fù)手,或許并不在于某條技術(shù)路線的單點(diǎn)突破,而在于誰能率先跑通“采集—訓(xùn)練—部署—反饋”的完整閉環(huán)。

來源:第一電動(dòng)網(wǎng)

作者:蓋世汽車

本文地址:http://m.cbbreul.com/news/shichang/292033

返回第一電動(dòng)網(wǎng)首頁 >

收藏
27
  • 分享到:
發(fā)表評(píng)論
新聞推薦
第一電動(dòng)網(wǎng)官方微信

反饋和建議 在線回復(fù)

您的詢價(jià)信息
已經(jīng)成功提交我們稍后會(huì)聯(lián)系您進(jìn)行報(bào)價(jià)!

第一電動(dòng)網(wǎng)
Hello world!
-->