無(wú)萬(wàn)卡，不VLA：元戎啟行與阿里云的“想法”和“解法”

第一電動(dòng)大牛作者汽車之心 2025-11-10 11:33

1980年代，卡內(nèi)基梅隆大學(xué)的機(jī)器人專家漢斯·莫拉維克（Hans Moravec）提出人工智能領(lǐng)域的一個(gè)悖論：讓計(jì)算機(jī)在邏輯推理、下棋等高級(jí)智力活動(dòng)中達(dá)到甚至超越人類水平，相對(duì)容易；但要讓它具備孩童那樣的感知、運(yùn)動(dòng)和常識(shí)認(rèn)知能力，卻難于登天。

這個(gè)悖論的核心在于：對(duì)機(jī)器而言，真正的困難在于“理解”物理世界并與物理世界進(jìn)行直覺式的交互。四十余年后，莫拉維克的觀點(diǎn)，也投射在了智能駕駛的漫長(zhǎng)征途上。

如果現(xiàn)在你跟智駕從業(yè)者深聊，會(huì)發(fā)現(xiàn)一個(gè)微妙的變化：幾年前，從業(yè)者們還在為傳感器的配置、特定場(chǎng)景的覆蓋率等討論不停；而今天，話題焦點(diǎn)又多了一個(gè)更具體的模型結(jié)構(gòu)——VLA（視覺-語(yǔ)言-行動(dòng)模型）。為什么？

01、智駕的終極體驗(yàn)，是“像人一樣決策”

我們知道，要實(shí)現(xiàn)高階智能駕駛，最大的挑戰(zhàn)之一就在于：真實(shí)物理世界的復(fù)雜性和不確定性。比如，如何理解一個(gè)交警招手動(dòng)作的復(fù)雜意圖？如何判斷一個(gè)滾向路邊的足球背后是否會(huì)沖出一個(gè)孩子？它要求AI不僅要識(shí)別物體，更要理解場(chǎng)景、預(yù)測(cè)意圖并進(jìn)行復(fù)雜的因果推理。為何如此困難？

元戎啟行創(chuàng)始人兼CEO周光，這位擁有物理學(xué)背景的AI博士，在前陣子和我們交流時(shí)一語(yǔ)道破其中的關(guān)鍵。他將駕駛行為劃分為兩個(gè)層次：一個(gè)是“Move like human”（像人一樣行動(dòng)），另一個(gè)是“Decision like human”（像人一樣決策）。

周光認(rèn)為，早期的AI決策模型，更擅長(zhǎng)處理“條件反射式”的駕駛行為，比如跟車、車道保持、簡(jiǎn)單避障等，這些可以被歸納為“Move like human”（像人一樣行動(dòng)），但這只能解決95%常見的駕駛問題。

但決定智能駕駛安全性和體驗(yàn)感上限的，恰恰是那些需要推理和預(yù)判的長(zhǎng)尾場(chǎng)景，也就是圈內(nèi)常說的Corner Case。他舉了一個(gè)直觀例子：“前方兩三百米外有施工，人類老司機(jī)會(huì)立刻觀察后視鏡，提前變道。但（早期的）智駕系統(tǒng)，可能是開到近處，識(shí)別出錐筒、水馬這些障礙物時(shí)才做出反應(yīng)，往往帶來(lái)突兀和不舒適的駕乘體驗(yàn)?！?/p>

要解決這個(gè)長(zhǎng)尾問題，系統(tǒng)必須具備周光所強(qiáng)調(diào)的“推理駕駛”（Inferential Driving）能力，這要求系統(tǒng)能夠基于對(duì)物理世界規(guī)律的“理解”，進(jìn)行復(fù)雜的因果推理和未來(lái)預(yù)測(cè)。

如果無(wú)法實(shí)現(xiàn)“Decision like human”，系統(tǒng)就可能停留在“高級(jí)的輔助駕駛”階段，難以邁向L4乃至更高級(jí)別，無(wú)法讓人類駕駛員真正放手。智能駕駛的本質(zhì)，是一個(gè)需要理解并作用于真實(shí)物理世界的“物理AI”（Physical AI）命題。

要跨越這“最后一公里”，行業(yè)亟需一種能夠賦予機(jī)器“認(rèn)知”和“推理”能力的全新范式。這正是VLA這一模型結(jié)構(gòu)，迅速成為當(dāng)下行業(yè)新共識(shí)的根本原因。

02、VLA邁向推理駕駛

VLA將視覺（Vision）、語(yǔ)言（Language，代表認(rèn)知和推理）和動(dòng)作（Action）融合在一個(gè)統(tǒng)一框架內(nèi)。這種融合帶來(lái)了能力層級(jí)的質(zhì)變，超越了簡(jiǎn)單的功能疊加。

“從舊架構(gòu)變成GPT架構(gòu)，這是一個(gè)根本性的變化。”周光反復(fù)強(qiáng)調(diào)。在他看來(lái)，過去的技術(shù)迭代（包括BEV等），都只是CNN框架下的“小版本更新”，而VLA才真正開啟了智能駕駛的“大版本升級(jí)”，因?yàn)樗屜到y(tǒng)開始逼近“物理AI”的理想形態(tài)。

這種對(duì)技術(shù)本質(zhì)的洞察，讓元戎啟行在技術(shù)路線上做到知行合一，堅(jiān)信VLA是實(shí)現(xiàn)高階智能駕駛的最優(yōu)解。“要是不上VLA，我覺得是不可能到L5的?！敝芄馀袛?，“VLA讓業(yè)界真正看到了實(shí)現(xiàn)L5級(jí)完全自動(dòng)駕駛的希望，未來(lái)的發(fā)展路徑將緊跟大模型技術(shù)的演進(jìn)?！?/p>

這家公司早在2019年剛創(chuàng)立不久，就完成了名為“全融合”的技術(shù)架構(gòu)（即早期的BEV鳥瞰圖技術(shù)）。到了2020年，便全力投入“無(wú)圖”研發(fā)，讓系統(tǒng)直接從攝像頭等傳感器獲取的“原始數(shù)據(jù)”中學(xué)習(xí)，實(shí)時(shí)感知和理解物理世界。

到了2022年，周光和團(tuán)隊(duì)的預(yù)判得到了初步驗(yàn)證。他告訴我們，當(dāng)時(shí)團(tuán)隊(duì)已經(jīng)能通過算法，實(shí)時(shí)生成道路的拓?fù)浣Y(jié)構(gòu)圖，雖然還不完美，但已經(jīng)能清晰識(shí)別出路口和轉(zhuǎn)向關(guān)系。這表示“無(wú)圖”技術(shù)路線被成功跑通，為后續(xù)研發(fā)奠定了基礎(chǔ)。

VLA帶來(lái)的，是用戶體驗(yàn)上可感知的“老司機(jī)感”，這種實(shí)實(shí)在在的體驗(yàn)變革，遠(yuǎn)勝于冰冷的參數(shù)：比如在復(fù)雜的城市路口，系統(tǒng)能預(yù)判可能出現(xiàn)的“鬼探頭”，提前做出柔和的決策，而非急剎車；在人車混流的狹窄街道，系統(tǒng)能理解交通參與者的“意圖”，進(jìn)行更靈活的博弈，而不是死板地等待；面對(duì)臨時(shí)施工或異形障礙物，系統(tǒng)能基于對(duì)物理世界的基本理解進(jìn)行推理，做出合理應(yīng)對(duì)。

這種從“輔助人”向“理解人”乃至“超越人”的進(jìn)化，也有業(yè)界的權(quán)威觀點(diǎn)支撐。阿里巴巴集團(tuán)首席執(zhí)行官吳泳銘此前在公開演講中指出，通往超級(jí)人工智能（ASI）的關(guān)鍵瓶頸在于“真實(shí)世界的數(shù)據(jù)”和“自主學(xué)習(xí)”。他強(qiáng)調(diào)：“只有讓AI與真實(shí)世界持續(xù)互動(dòng)，獲取更全面、更真實(shí)、更實(shí)時(shí)的數(shù)據(jù)，才能更好的理解和模擬世界，發(fā)現(xiàn)超越人類認(rèn)知的深層規(guī)律?！?/p>

一句題外話，我們?cè)趯懽髦嗷厮萘酥芄庠缒甑膶W(xué)術(shù)研究，發(fā)現(xiàn)他早在德州大學(xué)達(dá)拉斯分校攻讀博士期間，就提出“去中心化自穩(wěn)定算法”和“群體協(xié)作智能體”模型，探討如何通過局部通信與自組織機(jī)制，讓分布式系統(tǒng)在無(wú)中心控制下實(shí)現(xiàn)穩(wěn)定協(xié)同。這種“由局部交互涌現(xiàn)全局智能”的邏輯，與VLA的視覺、語(yǔ)言、行動(dòng)三模態(tài)的協(xié)同推理架構(gòu)，在思想上已高度契合。

03、VLA 為何需要一座“算力電站”？

然而，為汽車裝上VLA這個(gè)強(qiáng)大的“物理AI大腦”，難度巨大。它顛覆了傳統(tǒng)的研發(fā)模式，帶來(lái)三個(gè)“指數(shù)級(jí)”增長(zhǎng)的挑戰(zhàn)，讓智駕公司必須重塑自己。

挑戰(zhàn)一：數(shù)據(jù)處理的“量級(jí)之變”。VLA模型吃的不是“二手”的高精地圖數(shù)據(jù)，而是物理世界最原始、最鮮活的多模態(tài)數(shù)據(jù)——海量的圖像、視頻、傳感器信號(hào)。處理這些數(shù)據(jù)，對(duì)數(shù)據(jù)處理的吞吐量和效率提出了前所未有的要求。

挑戰(zhàn)二：模型訓(xùn)練的“范式之變”。訓(xùn)練VLA模型，就像培養(yǎng)一個(gè)天才。不能從零教起，而是采用“知識(shí)蒸餾”技術(shù)：先用一個(gè)擁有千億參數(shù)的云端“教師模型”（基座大模型）進(jìn)行預(yù)訓(xùn)練，再將它的智慧“蒸餾”到車端僅有幾十億參數(shù)的“學(xué)生模型”上。這個(gè)過程，對(duì)算力集群的規(guī)模、穩(wěn)定性和調(diào)度能力要求極高。

挑戰(zhàn)三：研發(fā)效率的“成本之變”?！霸缧┠陰装?gòu)埧ň湍荛_個(gè)小作坊?！敝芄飧锌?，“但在VLA時(shí)代，幾千張卡是起步，萬(wàn)卡是入場(chǎng)券。”研發(fā)成本結(jié)構(gòu)也從過去“人力占97%，算力占3%”的勞動(dòng)密集型，轉(zhuǎn)向“人力與算力一半一半”的資本密集型。

阿里云智能AI汽車行業(yè)線銷售總監(jiān)黃晨，向我們揭示了一個(gè)殘酷的現(xiàn)實(shí)：“一臺(tái)GPU智算服務(wù)器，它每一分鐘的成本都可以核算出來(lái)。你如果只用了70%，那么30%空跑的時(shí)間就是損失掉的真金白銀?！?/p>

面對(duì)這些挑戰(zhàn)，自建算力中心已非最優(yōu)解。建設(shè)和運(yùn)維一個(gè)“超萬(wàn)卡集群”，其工程復(fù)雜度、能耗和成本都是天文數(shù)字。智駕公司最明智的選擇，是接入一個(gè)穩(wěn)定、高效、且懂AI的“算力電網(wǎng)”。

這正是元戎啟行與阿里云的合作進(jìn)入深水區(qū)的原因。他們需要的不是簡(jiǎn)單的算力租賃，而是一個(gè)能解決VLA時(shí)代全鏈路挑戰(zhàn)的合作伙伴。

04、超級(jí)AI云的全棧解法

具體而言，阿里云提供的“超級(jí)AI云”，是一套從IaaS（基礎(chǔ)設(shè)施）、PaaS（平臺(tái)工具）到MaaS（模型服務(wù)）的全棧式解決方案，精準(zhǔn)解決其在VLA路上可能遇到的痛點(diǎn)，從而帶來(lái)極致的效率優(yōu)化。

第一重：以極致的工程能力，構(gòu)筑穩(wěn)定高效的算力基石（IaaS層）。

要解決“萬(wàn)卡集群甚至超萬(wàn)卡集群”的穩(wěn)定性問題和通信效率瓶頸，無(wú)疑需要久經(jīng)考驗(yàn)的系統(tǒng)工程能力。元戎啟行的算力需求，主要由阿里云PAI-靈駿智算服務(wù)承載，PAI-靈駿的核心價(jià)值在于，通過自研的高性能網(wǎng)絡(luò)及智能調(diào)度算法，能將大規(guī)模集群的AI算力利用率提升超過95%。對(duì)于“每一分鐘都是錢”的智駕研發(fā)而言，這意味著巨大的成本節(jié)約和時(shí)間縮短。

VLA訓(xùn)練中，海量小文件的并發(fā)訪問，對(duì)存儲(chǔ)系統(tǒng)是極大考驗(yàn)。對(duì)此，阿里云的分布式文件系統(tǒng)CPFS就派上用場(chǎng)，它提供超高并發(fā)的多機(jī)讀取能力，為萬(wàn)卡集群提供了數(shù)據(jù)的“飽和投喂”，確保元戎VLA模型訓(xùn)練極致高效。

此外，VLA大模型的訓(xùn)練也是一場(chǎng)圍繞數(shù)據(jù)的精密接力賽：對(duì)元戎啟行而言，百PB級(jí)的原始感知數(shù)據(jù)在深圳匯集、清洗和標(biāo)注，最終在阿里云烏蘭察布智算集群完成模型迭代。面對(duì)該問題，阿里云的云企業(yè)網(wǎng)CEN構(gòu)建了一張覆蓋全國(guó)的“算力一張網(wǎng)”，可實(shí)現(xiàn)數(shù)據(jù)和算力的靈活調(diào)度。同時(shí)，阿里云的全棧安全防護(hù)體系，可確保元戎啟行在云端訓(xùn)練過程中的數(shù)據(jù)安全。

這些堅(jiān)實(shí)的基礎(chǔ)設(shè)施，共同構(gòu)成了元戎啟行在VLA時(shí)代加速奔跑的底氣。

第二重：以獨(dú)有的工具鏈，加速數(shù)據(jù)處理與模型迭代（PaaS層）。

說完了數(shù)據(jù)訓(xùn)練，那么說到數(shù)據(jù)處理，其效率也直接決定了模型訓(xùn)練的速度，如何高效完成海量多模態(tài)數(shù)據(jù)的清洗、標(biāo)注和預(yù)處理，是模型訓(xùn)練的重要一步。

在數(shù)據(jù)處理方面，阿里云自研的分布式計(jì)算框架MaxFrame，日均可完成數(shù)十萬(wàn)級(jí)數(shù)據(jù)包處理，生成數(shù)百萬(wàn)Clips和數(shù)億訓(xùn)練樣本，相比開源框架性能提升40%以上。同時(shí)，結(jié)合智能數(shù)據(jù)開發(fā)治理平臺(tái)DataWorks，可實(shí)現(xiàn)百萬(wàn)級(jí)任務(wù)統(tǒng)一開發(fā)調(diào)度與元數(shù)據(jù)追溯，高效支撐VLA模型海量多模態(tài)數(shù)據(jù)訓(xùn)練。這些工具鏈的高效協(xié)同，為VLA模型訓(xùn)練提供了充足且高質(zhì)量的“燃料”。

接下來(lái)在模型訓(xùn)練階段，迭代速度決定了競(jìng)爭(zhēng)優(yōu)勢(shì)。阿里云專為智駕領(lǐng)域定制“加速包”PAI-TurboX，在數(shù)據(jù)層、計(jì)算層、系統(tǒng)層深度優(yōu)化。阿里云計(jì)算平臺(tái)事業(yè)部負(fù)責(zé)人汪軍華介紹，TurboX能在多個(gè)主流模型上將訓(xùn)練時(shí)間縮短50%以上——這意味著元戎的模型迭代周期直接減半，能夠更快將新技術(shù)能力應(yīng)用到產(chǎn)品中。

第三重：以開源開放的生態(tài)，提供創(chuàng)新的戰(zhàn)略縱深（MaaS層）。

如上文所提，VLA模型的構(gòu)建并非從零開始，它需要強(qiáng)大的基座模型進(jìn)行知識(shí)蒸餾和調(diào)優(yōu)。在這一點(diǎn)上，阿里云的開源開放戰(zhàn)略，為元戎啟行提供了助力。

通義千問（Qwen）系列模型，作為全球第一的開源模型矩陣（根據(jù)Huggingface開源大模型榜單Open LLM Leaderboard），它目前全球下載量超6億次，衍生模型超17萬(wàn)個(gè)，為行業(yè)提供了堅(jiān)實(shí)基座。周光對(duì)此高度認(rèn)可：“元戎啟行經(jīng)常用通義大模型去做一些蒸餾，通義開源挺好的?！边@種開放性，讓元戎啟行得以站在基座模型的肩膀上，更高效優(yōu)化自己的車端模型。

同時(shí)，它支持廠商基于開源能力做深度自研，這一點(diǎn)至關(guān)重要。這使得元戎啟行能夠?qū)氋F的研發(fā)資源，投入到智駕垂類知識(shí)的積累和創(chuàng)新上，而不是重復(fù)造輪子。

從IaaS的工程能力，到PaaS的工具鏈，再到MaaS的開源開放生態(tài)，阿里云提供的“超級(jí)AI云”全棧能力，構(gòu)筑了其在智駕訓(xùn)練領(lǐng)域的重要地位。正如阿里云智能集團(tuán)公共云事業(yè)部AI汽車行業(yè)總經(jīng)理李強(qiáng)在一次公開演講中提到，超過60%中國(guó)智能輔助駕駛的AI算力來(lái)自阿里云。這足以證明，阿里云已成為智駕訓(xùn)練中那朵好用的云。

05、選擇對(duì)的伙伴，駛向更遠(yuǎn)的路

誠(chéng)然，強(qiáng)大的技術(shù)基建，最終要轉(zhuǎn)化為商業(yè)成果和產(chǎn)業(yè)引領(lǐng)。

在商業(yè)策略上，許多智駕公司廣撒網(wǎng)、服務(wù)多個(gè)品牌車型（多SKU），而作為全棧智能駕駛解決方案提供商元戎啟行，再次展現(xiàn)了與其技術(shù)路線一致的“專注”。

周光進(jìn)一步指出，有的智駕公司SKU特別多，但月銷可能只有幾百臺(tái)；元戎啟行專注于“大單品”策略——集中資源與車企深度合作，打造爆款車型。在他看來(lái)，只有深度合作，才能打磨出極致的產(chǎn)品體驗(yàn)。“你越是做的散，做的雜，你這個(gè)產(chǎn)品越難?！?/p>

這種“少而精”的策略背后，是對(duì)自身技術(shù)研發(fā)效率的絕對(duì)自信。而這份自信，很大程度上來(lái)源于其選擇了一個(gè)能提供長(zhǎng)期價(jià)值、深刻理解AI、并具備開放生態(tài)的云合作伙伴。

當(dāng)然，智駕的商業(yè)化過程中，成本控制也至關(guān)重要。如今智駕已成標(biāo)配，而非溢價(jià)項(xiàng)。黃晨告訴我們：“車上有智駕，不一定讓你多賣1萬(wàn)塊，但如果沒有，一定不被接受?！?/p>

換句話說，當(dāng)智駕成為“標(biāo)配”而非“溢價(jià)項(xiàng)”，Tier 1供應(yīng)商的利潤(rùn)空間被持續(xù)擠壓。這樣一來(lái)，選擇云服務(wù)商，早已超越了單純的資源采購(gòu)，更上升為一項(xiàng)關(guān)乎核心競(jìng)爭(zhēng)力的戰(zhàn)略決策。因?yàn)樵贫嘶A(chǔ)設(shè)施的技術(shù)深度與工程效率，直接決定了算法迭代的速度和質(zhì)量，進(jìn)而影響最終產(chǎn)品的市場(chǎng)競(jìng)爭(zhēng)力。

對(duì)元戎啟行而言，與阿里云合作的核心價(jià)值，在于通過阿里云全棧式的技術(shù)能力（包括高效的基礎(chǔ)設(shè)施、長(zhǎng)期積累的技術(shù)價(jià)值、以及開源開放的生態(tài)），將每一分算力的技術(shù)價(jià)值發(fā)揮到極致。這正是其構(gòu)筑自身技術(shù)壁壘、實(shí)現(xiàn)商業(yè)正循環(huán)的底氣所在。

對(duì)于所有致力于在物理AI時(shí)代取得突破的智能駕駛參與者而言，元戎啟行的實(shí)踐極具參考價(jià)值：要跨越智能駕駛的“最后一公里”，需要擁抱VLA；而要高效地訓(xùn)練VLA，需要選擇一朵像阿里云這樣具備全棧能力、能夠提供長(zhǎng)期價(jià)值陪伴、且開源開放的“超級(jí)AI云”。

因?yàn)樵谛率澜缋?，走得快需要好的技術(shù)。而走得遠(yuǎn)，則需要好的伙伴。

來(lái)源：第一電動(dòng)網(wǎng)

作者：汽車之心

本文地址：http://m.cbbreul.com/kol/278172

返回第一電動(dòng)網(wǎng)首頁(yè) >

文中圖片源自互聯(lián)網(wǎng)，如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com（#替換成@）刪除。

贊10

分享到：

發(fā)表評(píng)論

新聞推薦

大牛作者

汽車之心

微信公號(hào)Auto-Bit。汽車之心是一家專注智能汽車與自動(dòng)駕駛的媒體和知識(shí)服務(wù)平臺(tái)，定位于推動(dòng)汽車與科技的融合。我們的團(tuán)隊(duì)由一群熱愛汽車與新技術(shù)的資深媒體人、產(chǎn)品人與自動(dòng)駕駛行業(yè)從業(yè)者組成。歡迎添加微信號(hào)autobitxyz給我們提意見。