国产精品在线视频资源|av人人人人操爱香蕉视频|AAA黄色片子黄色a级片视频|亚洲综合视频网2|成人免费网站观影|国产天堂AV在线播放资源|成人无码精品一区二区黑寡妇在线|论理聚合视频一区二区三区|在线无码视频一区二区|淫荡人妻不卡av

  1. 首頁(yè)
  2. 大牛說(shuō)
  3. 無(wú)萬(wàn)卡,不VLA:元戎啟行與阿里云的“想法”和“解法”

無(wú)萬(wàn)卡,不VLA:元戎啟行與阿里云的“想法”和“解法”

1980年代,卡內(nèi)基梅隆大學(xué)的機(jī)器人專家漢斯·莫拉維克(Hans Moravec)提出人工智能領(lǐng)域的一個(gè)悖論:讓計(jì)算機(jī)在邏輯推理、下棋等高級(jí)智力活動(dòng)中達(dá)到甚至超越人類水平,相對(duì)容易;但要讓它具備孩童那樣的感知、運(yùn)動(dòng)和常識(shí)認(rèn)知能力,卻難于登天。

這個(gè)悖論的核心在于:對(duì)機(jī)器而言,真正的困難在于“理解”物理世界并與物理世界進(jìn)行直覺(jué)式的交互。四十余年后,莫拉維克的觀點(diǎn),也投射在了智能駕駛的漫長(zhǎng)征途上。

如果現(xiàn)在你跟智駕從業(yè)者深聊,會(huì)發(fā)現(xiàn)一個(gè)微妙的變化:幾年前,從業(yè)者們還在為傳感器的配置、特定場(chǎng)景的覆蓋率等討論不停;而今天,話題焦點(diǎn)又多了一個(gè)更具體的模型結(jié)構(gòu)——VLA(視覺(jué)-語(yǔ)言-行動(dòng)模型)。為什么?

01、智駕的終極體驗(yàn),是“像人一樣決策”

我們知道,要實(shí)現(xiàn)高階智能駕駛,最大的挑戰(zhàn)之一就在于:真實(shí)物理世界的復(fù)雜性和不確定性。比如,如何理解一個(gè)交警招手動(dòng)作的復(fù)雜意圖?如何判斷一個(gè)滾向路邊的足球背后是否會(huì)沖出一個(gè)孩子?它要求AI不僅要識(shí)別物體,更要理解場(chǎng)景、預(yù)測(cè)意圖并進(jìn)行復(fù)雜的因果推理。為何如此困難?

元戎啟行創(chuàng)始人兼CEO周光,這位擁有物理學(xué)背景的AI博士,在前陣子和我們交流時(shí)一語(yǔ)道破其中的關(guān)鍵。他將駕駛行為劃分為兩個(gè)層次:一個(gè)是“Move like human”(像人一樣行動(dòng)),另一個(gè)是“Decision like human”(像人一樣決策)。

周光認(rèn)為,早期的AI決策模型,更擅長(zhǎng)處理“條件反射式”的駕駛行為,比如跟車、車道保持、簡(jiǎn)單避障等,這些可以被歸納為“Move like human”(像人一樣行動(dòng)),但這只能解決95%常見(jiàn)的駕駛問(wèn)題。

但決定智能駕駛安全性和體驗(yàn)感上限的,恰恰是那些需要推理和預(yù)判的長(zhǎng)尾場(chǎng)景,也就是圈內(nèi)常說(shuō)的Corner Case。他舉了一個(gè)直觀例子:“前方兩三百米外有施工,人類老司機(jī)會(huì)立刻觀察后視鏡,提前變道。但(早期的)智駕系統(tǒng),可能是開(kāi)到近處,識(shí)別出錐筒、水馬這些障礙物時(shí)才做出反應(yīng),往往帶來(lái)突兀和不舒適的駕乘體驗(yàn)。”

要解決這個(gè)長(zhǎng)尾問(wèn)題,系統(tǒng)必須具備周光所強(qiáng)調(diào)的“推理駕駛”(Inferential Driving)能力,這要求系統(tǒng)能夠基于對(duì)物理世界規(guī)律的“理解”,進(jìn)行復(fù)雜的因果推理和未來(lái)預(yù)測(cè)。

如果無(wú)法實(shí)現(xiàn)“Decision like human”,系統(tǒng)就可能停留在“高級(jí)的輔助駕駛”階段,難以邁向L4乃至更高級(jí)別,無(wú)法讓人類駕駛員真正放手。智能駕駛的本質(zhì),是一個(gè)需要理解并作用于真實(shí)物理世界的“物理AI”(Physical AI)命題。

要跨越這“最后一公里”,行業(yè)亟需一種能夠賦予機(jī)器“認(rèn)知”和“推理”能力的全新范式。這正是VLA這一模型結(jié)構(gòu),迅速成為當(dāng)下行業(yè)新共識(shí)的根本原因。

02、VLA邁向推理駕駛

VLA將視覺(jué)(Vision)、語(yǔ)言(Language,代表認(rèn)知和推理)和動(dòng)作(Action)融合在一個(gè)統(tǒng)一框架內(nèi)。這種融合帶來(lái)了能力層級(jí)的質(zhì)變,超越了簡(jiǎn)單的功能疊加。

“從舊架構(gòu)變成GPT架構(gòu),這是一個(gè)根本性的變化?!敝芄夥磸?fù)強(qiáng)調(diào)。在他看來(lái),過(guò)去的技術(shù)迭代(包括BEV等),都只是CNN框架下的“小版本更新”,而VLA才真正開(kāi)啟了智能駕駛的“大版本升級(jí)”,因?yàn)樗屜到y(tǒng)開(kāi)始逼近“物理AI”的理想形態(tài)。

這種對(duì)技術(shù)本質(zhì)的洞察,讓元戎啟行在技術(shù)路線上做到知行合一,堅(jiān)信VLA是實(shí)現(xiàn)高階智能駕駛的最優(yōu)解?!耙遣簧蟅LA,我覺(jué)得是不可能到L5的?!敝芄馀袛?,“VLA讓業(yè)界真正看到了實(shí)現(xiàn)L5級(jí)完全自動(dòng)駕駛的希望,未來(lái)的發(fā)展路徑將緊跟大模型技術(shù)的演進(jìn)。”

這家公司早在2019年剛創(chuàng)立不久,就完成了名為“全融合”的技術(shù)架構(gòu)(即早期的BEV鳥(niǎo)瞰圖技術(shù))。到了2020年,便全力投入“無(wú)圖”研發(fā),讓系統(tǒng)直接從攝像頭等傳感器獲取的“原始數(shù)據(jù)”中學(xué)習(xí),實(shí)時(shí)感知和理解物理世界。

到了2022年,周光和團(tuán)隊(duì)的預(yù)判得到了初步驗(yàn)證。他告訴我們,當(dāng)時(shí)團(tuán)隊(duì)已經(jīng)能通過(guò)算法,實(shí)時(shí)生成道路的拓?fù)浣Y(jié)構(gòu)圖,雖然還不完美,但已經(jīng)能清晰識(shí)別出路口和轉(zhuǎn)向關(guān)系。這表示“無(wú)圖”技術(shù)路線被成功跑通,為后續(xù)研發(fā)奠定了基礎(chǔ)。

VLA帶來(lái)的,是用戶體驗(yàn)上可感知的“老司機(jī)感”,這種實(shí)實(shí)在在的體驗(yàn)變革,遠(yuǎn)勝于冰冷的參數(shù):比如在復(fù)雜的城市路口,系統(tǒng)能預(yù)判可能出現(xiàn)的“鬼探頭”,提前做出柔和的決策,而非急剎車;在人車混流的狹窄街道,系統(tǒng)能理解交通參與者的“意圖”,進(jìn)行更靈活的博弈,而不是死板地等待;面對(duì)臨時(shí)施工或異形障礙物,系統(tǒng)能基于對(duì)物理世界的基本理解進(jìn)行推理,做出合理應(yīng)對(duì)。

這種從“輔助人”向“理解人”乃至“超越人”的進(jìn)化,也有業(yè)界的權(quán)威觀點(diǎn)支撐。阿里巴巴集團(tuán)首席執(zhí)行官吳泳銘此前在公開(kāi)演講中指出,通往超級(jí)人工智能(ASI)的關(guān)鍵瓶頸在于“真實(shí)世界的數(shù)據(jù)”和“自主學(xué)習(xí)”。他強(qiáng)調(diào):“只有讓AI與真實(shí)世界持續(xù)互動(dòng),獲取更全面、更真實(shí)、更實(shí)時(shí)的數(shù)據(jù),才能更好的理解和模擬世界,發(fā)現(xiàn)超越人類認(rèn)知的深層規(guī)律?!?/p>

一句題外話,我們?cè)趯懽髦嗷厮萘酥芄庠缒甑膶W(xué)術(shù)研究,發(fā)現(xiàn)他早在德州大學(xué)達(dá)拉斯分校攻讀博士期間,就提出“去中心化自穩(wěn)定算法”和“群體協(xié)作智能體”模型,探討如何通過(guò)局部通信與自組織機(jī)制,讓分布式系統(tǒng)在無(wú)中心控制下實(shí)現(xiàn)穩(wěn)定協(xié)同。這種“由局部交互涌現(xiàn)全局智能”的邏輯,與VLA的視覺(jué)、語(yǔ)言、行動(dòng)三模態(tài)的協(xié)同推理架構(gòu),在思想上已高度契合。

03、VLA 為何需要一座“算力電站”?

然而,為汽車裝上VLA這個(gè)強(qiáng)大的“物理AI大腦”,難度巨大。它顛覆了傳統(tǒng)的研發(fā)模式,帶來(lái)三個(gè)“指數(shù)級(jí)”增長(zhǎng)的挑戰(zhàn),讓智駕公司必須重塑自己。

挑戰(zhàn)一:數(shù)據(jù)處理的“量級(jí)之變”。VLA模型吃的不是“二手”的高精地圖數(shù)據(jù),而是物理世界最原始、最鮮活的多模態(tài)數(shù)據(jù)——海量的圖像、視頻、傳感器信號(hào)。處理這些數(shù)據(jù),對(duì)數(shù)據(jù)處理的吞吐量和效率提出了前所未有的要求。

挑戰(zhàn)二:模型訓(xùn)練的“范式之變”。訓(xùn)練VLA模型,就像培養(yǎng)一個(gè)天才。不能從零教起,而是采用“知識(shí)蒸餾”技術(shù):先用一個(gè)擁有千億參數(shù)的云端“教師模型”(基座大模型)進(jìn)行預(yù)訓(xùn)練,再將它的智慧“蒸餾”到車端僅有幾十億參數(shù)的“學(xué)生模型”上。這個(gè)過(guò)程,對(duì)算力集群的規(guī)模、穩(wěn)定性和調(diào)度能力要求極高。

挑戰(zhàn)三:研發(fā)效率的“成本之變”?!霸缧┠陰装?gòu)埧ň湍荛_(kāi)個(gè)小作坊?!敝芄飧锌暗赩LA時(shí)代,幾千張卡是起步,萬(wàn)卡是入場(chǎng)券。”研發(fā)成本結(jié)構(gòu)也從過(guò)去“人力占97%,算力占3%”的勞動(dòng)密集型,轉(zhuǎn)向“人力與算力一半一半”的資本密集型。

阿里云智能AI汽車行業(yè)線銷售總監(jiān)黃晨,向我們揭示了一個(gè)殘酷的現(xiàn)實(shí):“一臺(tái)GPU智算服務(wù)器,它每一分鐘的成本都可以核算出來(lái)。你如果只用了70%,那么30%空跑的時(shí)間就是損失掉的真金白銀。”

面對(duì)這些挑戰(zhàn),自建算力中心已非最優(yōu)解。建設(shè)和運(yùn)維一個(gè)“超萬(wàn)卡集群”,其工程復(fù)雜度、能耗和成本都是天文數(shù)字。智駕公司最明智的選擇,是接入一個(gè)穩(wěn)定、高效、且懂AI的“算力電網(wǎng)”。

這正是元戎啟行與阿里云的合作進(jìn)入深水區(qū)的原因。他們需要的不是簡(jiǎn)單的算力租賃,而是一個(gè)能解決VLA時(shí)代全鏈路挑戰(zhàn)的合作伙伴。

04、超級(jí)AI云的全棧解法

具體而言,阿里云提供的“超級(jí)AI云”,是一套從IaaS(基礎(chǔ)設(shè)施)、PaaS(平臺(tái)工具)到MaaS(模型服務(wù))的全棧式解決方案,精準(zhǔn)解決其在VLA路上可能遇到的痛點(diǎn),從而帶來(lái)極致的效率優(yōu)化。

第一重:以極致的工程能力,構(gòu)筑穩(wěn)定高效的算力基石(IaaS層)。

要解決“萬(wàn)卡集群甚至超萬(wàn)卡集群”的穩(wěn)定性問(wèn)題和通信效率瓶頸,無(wú)疑需要久經(jīng)考驗(yàn)的系統(tǒng)工程能力。元戎啟行的算力需求,主要由阿里云PAI-靈駿智算服務(wù)承載,PAI-靈駿的核心價(jià)值在于,通過(guò)自研的高性能網(wǎng)絡(luò)及智能調(diào)度算法,能將大規(guī)模集群的AI算力利用率提升超過(guò)95%。對(duì)于“每一分鐘都是錢”的智駕研發(fā)而言,這意味著巨大的成本節(jié)約和時(shí)間縮短。

VLA訓(xùn)練中,海量小文件的并發(fā)訪問(wèn),對(duì)存儲(chǔ)系統(tǒng)是極大考驗(yàn)。對(duì)此,阿里云的分布式文件系統(tǒng)CPFS就派上用場(chǎng),它提供超高并發(fā)的多機(jī)讀取能力,為萬(wàn)卡集群提供了數(shù)據(jù)的“飽和投喂”,確保元戎VLA模型訓(xùn)練極致高效。

此外,VLA大模型的訓(xùn)練也是一場(chǎng)圍繞數(shù)據(jù)的精密接力賽:對(duì)元戎啟行而言,百PB級(jí)的原始感知數(shù)據(jù)在深圳匯集、清洗和標(biāo)注,最終在阿里云烏蘭察布智算集群完成模型迭代。面對(duì)該問(wèn)題,阿里云的云企業(yè)網(wǎng)CEN構(gòu)建了一張覆蓋全國(guó)的“算力一張網(wǎng)”,可實(shí)現(xiàn)數(shù)據(jù)和算力的靈活調(diào)度。同時(shí),阿里云的全棧安全防護(hù)體系,可確保元戎啟行在云端訓(xùn)練過(guò)程中的數(shù)據(jù)安全。

這些堅(jiān)實(shí)的基礎(chǔ)設(shè)施,共同構(gòu)成了元戎啟行在VLA時(shí)代加速奔跑的底氣。

第二重:以獨(dú)有的工具鏈,加速數(shù)據(jù)處理與模型迭代(PaaS層)。

說(shuō)完了數(shù)據(jù)訓(xùn)練,那么說(shuō)到數(shù)據(jù)處理,其效率也直接決定了模型訓(xùn)練的速度,如何高效完成海量多模態(tài)數(shù)據(jù)的清洗、標(biāo)注和預(yù)處理,是模型訓(xùn)練的重要一步。

在數(shù)據(jù)處理方面,阿里云自研的分布式計(jì)算框架MaxFrame,日均可完成數(shù)十萬(wàn)級(jí)數(shù)據(jù)包處理,生成數(shù)百萬(wàn)Clips和數(shù)億訓(xùn)練樣本,相比開(kāi)源框架性能提升40%以上。同時(shí),結(jié)合智能數(shù)據(jù)開(kāi)發(fā)治理平臺(tái)DataWorks,可實(shí)現(xiàn)百萬(wàn)級(jí)任務(wù)統(tǒng)一開(kāi)發(fā)調(diào)度與元數(shù)據(jù)追溯,高效支撐VLA模型海量多模態(tài)數(shù)據(jù)訓(xùn)練。這些工具鏈的高效協(xié)同,為VLA模型訓(xùn)練提供了充足且高質(zhì)量的“燃料”。

接下來(lái)在模型訓(xùn)練階段,迭代速度決定了競(jìng)爭(zhēng)優(yōu)勢(shì)。阿里云專為智駕領(lǐng)域定制“加速包”PAI-TurboX,在數(shù)據(jù)層、計(jì)算層、系統(tǒng)層深度優(yōu)化。阿里云計(jì)算平臺(tái)事業(yè)部負(fù)責(zé)人汪軍華介紹,TurboX能在多個(gè)主流模型上將訓(xùn)練時(shí)間縮短50%以上——這意味著元戎的模型迭代周期直接減半,能夠更快將新技術(shù)能力應(yīng)用到產(chǎn)品中。

第三重:以開(kāi)源開(kāi)放的生態(tài),提供創(chuàng)新的戰(zhàn)略縱深(MaaS層)。

如上文所提,VLA模型的構(gòu)建并非從零開(kāi)始,它需要強(qiáng)大的基座模型進(jìn)行知識(shí)蒸餾和調(diào)優(yōu)。在這一點(diǎn)上,阿里云的開(kāi)源開(kāi)放戰(zhàn)略,為元戎啟行提供了助力。

通義千問(wèn)(Qwen)系列模型,作為全球第一的開(kāi)源模型矩陣(根據(jù)Huggingface開(kāi)源大模型榜單Open LLM Leaderboard),它目前全球下載量超6億次,衍生模型超17萬(wàn)個(gè),為行業(yè)提供了堅(jiān)實(shí)基座。周光對(duì)此高度認(rèn)可:“元戎啟行經(jīng)常用通義大模型去做一些蒸餾,通義開(kāi)源挺好的?!边@種開(kāi)放性,讓元戎啟行得以站在基座模型的肩膀上,更高效優(yōu)化自己的車端模型。

同時(shí),它支持廠商基于開(kāi)源能力做深度自研,這一點(diǎn)至關(guān)重要。這使得元戎啟行能夠?qū)氋F的研發(fā)資源,投入到智駕垂類知識(shí)的積累和創(chuàng)新上,而不是重復(fù)造輪子。

從IaaS的工程能力,到PaaS的工具鏈,再到MaaS的開(kāi)源開(kāi)放生態(tài),阿里云提供的“超級(jí)AI云”全棧能力,構(gòu)筑了其在智駕訓(xùn)練領(lǐng)域的重要地位。正如阿里云智能集團(tuán)公共云事業(yè)部AI汽車行業(yè)總經(jīng)理李強(qiáng)在一次公開(kāi)演講中提到,超過(guò)60%中國(guó)智能輔助駕駛的AI算力來(lái)自阿里云。這足以證明,阿里云已成為智駕訓(xùn)練中那朵好用的云。

05、選擇對(duì)的伙伴,駛向更遠(yuǎn)的路

誠(chéng)然,強(qiáng)大的技術(shù)基建,最終要轉(zhuǎn)化為商業(yè)成果和產(chǎn)業(yè)引領(lǐng)。

在商業(yè)策略上,許多智駕公司廣撒網(wǎng)、服務(wù)多個(gè)品牌車型(多SKU),而作為全棧智能駕駛解決方案提供商元戎啟行,再次展現(xiàn)了與其技術(shù)路線一致的“專注”。

周光進(jìn)一步指出,有的智駕公司SKU特別多,但月銷可能只有幾百臺(tái);元戎啟行專注于“大單品”策略——集中資源與車企深度合作,打造爆款車型。在他看來(lái),只有深度合作,才能打磨出極致的產(chǎn)品體驗(yàn)?!澳阍绞亲龅纳ⅲ龅碾s,你這個(gè)產(chǎn)品越難?!?/p>

這種“少而精”的策略背后,是對(duì)自身技術(shù)研發(fā)效率的絕對(duì)自信。而這份自信,很大程度上來(lái)源于其選擇了一個(gè)能提供長(zhǎng)期價(jià)值、深刻理解AI、并具備開(kāi)放生態(tài)的云合作伙伴。

當(dāng)然,智駕的商業(yè)化過(guò)程中,成本控制也至關(guān)重要。如今智駕已成標(biāo)配,而非溢價(jià)項(xiàng)。黃晨告訴我們:“車上有智駕,不一定讓你多賣1萬(wàn)塊,但如果沒(méi)有,一定不被接受?!?/p>

換句話說(shuō),當(dāng)智駕成為“標(biāo)配”而非“溢價(jià)項(xiàng)”,Tier 1供應(yīng)商的利潤(rùn)空間被持續(xù)擠壓。這樣一來(lái),選擇云服務(wù)商,早已超越了單純的資源采購(gòu),更上升為一項(xiàng)關(guān)乎核心競(jìng)爭(zhēng)力的戰(zhàn)略決策。因?yàn)樵贫嘶A(chǔ)設(shè)施的技術(shù)深度與工程效率,直接決定了算法迭代的速度和質(zhì)量,進(jìn)而影響最終產(chǎn)品的市場(chǎng)競(jìng)爭(zhēng)力。

對(duì)元戎啟行而言,與阿里云合作的核心價(jià)值,在于通過(guò)阿里云全棧式的技術(shù)能力(包括高效的基礎(chǔ)設(shè)施、長(zhǎng)期積累的技術(shù)價(jià)值、以及開(kāi)源開(kāi)放的生態(tài)),將每一分算力的技術(shù)價(jià)值發(fā)揮到極致。這正是其構(gòu)筑自身技術(shù)壁壘、實(shí)現(xiàn)商業(yè)正循環(huán)的底氣所在。

對(duì)于所有致力于在物理AI時(shí)代取得突破的智能駕駛參與者而言,元戎啟行的實(shí)踐極具參考價(jià)值:要跨越智能駕駛的“最后一公里”,需要擁抱VLA;而要高效地訓(xùn)練VLA,需要選擇一朵像阿里云這樣具備全棧能力、能夠提供長(zhǎng)期價(jià)值陪伴、且開(kāi)源開(kāi)放的“超級(jí)AI云”。

因?yàn)樵谛率澜缋?,走得快需要好的技術(shù)。而走得遠(yuǎn),則需要好的伙伴。

來(lái)源:第一電動(dòng)網(wǎng)

作者:汽車之心

本文地址:http://m.cbbreul.com/kol/278172

返回第一電動(dòng)網(wǎng)首頁(yè) >

收藏
6
  • 分享到:
發(fā)表評(píng)論
新聞推薦
大牛作者

汽車之心

微信公號(hào)Auto-Bit。汽車之心是一家專注智能汽車與自動(dòng)駕駛的媒體和知識(shí)服務(wù)平臺(tái),定位于推動(dòng)汽車與科技的融合。我們的團(tuán)隊(duì)由一群熱愛(ài)汽車與新技術(shù)的資深媒體人、產(chǎn)品人與自動(dòng)駕駛行業(yè)從業(yè)者組成。歡迎添加微信號(hào)autobitxyz給我們提意見(jiàn)。

  • 1041
    文章
  • 53948
    獲贊
閱讀更多文章
第一電動(dòng)網(wǎng)官方微信

反饋和建議 在線回復(fù)

您的詢價(jià)信息
已經(jīng)成功提交我們稍后會(huì)聯(lián)系您進(jìn)行報(bào)價(jià)!

第一電動(dòng)網(wǎng)
Hello world!
-->