企業(yè)

小米發(fā)布Xiaomi OneVL：一步式潛空間語言視覺推理框架

蓋世汽車 2026-05-14 09:41

蓋世汽車獲悉，5月13日，小米正式發(fā)布Xiaomi OneVL，這是一個(gè)面向自動(dòng)駕駛的一步式潛空間語言視覺推理框架。該框架首次將VLA模型、世界模型與潛空間推理等多條技術(shù)路線整合到同一體系下，在保持強(qiáng)大推理能力的同時(shí)，顯著提升了推理速度與精度。

圖片來源：@小米技術(shù)

據(jù)介紹，Xiaomi OneVL采用了“語言推理+視覺未來預(yù)測(cè)”的雙重監(jiān)督機(jī)制，將可解釋性與世界模型的未來預(yù)測(cè)能力共同融入潛空間推理過程。

其核心思路在于：自動(dòng)駕駛所需壓縮的信息并非僅限于語言層面的推理，而是對(duì)未來視覺世界變化的整體理解。駕駛決策更多依賴于車輛運(yùn)動(dòng)、道路幾何、障礙物演變等時(shí)空因果關(guān)系，單純壓縮語言可能會(huì)丟失關(guān)鍵結(jié)構(gòu)信息，而壓縮對(duì)未來視覺畫面的預(yù)測(cè)則能更有效地保留影響駕駛結(jié)果的核心要素。

基于這一思路，小米提出了三項(xiàng)關(guān)鍵技術(shù)，核心思路是讓模型在內(nèi)部以自身“語言”進(jìn)行思考，學(xué)習(xí)預(yù)測(cè)未來視覺畫面，并將整個(gè)推理鏈條壓縮至一步完成。在多個(gè)主流推理與規(guī)劃基準(zhǔn)測(cè)試中，Xiaomi OneVL全面刷新了現(xiàn)有潛空間推理方法的性能記錄，其精度超越顯式思維鏈（CoT）方法，速度則與“僅答案”預(yù)測(cè)模式相當(dāng)。

小米集團(tuán)雷軍表示，該模型及代碼將全面開源，歡迎全球開發(fā)者與研究人員共同參與，推動(dòng)自動(dòng)駕駛大模型的進(jìn)一步發(fā)展。

來源：第一電動(dòng)網(wǎng)

作者：蓋世汽車

本文地址：http://m.cbbreul.com/news/qiye/299084

返回第一電動(dòng)網(wǎng)首頁 >

以上內(nèi)容轉(zhuǎn)載自蓋世汽車，目的在于傳播更多信息，如有侵僅請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)刪除，轉(zhuǎn)載內(nèi)容并不代表第一電動(dòng)網(wǎng)（m.cbbreul.com）立場(chǎng)。

文中圖片源自互聯(lián)網(wǎng)，如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com（#替換成@）刪除。