蓋世汽車獲悉,5月13日,小米正式發(fā)布Xiaomi OneVL,這是一個(gè)面向自動(dòng)駕駛的一步式潛空間語言視覺推理框架。該框架首次將VLA模型、世界模型與潛空間推理等多條技術(shù)路線整合到同一體系下,在保持強(qiáng)大推理能力的同時(shí),顯著提升了推理速度與精度。
圖片來源:@小米技術(shù)
據(jù)介紹,Xiaomi OneVL采用了“語言推理+視覺未來預(yù)測(cè)”的雙重監(jiān)督機(jī)制,將可解釋性與世界模型的未來預(yù)測(cè)能力共同融入潛空間推理過程。
其核心思路在于:自動(dòng)駕駛所需壓縮的信息并非僅限于語言層面的推理,而是對(duì)未來視覺世界變化的整體理解。駕駛決策更多依賴于車輛運(yùn)動(dòng)、道路幾何、障礙物演變等時(shí)空因果關(guān)系,單純壓縮語言可能會(huì)丟失關(guān)鍵結(jié)構(gòu)信息,而壓縮對(duì)未來視覺畫面的預(yù)測(cè)則能更有效地保留影響駕駛結(jié)果的核心要素。
基于這一思路,小米提出了三項(xiàng)關(guān)鍵技術(shù),核心思路是讓模型在內(nèi)部以自身“語言”進(jìn)行思考,學(xué)習(xí)預(yù)測(cè)未來視覺畫面,并將整個(gè)推理鏈條壓縮至一步完成。在多個(gè)主流推理與規(guī)劃基準(zhǔn)測(cè)試中,Xiaomi OneVL全面刷新了現(xiàn)有潛空間推理方法的性能記錄,其精度超越顯式思維鏈(CoT)方法,速度則與“僅答案”預(yù)測(cè)模式相當(dāng)。
小米集團(tuán)雷軍表示,該模型及代碼將全面開源,歡迎全球開發(fā)者與研究人員共同參與,推動(dòng)自動(dòng)駕駛大模型的進(jìn)一步發(fā)展。
來源:第一電動(dòng)網(wǎng)
作者:蓋世汽車
本文地址:http://m.cbbreul.com/news/qiye/299084
以上內(nèi)容轉(zhuǎn)載自蓋世汽車,目的在于傳播更多信息,如有侵僅請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)刪除,轉(zhuǎn)載內(nèi)容并不代表第一電動(dòng)網(wǎng)(m.cbbreul.com)立場(chǎng)。
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)刪除。