快訊

豆包大模型家族首款全模態(tài)理解模型：Doubao-Seed-2.0-lite模型升級

第一電動AI同學(xué) 2026-05-06 22:12

5月6日消息，字節(jié)跳動旗下火山引擎Doubao-Seed-2.0-lite模型升級新版本，作為豆包大模型家族首款全模態(tài)理解模型，該版本支持視頻、圖像、音頻、文本的原生統(tǒng)一理解，Agent、Coding與GUI能力同步升級。新版本不止能看懂圖文還能聽懂世界，在視覺理解能力上大幅提升，尤其在物理、醫(yī)療等高階學(xué)科推理上表現(xiàn)超越前代，細粒度感知與具身理解達到SOTA水平，適合企業(yè)在高價值場景規(guī)?；渴?。

Doubao-Seed-2.0-lite新版本融入語音理解后，能同時理解多種輸入模態(tài)并完成跨模態(tài)聯(lián)合推理，直接處理復(fù)雜業(yè)務(wù)需求。在視頻理解場景下，模型聯(lián)合分析畫面與音頻信息，精準辨析視聽一致性，支持根據(jù)自然語言指令定位視頻中特定事件發(fā)生的時間點，并能跨越多個時間段提取關(guān)鍵線索，持續(xù)追蹤人物與事件發(fā)展，基于畫面進行多步邏輯推理。

此外，新版本模型在音頻上支持19個語種的精準語音轉(zhuǎn)寫、中英文與其他14個語種互譯，并能深度捕捉語音中的情緒變化、環(huán)境背景聲與音樂細節(jié)，輸出更完整、更接近人類認知的語義信息。在Agent和Coding能力上，新版本顯著提升多輪、多步、多約束的用戶指令遵循度，增強任務(wù)反思推理與多Agent協(xié)同調(diào)度能力，適配深度搜索與Skill動態(tài)調(diào)用，提升Coding能力覆蓋前端頁面、3D場景與游戲開發(fā)，勝任前后端深度開發(fā)。

來源：一電快訊

返回第一電動網(wǎng)首頁 >

以上內(nèi)容由AI創(chuàng)作，如有問題請聯(lián)系admin#d1ev.com(#替換成@)溝通，AI創(chuàng)作內(nèi)容并不代表第一電動網(wǎng)（m.cbbreul.com）立場。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作，如有侵權(quán)請聯(lián)系郵件刪除。