5月6日消息,字節(jié)跳動旗下火山引擎Doubao-Seed-2.0-lite模型升級新版本,作為豆包大模型家族首款全模態(tài)理解模型,該版本支持視頻、圖像、音頻、文本的原生統(tǒng)一理解,Agent、Coding與GUI能力同步升級。新版本不止能看懂圖文還能聽懂世界,在視覺理解能力上大幅提升,尤其在物理、醫(yī)療等高階學(xué)科推理上表現(xiàn)超越前代,細粒度感知與具身理解達到SOTA水平,適合企業(yè)在高價值場景規(guī)?;渴?。
Doubao-Seed-2.0-lite新版本融入語音理解后,能同時理解多種輸入模態(tài)并完成跨模態(tài)聯(lián)合推理,直接處理復(fù)雜業(yè)務(wù)需求。在視頻理解場景下,模型聯(lián)合分析畫面與音頻信息,精準辨析視聽一致性,支持根據(jù)自然語言指令定位視頻中特定事件發(fā)生的時間點,并能跨越多個時間段提取關(guān)鍵線索,持續(xù)追蹤人物與事件發(fā)展,基于畫面進行多步邏輯推理。
此外,新版本模型在音頻上支持19個語種的精準語音轉(zhuǎn)寫、中英文與其他14個語種互譯,并能深度捕捉語音中的情緒變化、環(huán)境背景聲與音樂細節(jié),輸出更完整、更接近人類認知的語義信息。在Agent和Coding能力上,新版本顯著提升多輪、多步、多約束的用戶指令遵循度,增強任務(wù)反思推理與多Agent協(xié)同調(diào)度能力,適配深度搜索與Skill動態(tài)調(diào)用,提升Coding能力覆蓋前端頁面、3D場景與游戲開發(fā),勝任前后端深度開發(fā)。



來源:一電快訊
返回第一電動網(wǎng)首頁 >
以上內(nèi)容由AI創(chuàng)作,如有問題請聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內(nèi)容并不代表第一電動網(wǎng)(m.cbbreul.com)立場。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作,如有侵權(quán)請聯(lián)系郵件刪除。