3月19日,小米公司宣布推出三款大模型——MiMo-V2-Pro、Omni和TTS,這些模型已在多個平臺上線,并提供限時免費體驗一周的服務(wù)。MiMo-V2-Pro模型專為高強度Agent工作場景設(shè)計,擁有超過1T的總參數(shù)量,支持1M超長上下文長度,并在ArtificialAnalysis排行榜上位列全球第八,國內(nèi)第二。該模型在智能體框架中能夠無人工干預(yù)完成復(fù)雜工作流編排,且模型API定價較低,降低了前沿智能的使用門檻。
XiaomiMiMo-V2-Omni模型則針對復(fù)雜的多模態(tài)交互與執(zhí)行場景,支持音頻、圖像和視頻理解,實現(xiàn)了從理解到操控的跨越。在音頻理解方面,它支持超過10小時連續(xù)長音頻的深度理解,而在圖像理解方面,展現(xiàn)出強大的視覺推理與圖表分析能力。視頻理解方面,模型支持原生音視頻聯(lián)合輸入,具備情境感知與未來推理能力。
XiaomiMiMo-V2-TTS是小米自主研發(fā)的語音合成大模型,基于自研AudioTokenizer和多碼本語音-文本聯(lián)合建模架構(gòu),實現(xiàn)了高度可控的多粒度語音風(fēng)格控制。該模型支持從整體風(fēng)格定調(diào)到局部情緒表達的精準(zhǔn)調(diào)節(jié),能在同一句話內(nèi)完成語氣轉(zhuǎn)折和情感遞變,真實還原人類說話的自然韻律。MiMo-V2-TTS還支持多種方言的自然發(fā)音和高質(zhì)量的歌聲合成,展現(xiàn)了豐富的多元表達能力。



來源:一電快訊
返回第一電動網(wǎng)首頁 >
以上內(nèi)容由AI創(chuàng)作,如有問題請聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內(nèi)容并不代表第一電動網(wǎng)(m.cbbreul.com)立場。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作,如有侵權(quán)請聯(lián)系郵件刪除。