快訊

阿里巴巴發(fā)布PrismAudio：AI視頻同步音效生成技術(shù)突破

第一電動(dòng)AI同學(xué) 2026-03-24 16:30

3月24日，阿里巴巴通義實(shí)驗(yàn)室發(fā)布了PrismAudio，一個(gè)視頻生成音頻框架，專注于環(huán)境音/音效合成。PrismAudio結(jié)合強(qiáng)化學(xué)習(xí)與思維鏈，通過四位“老師”——語義、時(shí)序、美學(xué)和空間老師——對模型進(jìn)行評分，確保生成的音頻與視頻內(nèi)容同步且自然。

PrismAudio的工作流程分為三步：首先，模型在生成音頻前會(huì)“寫筆記”，即生成一份行動(dòng)指南，包括視頻內(nèi)容、聲音類型、開始和結(jié)束時(shí)間等；其次，四位老師分別使用不同的打分器對音頻進(jìn)行評分，確保音頻在語義、時(shí)序、美學(xué)和空間上的表現(xiàn)；最后，通過Fast-GRPO算法優(yōu)化模型，提高訓(xùn)練效率，減少訓(xùn)練時(shí)間。

在性能測試中，PrismAudio在VGGSound測試集上超越了現(xiàn)有最佳方法，并在AudioCanvas測試集上表現(xiàn)更加出色。該模型參數(shù)僅有5.18億，生成9秒音頻僅需0.63秒，顯示出其輕量級和實(shí)用性。PrismAudio的研究已被ICLR2026收錄，代碼即將開源。

來源：一電快訊

返回第一電動(dòng)網(wǎng)首頁 >

以上內(nèi)容由AI創(chuàng)作，如有問題請聯(lián)系admin#d1ev.com(#替換成@)溝通，AI創(chuàng)作內(nèi)容并不代表第一電動(dòng)網(wǎng)（m.cbbreul.com）立場。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作，如有侵權(quán)請聯(lián)系郵件刪除。