国产精品在线视频资源|av人人人人操爱香蕉视频|AAA黄色片子黄色a级片视频|亚洲综合视频网2|成人免费网站观影|国产天堂AV在线播放资源|成人无码精品一区二区黑寡妇在线|论理聚合视频一区二区三区|在线无码视频一区二区|淫荡人妻不卡av

  1. 首頁
  2. 資訊
  3. 阿里巴巴發(fā)布PrismAudio:AI視頻同步音效生成技術(shù)突破

阿里巴巴發(fā)布PrismAudio:AI視頻同步音效生成技術(shù)突破

3月24日,阿里巴巴通義實(shí)驗(yàn)室發(fā)布了PrismAudio,一個(gè)視頻生成音頻框架,專注于環(huán)境音/音效合成。PrismAudio結(jié)合強(qiáng)化學(xué)習(xí)與思維鏈,通過四位“老師”——語義、時(shí)序、美學(xué)和空間老師——對模型進(jìn)行評分,確保生成的音頻與視頻內(nèi)容同步且自然。

PrismAudio的工作流程分為三步:首先,模型在生成音頻前會(huì)“寫筆記”,即生成一份行動(dòng)指南,包括視頻內(nèi)容、聲音類型、開始和結(jié)束時(shí)間等;其次,四位老師分別使用不同的打分器對音頻進(jìn)行評分,確保音頻在語義、時(shí)序、美學(xué)和空間上的表現(xiàn);最后,通過Fast-GRPO算法優(yōu)化模型,提高訓(xùn)練效率,減少訓(xùn)練時(shí)間。

在性能測試中,PrismAudio在VGGSound測試集上超越了現(xiàn)有最佳方法,并在AudioCanvas測試集上表現(xiàn)更加出色。該模型參數(shù)僅有5.18億,生成9秒音頻僅需0.63秒,顯示出其輕量級和實(shí)用性。PrismAudio的研究已被ICLR2026收錄,代碼即將開源。

來源:一電快訊

返回第一電動(dòng)網(wǎng)首頁 >

6點(diǎn)贊
發(fā)表評論
熱文榜
第一電動(dòng)網(wǎng)官方微信

反饋和建議 在線回復(fù)

您的詢價(jià)信息
已經(jīng)成功提交我們稍后會(huì)聯(lián)系您進(jìn)行報(bào)價(jià)!

第一電動(dòng)網(wǎng)
Hello world!