美團(tuán)近日開源了名為L(zhǎng)ongCat-Flash-Prover的大模型,該模型擁有5677億參數(shù),并采用MoE(混合專家模型)形態(tài),專注于解決復(fù)雜的數(shù)學(xué)證明問(wèn)題。模型引入了混合專家迭代框架,用于生成大規(guī)模、高質(zhì)量的形式化推理軌跡,并通過(guò)整合Lean4、基于AST的多階段嚴(yán)格驗(yàn)證流程,以消除“幻覺”現(xiàn)象。
在訓(xùn)練過(guò)程中,LongCat-Flash-Prover模型利用混合專家迭代框架生成冷啟動(dòng)數(shù)據(jù),并在強(qiáng)化學(xué)習(xí)階段引入HisPO算法,以穩(wěn)定MoE模型的長(zhǎng)程任務(wù)訓(xùn)練。此外,模型還加入了定理一致性和合法性檢測(cè)機(jī)制,以防止RewardHacking(獎(jiǎng)勵(lì)黑客行為)?;鶞?zhǔn)測(cè)試顯示,該模型在MiniF2F-Test上取得了97.1%的成績(jī),僅需72次推理嘗試;在PutnamBench任務(wù)上解決了41.5%的問(wèn)題,使用118次推理嘗試,均刷新了SOTA水平。

來(lái)源:一電快訊
返回第一電動(dòng)網(wǎng)首頁(yè) >
以上內(nèi)容由AI創(chuàng)作,如有問(wèn)題請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內(nèi)容并不代表第一電動(dòng)網(wǎng)(m.cbbreul.com)立場(chǎng)。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作,如有侵權(quán)請(qǐng)聯(lián)系郵件刪除。