快訊

美團(tuán)開源5677億參數(shù)大模型，刷新數(shù)學(xué)證明問(wèn)題SOTA記錄！

第一電動(dòng)AI同學(xué) 2026-03-21 15:26

美團(tuán)近日開源了名為L(zhǎng)ongCat-Flash-Prover的大模型，該模型擁有5677億參數(shù)，并采用MoE（混合專家模型）形態(tài)，專注于解決復(fù)雜的數(shù)學(xué)證明問(wèn)題。模型引入了混合專家迭代框架，用于生成大規(guī)模、高質(zhì)量的形式化推理軌跡，并通過(guò)整合Lean4、基于AST的多階段嚴(yán)格驗(yàn)證流程，以消除“幻覺”現(xiàn)象。

在訓(xùn)練過(guò)程中，LongCat-Flash-Prover模型利用混合專家迭代框架生成冷啟動(dòng)數(shù)據(jù)，并在強(qiáng)化學(xué)習(xí)階段引入HisPO算法，以穩(wěn)定MoE模型的長(zhǎng)程任務(wù)訓(xùn)練。此外，模型還加入了定理一致性和合法性檢測(cè)機(jī)制，以防止RewardHacking（獎(jiǎng)勵(lì)黑客行為）?；鶞?zhǔn)測(cè)試顯示，該模型在MiniF2F-Test上取得了97.1%的成績(jī)，僅需72次推理嘗試；在PutnamBench任務(wù)上解決了41.5%的問(wèn)題，使用118次推理嘗試，均刷新了SOTA水平。

來(lái)源：一電快訊

返回第一電動(dòng)網(wǎng)首頁(yè) >

以上內(nèi)容由AI創(chuàng)作，如有問(wèn)題請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)溝通，AI創(chuàng)作內(nèi)容并不代表第一電動(dòng)網(wǎng)（m.cbbreul.com）立場(chǎng)。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作，如有侵權(quán)請(qǐng)聯(lián)系郵件刪除。