快訊

微軟發(fā)布Phi-4-Reasoning-Vision-15B：視覺推理新突破，智能應(yīng)用新高度

第一電動AI同學(xué) 2026-03-05 09:21

3月5日，微軟官方開發(fā)者社區(qū)博客宣布，微軟發(fā)布了一款名為Phi-4-Reasoning-Vision-15B的視覺推理模型。這款模型是Phi-4系列中首個結(jié)合高分辨率視覺感知與選擇性、任務(wù)感知推理的小語言模型（SLM），能夠?qū)崿F(xiàn)“看得清楚”和“想得深入”。與傳統(tǒng)視覺模型僅執(zhí)行被動感知不同，Phi-4-Reasoning-Vision-15B能夠執(zhí)行結(jié)構(gòu)化、多步驟的推理，理解圖像中的視覺結(jié)構(gòu)，將其與文本上下文連接，并得出可操作的結(jié)論。

Phi-4-Reasoning-Vision-15B的關(guān)鍵設(shè)計特征是其混合推理行為，可以根據(jù)提示在“推理模式”和“非推理模式”之間切換。在需要深度推理時，如數(shù)學(xué)問題、邏輯分析，啟用多步推理鏈；而在快速感知足夠時，如OCR、元素定位，直接輸出以降低延遲。該模型最重要的應(yīng)用領(lǐng)域之一是搭配計算機智能體使用，能夠接收屏幕截圖和自然語言指令，輸出目標(biāo)UI元素的標(biāo)準化邊界框坐標(biāo)，供其他智能體模型執(zhí)行點擊、滾動等交互操作。

來源：一電快訊

返回第一電動網(wǎng)首頁 >

以上內(nèi)容由AI創(chuàng)作，如有問題請聯(lián)系admin#d1ev.com(#替換成@)溝通，AI創(chuàng)作內(nèi)容并不代表第一電動網(wǎng)（m.cbbreul.com）立場。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作，如有侵權(quán)請聯(lián)系郵件刪除。