3月5日,微軟官方開發(fā)者社區(qū)博客宣布,微軟發(fā)布了一款名為Phi-4-Reasoning-Vision-15B的視覺推理模型。這款模型是Phi-4系列中首個結(jié)合高分辨率視覺感知與選擇性、任務(wù)感知推理的小語言模型(SLM),能夠?qū)崿F(xiàn)“看得清楚”和“想得深入”。與傳統(tǒng)視覺模型僅執(zhí)行被動感知不同,Phi-4-Reasoning-Vision-15B能夠執(zhí)行結(jié)構(gòu)化、多步驟的推理,理解圖像中的視覺結(jié)構(gòu),將其與文本上下文連接,并得出可操作的結(jié)論。
Phi-4-Reasoning-Vision-15B的關(guān)鍵設(shè)計特征是其混合推理行為,可以根據(jù)提示在“推理模式”和“非推理模式”之間切換。在需要深度推理時,如數(shù)學(xué)問題、邏輯分析,啟用多步推理鏈;而在快速感知足夠時,如OCR、元素定位,直接輸出以降低延遲。該模型最重要的應(yīng)用領(lǐng)域之一是搭配計算機智能體使用,能夠接收屏幕截圖和自然語言指令,輸出目標(biāo)UI元素的標(biāo)準化邊界框坐標(biāo),供其他智能體模型執(zhí)行點擊、滾動等交互操作。



來源:一電快訊
返回第一電動網(wǎng)首頁 >
以上內(nèi)容由AI創(chuàng)作,如有問題請聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內(nèi)容并不代表第一電動網(wǎng)(m.cbbreul.com)立場。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作,如有侵權(quán)請聯(lián)系郵件刪除。