5 月 26 日消息,微軟近日公布了旗下小語言 AI 模型家族(SLM)最新成員 "Phi-3-vision",這款模型主打 " 視覺能力 ",能夠理解圖文內容,同時據稱可以在移動平臺上流暢高效運行。
據介紹,Phi-3-vision 是微軟 Phi-3 家族首款多模態模型,該模型的文字理解能力基于 Phi-3-mini,同時也具備 Phi-3-mini 的輕量特點,能夠在移動平臺 / 嵌入終端中運行;該模型參數量為 42 億,大于 Phi-3-mini(3.8B),但小于 Phi-3-small(7B),上下文長度為 128k token,訓練期間為 2024 年 2 月至 4 月。
Phi-3-vision 模型的最大特色正如其名,主要支持 " 圖文識別能力 ",號稱能夠理解現實世界的圖片含義,還能快速識別提取圖片中的文字。
微軟表示,Phi-3-vision 特別適合辦公場合,開發人員特別優化了該模型在識別圖表和方塊圖 ( Block diagram ) 方面的理解能力,據稱可以利用用戶輸入的信息進行推論,同時還能做出一系列結論,為企業提供戰略建議,號稱 " 效果比肩大模型 "。
在模型訓練方面,微軟聲稱 Phi-3-vision 是由 " 多種類型圖片及文字數據訓練而成 ",包括一系列 " 經過嚴選的公開內容 ",例如 " 教科書等級 " 教育材料、代碼、圖文標注數據、現實世界知識、圖表圖片、聊天格式等內容,從而確保模型輸入內容的多樣性。為了確保隱私,微軟聲稱他們所使用的訓練數據 " 可追溯 " 不包含任何個人信息。
性能方面,微軟提供了 Phi-3-vision 相較于字節跳動 Llama3-Llava-Next(8B)、微軟研究院和威斯康星大學、哥倫比亞大學合作的 LlaVA-1.6(7B)、阿里巴巴通義千問 QWEN-VL-Chat 模型等競品模型的比較圖表,其中顯示 Phi-3-vision 模型在多個項目上表現優異。
發布日期: 2024-11-15
發布日期: 2024-05-29
發布日期: 2024-04-11
發布日期: 2024-04-24
發布日期: 2024-01-16
發布日期: 2024-04-26
發布日期: 2024-05-31
發布日期: 2023-11-07
發布日期: 2025-04-24
發布日期: 2025-04-24
發布日期: 2025-04-24
發布日期: 2025-04-24
發布日期: 2025-04-24
尋找更多銷售、技術和解決方案的信息?
廣州綠測電子科技有限公司(簡稱:綠測科技)成立于2015年11月,是一家專注于耕耘測試與測量行業的技術開發公司。綠測科技以“工程師的測試管家”的理念向廣大客戶提供專業的管家服務。綠測科技的研發部及工廠設立于廣州番禺區,隨著公司業務的發展,先后在廣西南寧、深圳、廣州南沙、香港等地設立了機構。綠測科技經過深耕測試與測量領域多年,組建了一支經驗豐富的團隊,可為廣大客戶提供品質過硬的產品及測試技術服務等支持。
技術工程師
020-22042442