模型亮點(diǎn)

數(shù)據(jù)

架構(gòu)

訓(xùn)練

image

模型和論文均已發(fā)布

測(cè)評(píng)結(jié)果

DeepSeek-VL2 模型展現(xiàn)出了符合我們預(yù)期的強(qiáng)大能力,在各項(xiàng)評(píng)測(cè)指標(biāo)上均取得了極具優(yōu)勢(shì)的成績(jī):

image

image

案例展示

動(dòng)態(tài)分辨率支持

DeepSeek-VL2 僅使用一個(gè) SigLIP-SO400M 作為圖像編碼器,通過將圖像切分為多張子圖和一張全局縮略圖來實(shí)現(xiàn)動(dòng)態(tài)分辨率圖像支持。這一策略使得 DeepSeek-VL2 最多支持 1152×1152 的分辨率和 1:9 或 9:1 的極端長(zhǎng)寬比,適配更多應(yīng)用場(chǎng)景。

image

圖表理解

更多科研文檔數(shù)據(jù)的學(xué)習(xí)使得 DeepSeek-VL2 可以輕易理解各種科研圖表。

image

Plot2Code

DeepSeek-VL2 同時(shí)具備圖像理解和代碼生成的功能,可以作為你逆向畫圖的好幫手。

image

Prompt: Draw a plot similar to the image in Python.

梗圖識(shí)別

更大規(guī)模的訓(xùn)練數(shù)據(jù)賦予了 DeepSeek-VL2 解析各種 Meme 的能力,有時(shí)它甚至懂得比你還要多。

image

Visual Grounding

大模型的能力絕不僅限于封閉類別的物體識(shí)別。

Zero-shot grounding

你可以用任意的自然語言進(jìn)行描述,然后讓 DeepSeek-VL2 幫你在圖像里找到符合描述的部分(注:模型本身只是輸出相應(yīng)物體的邊界框,而不會(huì)直接在原圖上繪制邊界框,下同)。例如,DeepSeek-VL2 可以在下圖里找到 "DeepSeek Whale" (DeepSeek 吉祥物虎鯨):

image

In-context grounding

你也可以給 DeepSeek-VL2 一個(gè)示例,讓它有樣學(xué)樣:

image

Prompt: <|grounding|>In the first image, an object within the black ellipse is highlighted. Please locate the object of the same category in the second image. (在第一張圖中有一個(gè)物體被黑色橢圓包裹住。在第二張圖中找到同類別的物體。)

Grounded conversation

視覺感知+語言推理,強(qiáng)強(qiáng)聯(lián)手成就模型的視覺語義對(duì)話能力。如果你拿著下圖問模型 "If you feel hot, what will you do?(如果感覺熱,你會(huì)怎么做?)",它會(huì)回答:"To cool down, you can use <|ref|>the fan<|/ref|><|det|>166, 460, 338, 712<|/det|> which is sitting on the desk.(為了降溫,你可以使用 166, 460, 338, 712 位置處的風(fēng)扇,它放在桌子上)"

image

Visual Storytelling

你也可以輸入多張圖像,讓模型把它們串聯(lián)起來,形成一個(gè)小小的童話故事。

image

視覺模型的未來

視覺是人類獲取外界信息的主要來源,占據(jù)所有信息量的約 80%。然而在大模型時(shí)代,視覺方面的進(jìn)展卻遠(yuǎn)遠(yuǎn)落后于語言模型。我們堅(jiān)信,提升模型視覺能力的意義不僅在于支持更多的輸入模態(tài),更在于全方位提升模型的感知和認(rèn)知能力。歡迎加入 DeepSeek,和我們一起探索 AGI 的星辰大海。—— End ——

image

原文轉(zhuǎn)載自:https://mp.weixin.qq.com/s/rE6Dh_OzolgDTAh3ubM5KA

上一篇:

多智能體大語言模型:四種多Agent范式

下一篇:

多模態(tài)大模型,全面綜述與指南
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門場(chǎng)景實(shí)測(cè),選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)