人人妻人人爽人人澡欧美一区,欧美在线,亚洲综合,强伦人妻一区二区三区视频18

模型亮點(diǎn)

數(shù)據(jù)

比一代 DeepSeek-VL 多一倍優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)，引入梗圖理解、視覺定位、視覺故事生成等新能力

架構(gòu)

視覺部分使用切圖策略支持動(dòng)態(tài)分辨率圖像，語言部分采用 MoE 架構(gòu)

訓(xùn)練

繼承 DeepSeek-VL 的三階段訓(xùn)練流程，同時(shí)通過負(fù)載均衡適配圖像切片數(shù)量不定的困難，對(duì)圖像和文本數(shù)據(jù)使用不同流水并行策略，對(duì) MoE 語言模型引入專家并行，實(shí)現(xiàn)高效訓(xùn)練

模型和論文均已發(fā)布

模型下載：點(diǎn)擊這里
GitHub主頁：點(diǎn)擊這里

測(cè)評(píng)結(jié)果

DeepSeek-VL2 模型展現(xiàn)出了符合我們預(yù)期的強(qiáng)大能力，在各項(xiàng)評(píng)測(cè)指標(biāo)上均取得了極具優(yōu)勢(shì)的成績(jī)：

案例展示

動(dòng)態(tài)分辨率支持

DeepSeek-VL2 僅使用一個(gè) SigLIP-SO400M 作為圖像編碼器，通過將圖像切分為多張子圖和一張全局縮略圖來實(shí)現(xiàn)動(dòng)態(tài)分辨率圖像支持。這一策略使得 DeepSeek-VL2 最多支持 1152×1152 的分辨率和 1:9 或 9:1 的極端長(zhǎng)寬比，適配更多應(yīng)用場(chǎng)景。

圖表理解

更多科研文檔數(shù)據(jù)的學(xué)習(xí)使得 DeepSeek-VL2 可以輕易理解各種科研圖表。

Plot2Code

DeepSeek-VL2 同時(shí)具備圖像理解和代碼生成的功能，可以作為你逆向畫圖的好幫手。

Prompt: Draw a plot similar to the image in Python.

梗圖識(shí)別

更大規(guī)模的訓(xùn)練數(shù)據(jù)賦予了 DeepSeek-VL2 解析各種 Meme 的能力，有時(shí)它甚至懂得比你還要多。

Visual Grounding

大模型的能力絕不僅限于封閉類別的物體識(shí)別。

Zero-shot grounding

你可以用任意的自然語言進(jìn)行描述，然后讓 DeepSeek-VL2 幫你在圖像里找到符合描述的部分（注：模型本身只是輸出相應(yīng)物體的邊界框，而不會(huì)直接在原圖上繪制邊界框，下同）。例如，DeepSeek-VL2 可以在下圖里找到 "DeepSeek Whale" (DeepSeek 吉祥物虎鯨):

In-context grounding

你也可以給 DeepSeek-VL2 一個(gè)示例，讓它有樣學(xué)樣：

Prompt: <|grounding|>In the first image, an object within the black ellipse is highlighted. Please locate the object of the same category in the second image. (在第一張圖中有一個(gè)物體被黑色橢圓包裹住。在第二張圖中找到同類別的物體。)

Grounded conversation

視覺感知+語言推理，強(qiáng)強(qiáng)聯(lián)手成就模型的視覺語義對(duì)話能力。如果你拿著下圖問模型 "If you feel hot, what will you do?（如果感覺熱，你會(huì)怎么做？）"，它會(huì)回答："To cool down, you can use <|ref|>the fan<|/ref|><|det|>166, 460, 338, 712<|/det|> which is sitting on the desk.（為了降溫，你可以使用 166, 460, 338, 712 位置處的風(fēng)扇，它放在桌子上）"

Visual Storytelling

你也可以輸入多張圖像，讓模型把它們串聯(lián)起來，形成一個(gè)小小的童話故事。

視覺模型的未來

視覺是人類獲取外界信息的主要來源，占據(jù)所有信息量的約 80%。然而在大模型時(shí)代，視覺方面的進(jìn)展卻遠(yuǎn)遠(yuǎn)落后于語言模型。我們堅(jiān)信，提升模型視覺能力的意義不僅在于支持更多的輸入模態(tài)，更在于全方位提升模型的感知和認(rèn)知能力。歡迎加入 DeepSeek，和我們一起探索 AGI 的星辰大海。—— End ——