多模態(tài)深度學(xué)習(xí)的例子,其中使用不同類型的神經(jīng)網(wǎng)絡(luò)提取特征

這種方法的問題是,它將給予所有子網(wǎng)絡(luò)/模式同等的重要性,這在現(xiàn)實(shí)情況中是非常不可能的。

所有的模態(tài)對(duì)預(yù)測(cè)都有相同的貢獻(xiàn)

對(duì)網(wǎng)絡(luò)進(jìn)行加權(quán)組合

我們采用子網(wǎng)絡(luò)的加權(quán)組合,以便每個(gè)輸入模態(tài)可以對(duì)輸出預(yù)測(cè)有一個(gè)學(xué)習(xí)貢獻(xiàn)(Theta)。

我們的優(yōu)化問題變成-

對(duì)每個(gè)子網(wǎng)絡(luò)給出Theta權(quán)值后的損失函數(shù)。

將權(quán)值附加到子網(wǎng)后預(yù)測(cè)輸出。

把所有的都用起來

準(zhǔn)確性和可解釋性

我們?cè)趦蓚€(gè)現(xiàn)實(shí)多模態(tài)數(shù)據(jù)集上得到了SOTA:

Multimodal Corpus of Sentiment Intensity(MOSI) 數(shù)據(jù)集 —— 有417個(gè)標(biāo)注過的視頻,每毫秒標(biāo)注的音頻特征。共有2199個(gè)標(biāo)注數(shù)據(jù)點(diǎn),其中情緒強(qiáng)度定義為從strongly negative到strongly positive,線性尺度從- 3到+3。

模態(tài)包括:

1、文本

2、音頻

3、語言

每種模態(tài)對(duì)情緒預(yù)測(cè)的貢獻(xiàn)量

Transcription Start Site Prediction(TSS)數(shù)據(jù)集 —— Transcription是基因表達(dá)的第一步,在這一步中,特定的DNA片段被復(fù)制到RNA (mRNA)中。Transcription起始位點(diǎn)是transcription開始的位置。DNA片段的不同部分具有不同的特性,從而影響其存在。我們將TSS分為三個(gè)部分:

  1. 上游DNA
  2. 下游DNA
  3. TSS位置

我們?nèi)〉昧饲八从械母纳?,比之前的最先進(jìn)的結(jié)果3%。使用TATA box的下游DNA區(qū)域?qū)@一過程影響最大。

英文原文:https://towardsdatascience.com/multimodal-deep-learning-ce7d1d994f4

文章轉(zhuǎn)自微信公眾號(hào)@算法進(jìn)階

上一篇:

圖神經(jīng)網(wǎng)絡(luò)性能提升方法綜述

下一篇:

深度學(xué)習(xí)知識(shí)蒸餾的研究綜述
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門場(chǎng)景實(shí)測(cè),選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)