為了從這種方法中獲得最佳效果,我們需要訪問(wèn)大量具有匹配源文本和目標(biāo)文本的高質(zhì)量訓(xùn)練數(shù)據(jù)。如果您已經(jīng)建立了相當(dāng)大的翻譯記憶庫(kù),那么它很可能可以用于此目的。LanguageWire AI 團(tuán)隊(duì)一直在努力確定 LoRA 調(diào)整的理想翻譯記憶庫(kù)大小。

現(xiàn)在讓我們討論第二種方法,即上下文學(xué)習(xí)或小樣本學(xué)習(xí)。

情境學(xué)習(xí)是一種讓模型根據(jù)專門(mén)設(shè)計(jì)的提示引入的少量示例進(jìn)行動(dòng)態(tài)學(xué)習(xí)的方法。這種方法也稱為小樣本學(xué)習(xí)。

在機(jī)器翻譯的背景下,小樣本學(xué)習(xí)的工作原理如下:

  1. 系統(tǒng)會(huì)分析傳入的源內(nèi)容。通常,源內(nèi)容由一個(gè)或多個(gè)句子或片段組成。
  2. 系統(tǒng)嘗試找到類似的源內(nèi)容片段及其各自的翻譯的例子。
  3. 系統(tǒng)創(chuàng)建一個(gè)提示,其中包括要翻譯的源內(nèi)容和以前翻譯的示例。
  4. LLM 通過(guò)實(shí)例不斷學(xué)習(xí),創(chuàng)建高質(zhì)量的原文翻譯。

少樣本學(xué)習(xí)對(duì)機(jī)器翻譯的流暢性、語(yǔ)調(diào)和術(shù)語(yǔ)合規(guī)性有積極影響。它需要使用更少的示例,最多三到五個(gè)。事實(shí)上,樣本量越大效率越低,因此將所有翻譯記憶都包含在一個(gè)提示中對(duì)它沒(méi)有好處。實(shí)驗(yàn)表明,LLM 不能很好地處理大型提示上下文,結(jié)果的質(zhì)量甚至可能會(huì)下降!

通過(guò)結(jié)合 LoRA 和小樣本學(xué)習(xí)的優(yōu)勢(shì),我們可以在大型語(yǔ)言模型中實(shí)現(xiàn)強(qiáng)大的優(yōu)化,最終實(shí)現(xiàn)超個(gè)性化、高質(zhì)量的機(jī)器翻譯。

您的語(yǔ)言數(shù)據(jù)是關(guān)鍵!

如果沒(méi)有大量高質(zhì)量、最新的各種語(yǔ)言對(duì)雙語(yǔ)文本語(yǔ)料庫(kù),這些技術(shù)都無(wú)法發(fā)揮作用。您的翻譯記憶庫(kù)是此數(shù)據(jù)集的理想來(lái)源。
然而,在使用它之前,您必須考慮幾個(gè)重要方面:

如果您使用 LanguageWire 平臺(tái),自動(dòng)化翻譯記憶庫(kù)管理模塊將為您處理這些方面,無(wú)需任何手動(dòng)操作。

如果您有現(xiàn)有的外部翻譯記憶庫(kù),并希望將其用于我們的平臺(tái)和機(jī)器翻譯服務(wù),我們的工程師可以幫您實(shí)現(xiàn)這一目標(biāo)。LanguageWire 工程師創(chuàng)建了導(dǎo)入 API、清理腳本和語(yǔ)言質(zhì)量評(píng)估工具,以幫助您充分利用最寶貴的語(yǔ)言資產(chǎn)。

LanguageWire 解決方案

那么,我們?nèi)绾螌⑺羞@些整合到一個(gè)典型的翻譯項(xiàng)目中呢?讓我們來(lái)看一個(gè)例子。

LanguageWire 提供的解決方案與我們的技術(shù)生態(tài)系統(tǒng)完全集成。下圖 1 中高級(jí)步驟對(duì)此進(jìn)行了演示。

在此示例中,我們采用了一個(gè)簡(jiǎn)單的工作流程,客戶想要翻譯 PDF 或辦公文件。用戶只需使用 LanguageWire 項(xiàng)目門(mén)戶上傳內(nèi)容文件即可。從此,一切都自動(dòng)安排好了:

圖 1:現(xiàn)有 LanguageWire 平臺(tái)結(jié)果中的簡(jiǎn)單翻譯項(xiàng)目

圖 1:現(xiàn)有 LanguageWire 平臺(tái)結(jié)果中的簡(jiǎn)單翻譯項(xiàng)目

在示例 2 中,我們重點(diǎn)關(guān)注使用基于 LLM 技術(shù)的機(jī)器翻譯的預(yù)翻譯步驟。如下圖 2 所示,客戶的語(yǔ)言數(shù)據(jù)起著核心作用。

圖 2:使用大型語(yǔ)言模型、混合 LoRA 定制和優(yōu)化的上下文學(xué)習(xí)提示的翻譯示例。

Languagewire 翻譯項(xiàng)目圖

當(dāng)我們專門(mén)設(shè)計(jì)的提示由 LLM 處理時(shí),LoRA 模塊中的自定義權(quán)重將有助于獲得高質(zhì)量的機(jī)器翻譯 輸出。完成后,此輸出將自動(dòng)進(jìn)入流程的下一步。通常,這將是一項(xiàng)后期編輯任務(wù),由人類專家參與,以實(shí)現(xiàn)最高的最終質(zhì)量。

這對(duì)我們的客戶意味著什么?

簡(jiǎn)而言之:我們的客戶可以期待更好的機(jī)器翻譯。機(jī)器翻譯可以自動(dòng)適應(yīng)不同的環(huán)境,例如不同的垂直行業(yè),并與該垂直行業(yè)的預(yù)期語(yǔ)氣和用詞選擇保持一致。

這不僅可以降低譯后編輯的成本,還可以提高翻譯的交付速度。它還將為直接使用機(jī)器翻譯輸出開(kāi)辟更廣泛的空間,而無(wú)需人工專家參與。

LanguageWire 還對(duì) LLM 做了什么?

正如我們之前提到的,大型語(yǔ)言模型非常靈活。LanguageWire AI 團(tuán)隊(duì)正在研究許多其他可以從 LLM 技術(shù)中受益的領(lǐng)域。

我們目前正在研究:

自動(dòng)語(yǔ)言質(zhì)量評(píng)估。LLM 可以檢查人類專家的翻譯或另一個(gè)模型的機(jī)器翻譯輸出并給出質(zhì)量評(píng)分。這可以大大降低校對(duì)成本。底層的機(jī)器翻譯質(zhì)量評(píng)估 (MTQE) 技術(shù)也可以應(yīng)用于其他用例。

內(nèi)容創(chuàng)作助手。通過(guò)結(jié)合使用 PEFT 與 LoRA 和少樣本學(xué)習(xí),我們可以個(gè)性化 LLM 模型,使其專注于內(nèi)容創(chuàng)作任務(wù)??蛻艨梢蕴峁╆P(guān)鍵字和元數(shù)據(jù),讓模型生成使用業(yè)務(wù)定制的語(yǔ)氣和詞匯選擇的文本。

上一篇:

API與微服務(wù)中的人工智能技術(shù)進(jìn)展

下一篇:

關(guān)于 RAG 您需要了解的一切
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門(mén)場(chǎng)景實(shí)測(cè),選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)