2. 偏好對齊方法(Preference Alignment)

(1) 基于人類反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning with Human Feedback, RLHF)
  1. 收集偏好數(shù)據(jù)集:針對同一個(gè)問題,提供兩個(gè)答案并標(biāo)注優(yōu)劣。
  2. 訓(xùn)練獎勵(lì)模型(Reward Model):基于偏好數(shù)據(jù)集,構(gòu)建一個(gè)評分機(jī)制。
  3. 強(qiáng)化學(xué)習(xí)優(yōu)化:結(jié)合獎勵(lì)模型與強(qiáng)化學(xué)習(xí)算法(如 PPO),教導(dǎo) LLM 提供更優(yōu)質(zhì)的回答。
(2) 直接偏好優(yōu)化(Direct Preference Optimization, DPO)
(3) 單體偏好優(yōu)化(Monolithic Preference Optimization, ORPO)

原文:https://arxiv.org/abs/2403.07691

ORPO Fine-tuning:https://huggingface.co/blog/mlabonne/orpo-llama-3

微調(diào)LLM常用的工具庫與框架

在微調(diào)大語言模型(LLMs)的過程中,選擇合適的工具庫和框架可以極大地簡化開發(fā)流程,提高效率。以下是常用的工具和集成框架匯總,讓你快速入門并靈活應(yīng)用。

常用工具庫

  1. bitsandbytes
  1. Parameter-Efficient Fine-Tuning (PEFT)
  1. Transformer Reinforcement Learning (TRL)
  1. wandb

常用微調(diào)框架

  1. LLaMA-Factory
  1. Alpaca-Lora
  1. torchtune

完整代碼:

Github REAME : https://github.com/jeff52415/yoga-model-hub/blob/main/docs/fine_tune_llm.md

Jupyter Notebook Tutorial:https://github.com/jeff52415/yoga-model-hub/blob/main/notebooks/fine_tune_llm.ipynb

原文轉(zhuǎn)載出自:@AI技術(shù)研習(xí)社《如何提升預(yù)訓(xùn)練LLMs:從零打造到微調(diào)優(yōu)化的全攻略》

上一篇:

什么是LIP

下一篇:

如何實(shí)現(xiàn)API緩存和性能優(yōu)化
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動選型,提升決策效率

查看全部API→
??

熱門場景實(shí)測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對比試用API 限時(shí)免費(fèi)