Inteligência artificial

Otimização de Preferência Direta: Um Guia Completo

Published August 14, 2024

Updated May 21, 2026

Aayush Mittal Mittal

Alinhar grandes modelos de linguagem (LLMs) com valores e preferências humanas é um desafio. Métodos tradicionais, como Aprendizado por Reforço com Feedback Humano (RLHF), pavimentaram o caminho integrando entradas humanas para refinar as saídas do modelo. No entanto, o RLHF pode ser complexo e intensivo em recursos, exigindo poder computacional e processamento de dados substanciais. A Otimização de Preferência Direta (DPO) surge como uma abordagem nova e mais simplificada, oferecendo uma alternativa eficiente aos métodos tradicionais. Ao simplificar o processo de otimização, a DPO não apenas reduz a carga computacional, mas também melhora a capacidade do modelo de se adaptar rapidamente às preferências humanas.

Neste guia, mergulharemos profundamente na DPO, explorando seus fundamentos, implementação e aplicações práticas.

A Necessidade de Alinhamento de Preferência

Para entender a DPO, é crucial entender por que alinhar LLMs com preferências humanas é tão importante. Apesar de suas capacidades impressionantes, LLMs treinados em conjuntos de dados vastos sometimes podem produzir saídas que são inconsistentes, enviesadas ou desalinhadas com valores humanos. Esse desalinhamento pode se manifestar de várias maneiras:

Gerar conteúdo inseguro ou prejudicial
Fornecer informações imprecisas ou enganosas
Exibir vieses presentes nos dados de treinamento

Para abordar esses problemas, os pesquisadores desenvolveram técnicas para ajustar finamente os LLMs usando feedback humano. A abordagem mais proeminente dessas técnicas tem sido o RLHF.

Entendendo o RLHF: O Precursor da DPO

O Aprendizado por Reforço com Feedback Humano (RLHF) tem sido o método principal para alinhar LLMs com preferências humanas. Vamos desmembrar o processo do RLHF para entender suas complexidades:

a) Ajuste Fino Supervisionado (SFT): O processo começa ajustando finamente um LLM pré-treinado em um conjunto de dados de respostas de alta qualidade. Essa etapa ajuda o modelo a gerar saídas mais relevantes e coerentes para a tarefa-alvo.

b) Modelagem de Recompensa: Um modelo de recompensa separado é treinado para prever preferências humanas. Isso envolve:

Gerar pares de respostas para prompts dados
Ter humanos classificando qual resposta preferem
Treinar um modelo para prever essas preferências

c) Aprendizado por Reforço: O LLM ajustado finamente é então otimizado usando aprendizado por reforço. O modelo de recompensa fornece feedback, orientando o LLM para gerar respostas que se alinhem com preferências humanas.

Aqui está um pseudocódigo simplificado em Python para ilustrar o processo do RLHF:

Embora eficaz, o RLHF tem várias desvantagens:

Exige treinar e manter vários modelos (SFT, modelo de recompensa e modelo otimizado por RL)
O processo de RL pode ser instável e sensível a hiperparâmetros
É computacionalmente caro, exigindo muitas passagens diretas e reversas pelos modelos

Essas limitações motivaram a busca por alternativas mais simples e eficientes, levando ao desenvolvimento da DPO.

Otimização de Preferência Direta: Conceitos Centrais

Otimização de Preferência Direta https://arxiv.org/abs/2305.18290

Essa imagem contrasta duas abordagens distintas para alinhar saídas de LLMs com preferências humanas: Aprendizado por Reforço com Feedback Humano (RLHF) e Otimização de Preferência Direta (DPO). O RLHF confia em um modelo de recompensa para orientar a política do modelo de linguagem por meio de loops de feedback iterativos, enquanto a DPO otimiza diretamente as saídas do modelo para corresponder às respostas preferidas pelos humanos usando dados de preferência. Essa comparação destaca as forças e aplicações potenciais de cada método, fornecendo insights sobre como os futuros LLMs podem ser treinados para se alinhar melhor com as expectativas humanas.

Ideias-chave por trás da DPO:

a) Modelagem de Recompensa Implícita: A DPO elimina a necessidade de um modelo de recompensa separado, tratando o próprio modelo de linguagem como uma função de recompensa implícita.

b) Formulação Baseada em Política: Em vez de otimizar uma função de recompensa, a DPO otimiza diretamente a política (modelo de linguagem) para maximizar a probabilidade de respostas preferidas.

c) Solução em Forma Fechada: A DPO aproveita uma percepção matemática que permite uma solução em forma fechada para a política ótima, evitando a necessidade de atualizações de RL iterativas.

Implementando a DPO: Um Guia Prático de Código

A imagem abaixo apresenta um trecho de código implementando a função de perda da DPO usando PyTorch. Essa função desempenha um papel crucial na refinação de como os modelos de linguagem priorizam as saídas com base em preferências humanas. Aqui está uma quebra dos componentes-chave:

Assinatura da Função: A função dpo_loss recebe vários parâmetros, incluindo logprobabilidades da política (pi_logps), logprobabilidades do modelo de referência (ref_logps) e índices que representam conclusões preferidas e não preferidas (yw_idxs, yl_idxs). Além disso, um parâmetro beta controla a força da penalidade de divergência de KL.
Extração de Logprobabilidades: O código extrai as logprobabilidades para conclusões preferidas e não preferidas de ambos os modelos, política e de referência.
Cálculo da Razão Logarítmica: A diferença entre logprobabilidades para conclusões preferidas e não preferidas é computada para ambos os modelos, política e de referência. Essa razão é crítica para determinar a direção e magnitude da otimização.
Cálculo de Perda e Recompensa: A perda é calculada usando a função logsigmoid, enquanto as recompensas são determinadas escalando a diferença entre logprobabilidades da política e do modelo de referência por beta.

Função de perda da DPO usando PyTorch

Vamos mergulhar na matemática por trás da DPO para entender como ela alcança esses objetivos.

A Matemática da DPO

A DPO é uma reformulação astuta do problema de aprendizado de preferência. Aqui está uma quebra passo a passo:

a) Ponto de Partida: Maximização de Recompensa com Restrição de KL

O objetivo original do RLHF pode ser expresso como:

Onde:

πθ é a política (modelo de linguagem) que estamos otimizando
r(x,y) é a função de recompensa
πref é uma política de referência (geralmente o modelo SFT inicial)
β controla a força da restrição de divergência de KL

b) Forma de Política Ótima: Pode ser demonstrado que a política ótima para esse objetivo assume a forma:

π_r(y|x) = 1/Z(x) * πref(y|x) * exp(1/β * r(x,y))

Onde Z(x) é uma constante de normalização.

c) Dualidade Recompensa-Política: A percepção-chave da DPO é expressar a função de recompensa em termos da política ótima:

r(x,y) = β * log(π_r(y|x) / πref(y|x)) + β * log(Z(x))

d) Modelo de Preferência Supondo que as preferências seguem o modelo de Bradley-Terry, podemos expressar a probabilidade de preferir y1 sobre y2 como:

p*(y1 ≻ y2 | x) = σ(r*(x,y1) - r*(x,y2))

Onde σ é a função logística.

e) Objetivo da DPO Substituindo nossa dualidade recompensa-política no modelo de preferência, chegamos ao objetivo da DPO:

L_DPO(πθ; πref) = -E_(x,y_w,y_l)~D [log σ(β * log(πθ(y_w|x) / πref(y_w|x)) - β * log(πθ(y_l|x) / πref(y_l|x)))]

Esse objetivo pode ser otimizado usando técnicas de descida de gradiente padrão, sem a necessidade de algoritmos de RL.

Implementando a DPO

Agora que entendemos a teoria por trás da DPO, vamos ver como implementá-la na prática. Usaremos Python e PyTorch para este exemplo:

import torch
import torch.nn.functional as F

<p>class DPOTrainer:
def __init__(self, model, ref_model, beta=0.1, lr=1e-5):
self.model = model
self.ref_model = ref_model
self.beta = beta
self.optimizer = torch.optim.AdamW(self.model.parameters(), lr=lr)</p>

<p>def compute_loss(self, pi_logps, ref_logps, yw_idxs, yl_idxs):
&quot;&quot;&quot;
pi_logps: logprobabilidades da política, forma (B,)
ref_logps: logprobabilidades do modelo de referência, forma (B,)
yw_idxs: índices de conclusões preferidas em [0, B-1], forma (T,)
yl_idxs: índices de conclusões não preferidas em [0, B-1], forma (T,)
beta: temperatura controlando a força da penalidade de KL</p>

<p>Each pair of (yw_idxs[i], yl_idxs[i]) represents the indices of a single preference pair.
&quot;&quot;&quot;</p>

<p># Extract log probabilities for the preferred and dispreferred completions
pi_yw_logps, pi_yl_logps = pi_logps[yw_idxs], pi_logps[yl_idxs]
ref_yw_logps, ref_yl_logps = ref_logps[yw_idxs], ref_logps[yl_idxs]</p>

<p># Calculate log-ratios
pi_logratios = pi_yw_logps - pi_yl_logps
ref_logratios = ref_yw_logps - ref_yl_logps</p>

<p># Compute DPO loss
losses = -F.logsigmoid(self.beta * (pi_logratios - ref_logratios))
rewards = self.beta * (pi_logps - ref_logps).detach()</p>

return losses.mean(), rewards

<p>def train_step(self, batch):
x, yw_idxs, yl_idxs = batch
self.optimizer.zero_grad()</p>

<p># Compute log probabilities for the model and the reference model
pi_logps = self.model(x).log_softmax(-1)
ref_logps = self.ref_model(x).log_softmax(-1)</p>

<p># Compute the loss
loss, _ = self.compute_loss(pi_logps, ref_logps, yw_idxs, yl_idxs)
loss.backward()
self.optimizer.step()</p>

return loss.item()

<p># Usage
model = YourLanguageModel() # Initialize your model
ref_model = YourLanguageModel() # Load pre-trained reference model
trainer = DPOTrainer(model, ref_model)</p>

<p>for batch in dataloader:
loss = trainer.train_step(batch)
print(f&quot;Loss: {loss}&quot;)

Desafios e Direções Futuras

Embora a DPO ofereça vantagens significativas sobre as abordagens tradicionais de RLHF, ainda existem desafios e áreas para pesquisas adicionais:

a) Escalabilidade para Modelos Maiores:

À medida que os modelos de linguagem continuam a crescer em tamanho, aplicar eficientemente a DPO a modelos com centenas de bilhões de parâmetros permanece um desafio aberto. Os pesquisadores estão explorando técnicas como:

Métodos de ajuste fino eficientes (por exemplo, LoRA, prefix tuning)
Otimizações de treinamento distribuído
Checkpointing de gradientes e treinamento de precisão mista

Exemplo de uso da LoRA com DPO:


<p>from peft import LoraConfig, get_peft_model</p>

<p>class DPOTrainerWithLoRA(DPOTrainer):
def __init__(self, model, ref_model, beta=0.1, lr=1e-5, lora_rank=8):
lora_config = LoraConfig(
r=lora_rank,
lora_alpha=32,
target_modules=[&quot;q_proj&quot;, &quot;v_proj&quot;],
lora_dropout=0.05,
bias=&quot;none&quot;,
task_type=&quot;CAUSAL_LM&quot;
)
self.model = get_peft_model(model, lora_config)
self.ref_model = ref_model
self.beta = beta
self.optimizer = torch.optim.AdamW(self.model.parameters(), lr=lr)</p>

<p># Usage
base_model = YourLargeLanguageModel()
dpo_trainer = DPOTrainerWithLoRA(base_model, ref_model)

b) Adaptação Multitarefa e de Poucos Disparos:

Desenvolver técnicas de DPO que possam se adaptar eficientemente a novas tarefas ou domínios com dados de preferência limitados é uma área ativa de pesquisa. Abordagens sendo exploradas incluem:

Quadros de aprendizado de meta para adaptação rápida
Ajuste fino baseado em prompts para DPO
Aprendizado de transferência de modelos de preferência gerais para domínios específicos

c) Lidando com Preferências Ambíguas ou Conflitantes:

Os dados de preferência do mundo real frequentemente contêm ambiguidades ou conflitos. Melhorar a robustez da DPO a esses dados é crucial. Soluções potenciais incluem:

Modelagem de preferência probabilística
Aprendizado ativo para resolver ambiguidades
Agregação de preferências multiagente

Exemplo de modelagem de preferência probabilística:


<p>class ProbabilisticDPOTrainer(DPOTrainer):
def compute_loss(self, pi_logps, ref_logps, yw_idxs, yl_idxs, preference_prob):
# Compute log ratios
pi_yw_logps, pi_yl_logps = pi_logps[yw_idxs], pi_logps[yl_idxs]
ref_yw_logps, ref_yl_logps = ref_logps[yw_idxs], ref_logps[yl_idxs]</p>

<p>log_ratio_diff = pi_yw_logps.sum(-1) - pi_yl_logps.sum(-1)
loss = -(preference_prob * F.logsigmoid(self.beta * log_ratio_diff) +
(1 - preference_prob) * F.logsigmoid(-self.beta * log_ratio_diff))
return loss.mean()</p>

<p># Usage
trainer = ProbabilisticDPOTrainer(model, ref_model)
loss = trainer.compute_loss(pi_logps, ref_logps, yw_idxs, yl_idxs, preference_prob=0.8) # 80% de confiança na preferência

d) Combinando DPO com Outras Técnicas de Alinhamento:

Integrar a DPO com outras abordagens de alinhamento pode levar a sistemas mais robustos e capazes:

Princípios de IA constitucionais para satisfação explícita de restrições
Debate e modelagem de recompensa recursiva para elicitação de preferências complexas
Aprendizado por reforço inverso para inferir funções de recompensa subjacentes

Exemplo de combinação da DPO com IA constitucional:


<p>class ConstitutionalDPOTrainer(DPOTrainer):
def __init__(self, model, ref_model, beta=0.1, lr=1e-5, constraints=None):
super().__init__(model, ref_model, beta, lr)
self.constraints = constraints or []</p>

<p>def compute_loss(self, pi_logps, ref_logps, yw_idxs, yl_idxs):
base_loss = super().compute_loss(pi_logps, ref_logps, yw_idxs, yl_idxs)</p>

<p>constraint_loss = 0
for constraint in self.constraints:
constraint_loss += constraint(self.model, pi_logps, ref_logps, yw_idxs, yl_idxs)</p>

return base_loss + constraint_loss

<p># Usage
def safety_constraint(model, pi_logps, ref_logps, yw_idxs, yl_idxs):
# Implementar lógica de verificação de segurança
unsafe_score = compute_unsafe_score(model, pi_logps, ref_logps)
return torch.relu(unsafe_score - 0.5) # Penalizar se o score de segurança &gt; 0.5</p>

<p>constraints = [safety_constraint]
trainer = ConstitutionalDPOTrainer(model, ref_model, constraints=constraints)</p>

Considerações Práticas e Melhores Práticas

Ao implementar a DPO para aplicações do mundo real, considere os seguintes conselhos:

a) Qualidade dos Dados: A qualidade dos dados de preferência é crucial. Certifique-se de que seu conjunto de dados:

Cubra uma gama diversificada de entradas e comportamentos desejados
Tenha anotações de preferência consistentes e confiáveis
Equilibre diferentes tipos de preferências (por exemplo, factualidade, segurança, estilo)

b) Ajuste de Hiperparâmetros: Embora a DPO tenha menos hiperparâmetros do que o RLHF, o ajuste ainda é importante:

β (beta): Controla o trade-off entre satisfação de preferência e divergência do modelo de referência. Comece com valores em torno de 0,1-0,5.
Taxa de aprendizado: Use uma taxa de aprendizado mais baixa do que o ajuste fino padrão, geralmente na faixa de 1e-6 a 1e-5.
Tamanho do lote: Tamanhos de lote maiores (32-128) geralmente funcionam bem para aprendizado de preferência.

c) Refinamento Iterativo: A DPO pode ser aplicada iterativamente:

Treine um modelo inicial usando DPO
Gere novas respostas usando o modelo treinado
Coletar novos dados de preferência sobre essas respostas
Retreine usando o conjunto de dados expandido

Otimização de Preferência Direta Performance

Essa imagem mostra o desempenho de LLMs como o GPT-4 em comparação com julgamentos humanos em várias técnicas de treinamento, incluindo Otimização de Preferência Direta (DPO), Ajuste Fino Supervisionado (SFT) e Otimização de Política Próxima (PPO). A tabela revela que as saídas do GPT-4 estão cada vez mais alinhadas com preferências humanas, especialmente em tarefas de resumo. O nível de concordância entre o GPT-4 e os avaliadores humanos demonstra a capacidade do modelo de gerar conteúdo que ressoa com avaliadores humanos, quase tão de perto quanto o conteúdo gerado por humanos.

Estudos de Caso e Aplicações

Para ilustrar a eficácia da DPO, vamos examinar algumas aplicações do mundo real e algumas de suas variantes:

DPO Iterativa: Desenvolvida pela Snorkel (2023), essa variante combina amostragem de rejeição com DPO, permitindo um processo de seleção mais refinado para dados de treinamento. Ao iterar sobre várias rodadas de amostragem de preferência, o modelo é melhor capaz de generalizar e evitar ajuste fino a preferências ruins ou enviesadas.
IPO (Otimização de Preferência Iterativa): Introduzida por Azar et al. (2023), o IPO adiciona um termo de regularização para evitar ajuste fino, um problema comum na otimização baseada em preferência. Essa extensão permite que os modelos mantenham um equilíbrio entre aderir às preferências e preservar capacidades de generalização.
KTO (Otimização de Transferência de Conhecimento): Uma variante mais recente de Ethayarajh et al. (2023), o KTO dispensa preferências binárias por completo. Em vez disso, se concentra na transferência de conhecimento de um modelo de referência para o modelo de política, otimizando para um alinhamento mais suave e consistente com valores humanos.
DPO Multimodal para Aprendizado entre Domínios por Xu et al. (2024): Uma abordagem onde a DPO é aplicada em diferentes modalidades—texto, imagem e áudio—demonstrando sua versatilidade no alinhamento de modelos com preferências humanas em dados diversificados. Essa pesquisa destaca o potencial da DPO na criação de sistemas de IA mais abrangentes, capazes de lidar com tarefas complexas e multimodais.

Conclusão

A Otimização de Preferência Direta representa um avanço significativo no alinhamento de modelos de linguagem com preferências humanas. Sua simplicidade, eficiência e eficácia a tornam uma ferramenta poderosa para pesquisadores e praticantes.

Ao aproveitar o poder da Otimização de Preferência Direta e manter esses princípios em mente, você pode criar modelos de linguagem que não apenas exibem capacidades impressionantes, mas também se alinham estreitamente com valores e intenções humanos.

Aayush Mittal

Eu passei os últimos cinco anos me imergindo no fascinante mundo de Aprendizado de Máquina e Aprendizado Profundo. Minha paixão e especialização me levaram a contribuir para mais de 50 projetos diversificados de engenharia de software, com um foco particular em IA/ML. Minha curiosidade contínua também me atraiu para o Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.