Connect with us

Ângulo de Anderson

Identificando o Roubo de Modelos de IA Através de Dados de Rastreamento Secretos

mm
George Washington winking and smiling on the one dollar bill. Source: https://en.wikipedia.org/wiki/Marked_bill + Flux Edit and Adobe Firefly V3

Um novo método pode marcar secretamente modelos semelhantes ao ChatGPT em segundos, sem retreinamento, sem deixar vestígios na saída geral e sobrevivendo a todas as tentativas de remoção viáveis.

 

A diferença sutil entre marca d’água e ‘isca de direitos autorais’ é que as marcas d’água – seja aberta ou oculta – geralmente são destinadas a aparecer em toda uma coleção (como um conjunto de dados de imagens) como uma obstrução ubíqua à cópia casual.

Em contraste, uma entrada fictícia é um pequeno segmento de texto, geralmente uma palavra ou definição apresentada em uma coleção grande e relativamente genérica, projetada para provar o roubo. A ideia é que, quando a totalidade do trabalho é ilegitimamente copiada, seja em si mesma ou como base para um trabalho derivado, a presença de um ‘fato único’ e espúrio, plantado pelo proprietário original, facilmente revelará o ato de roubo.

Em termos de adicionar marcas d’água a Modelos de Linguagem Grande (LLMs) e Modelos de Linguagem de Visão (VLMs), a extensão com que a saída é destinada a conter esses sinais reveladores é frequentemente dividida entre esses dois objetivos: garantir que toda ou a maioria da saída contenha uma marca d’água manifesta ou latente; ou garantir que um ‘token secreto’ possa ser recuperado, que prova o roubo – mas que não aparece na saída regular do modelo.

O Peso(s) da Evidência

A segunda abordagem é abordada em uma colaboração interessante entre China, Itália e Singapura; um trabalho que visa fornecer um método de divulgação para modelos de código aberto, para que eles não possam ser facilmente comercializados ou utilizados de maneiras que a licença original não permita.

Por exemplo, a licença original de um modelo pode insistir que qualquer pessoa possa lucrar com o trabalho, desde que façam suas próprias alterações ou emendas publicamente disponíveis sob os mesmos termos generosos de licença – mas uma empresa pode desejar controlar seus ‘ajustes’ (como versões ajustadas), para gerar um fosso onde nenhum é realmente permitido.

A maioria das pesquisas nessa linha é ocupada com rotinas de detecção relacionadas a modelos de código fechado, API apenas, ou modelos para os quais apenas pesos otimizados (quantizados) estão disponíveis; e que, portanto, são mais difíceis de editar e alterar da maneira que o novo artigo propõe (porque não há acesso direto à arquitetura do modelo em si).

Essa atenção a lançamentos de código aberto é, talvez, surpreendente do setor de pesquisa chinês, desde que a saída de IA da China tem sido marcada nos últimos anos por lançamentos generosos de modelos que pelo menos rivalizam os equivalentes mais ‘trancados’ do Ocidente.

A nova abordagem, intitulada EditMark, distingue-se por não exigir que o modelo seja ajustado para adicionar os dados ‘envenenados’, nem treinado desde o início com os dados incluídos.

Isso tem vários benefícios: um é que qualquer dado ‘revelador’ incluído no conjunto de dados de treinamento, uma vez descoberto e divulgado, não será mais eficaz, pois pode ser diretamente direcionado por atacantes; mas para atacar EditMark, um malfeitor precisaria saber qual camada do modelo direcionar e que tipo de abordagem foi adotada. Isso é um cenário improvável.

Em segundo lugar, a abordagem é rápida e barata, levando apenas alguns segundos (em vez de dias ou até semanas) para aplicar a um modelo treinado, obviando o grande custo de ajuste (que aumenta linearmente com o tamanho do modelo e os dados a serem aplicados).

Finalmente, a abordagem faz muito menos danos à operação normal do modelo alvo do que qualquer ajuste ou método de edição anterior.

Nos testes, EditMark – que incorpora consultas matemáticas com múltiplas respostas possíveis nos pesos do modelo – alcançou uma taxa de extração de 100%.

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.