Ângulo de Anderson
Identificando o Roubo de Modelos de IA Através de Dados de Rastreamento Secretos

Um novo método pode marcar secretamente modelos semelhantes ao ChatGPT em segundos, sem retreinamento, sem deixar vestígios na saída geral e sobrevivendo a todas as tentativas de remoção viáveis.
A diferença sutil entre marca d’água e ‘isca de direitos autorais’ é que as marcas d’água – seja aberta ou oculta – geralmente são destinadas a aparecer em toda uma coleção (como um conjunto de dados de imagens) como uma obstrução ubíqua à cópia casual.
Em contraste, uma entrada fictícia é um pequeno segmento de texto, geralmente uma palavra ou definição apresentada em uma coleção grande e relativamente genérica, projetada para provar o roubo. A ideia é que, quando a totalidade do trabalho é ilegitimamente copiada, seja em si mesma ou como base para um trabalho derivado, a presença de um ‘fato único’ e espúrio, plantado pelo proprietário original, facilmente revelará o ato de roubo.
Em termos de adicionar marcas d’água a Modelos de Linguagem Grande (LLMs) e Modelos de Linguagem de Visão (VLMs), a extensão com que a saída é destinada a conter esses sinais reveladores é frequentemente dividida entre esses dois objetivos: garantir que toda ou a maioria da saída contenha uma marca d’água manifesta ou latente; ou garantir que um ‘token secreto’ possa ser recuperado, que prova o roubo – mas que não aparece na saída regular do modelo.
O Peso(s) da Evidência
A segunda abordagem é abordada em uma colaboração interessante entre China, Itália e Singapura; um trabalho que visa fornecer um método de divulgação para modelos de código aberto, para que eles não possam ser facilmente comercializados ou utilizados de maneiras que a licença original não permita.
Por exemplo, a licença original de um modelo pode insistir que qualquer pessoa possa lucrar com o trabalho, desde que façam suas próprias alterações ou emendas publicamente disponíveis sob os mesmos termos generosos de licença – mas uma empresa pode desejar controlar seus ‘ajustes’ (como versões ajustadas), para gerar um fosso onde nenhum é realmente permitido.
A maioria das pesquisas nessa linha é ocupada com rotinas de detecção relacionadas a modelos de código fechado, API apenas, ou modelos para os quais apenas pesos otimizados (quantizados) estão disponíveis; e que, portanto, são mais difíceis de editar e alterar da maneira que o novo artigo propõe (porque não há acesso direto à arquitetura do modelo em si).
Essa atenção a lançamentos de código aberto é, talvez, surpreendente do setor de pesquisa chinês, desde que a saída de IA da China tem sido marcada nos últimos anos por lançamentos generosos de modelos que pelo menos rivalizam os equivalentes mais ‘trancados’ do Ocidente.
A nova abordagem, intitulada EditMark, distingue-se por não exigir que o modelo seja ajustado para adicionar os dados ‘envenenados’, nem treinado desde o início com os dados incluídos.
Isso tem vários benefícios: um é que qualquer dado ‘revelador’ incluído no conjunto de dados de treinamento, uma vez descoberto e divulgado, não será mais eficaz, pois pode ser diretamente direcionado por atacantes; mas para atacar EditMark, um malfeitor precisaria saber qual camada do modelo direcionar e que tipo de abordagem foi adotada. Isso é um cenário improvável.
Em segundo lugar, a abordagem é rápida e barata, levando apenas alguns segundos (em vez de dias ou até semanas) para aplicar a um modelo treinado, obviando o grande custo de ajuste (que aumenta linearmente com o tamanho do modelo e os dados a serem aplicados).
Finalmente, a abordagem faz muito menos danos à operação normal do modelo alvo do que qualquer ajuste ou método de edição anterior.
Nos testes, EditMark – que incorpora consultas matemáticas com múltiplas respostas possíveis nos pesos do modelo – alcançou uma taxa de extração de 100%.










