Intelligence artificielle

Création de Turcs Mécaniques Artificiels avec des Modèles de Langage Préentraînés

Published December 30, 2021

Updated April 5, 2026

Martin Anderson

Une grande partie du développement des systèmes d’apprentissage automatique dépend de l’étiquetage des données, où des centaines, voire des milliers de questions (telles que Est-ce une image d’un chat ? et Est-ce que ce texte est offensant ?) doivent être résolues afin de développer des ensembles de données autorisés sur lesquels les systèmes d’IA seront formés.

Bien que nous contribuions tous à ce processus à un moment donné, la majorité de ces tâches d’étiquetage sont effectuées pour de l’argent par des travailleurs humains sur des plateformes telles qu’Amazon Mechanical Turk, où les annotateurs effectuent des tâches de classification mineures dans une économie de pièces.

Le développement de modèles serait moins coûteux si les modèles de langage préentraînés (PLM) pouvaient en eux-mêmes effectuer certaines des tâches d’intelligence humaine (HIT) plus basiques actuellement sous-traitées à AMT et des plateformes similaires.

Des recherches récentes menées en Allemagne et par Huawei proposent cela, dans le document LMTurk : Few-Shot Learners as Crowdsourcing Workers.

Modèles de langage effectuant un apprentissage à quelques exemples

Les auteurs suggèrent que les couches de tâches plus simples visées par les travailleurs (humains) Turcs sont analogues à l’apprentissage à quelques exemples, où un cadre automatisé doit décider d’une mini-tâche en fonction d’un petit nombre d’exemples qui lui sont donnés.

Ils proposent donc que les systèmes d’IA peuvent apprendre efficacement à partir de PLM existants qui ont été formés à l’origine par des crowdworkers – que les connaissances fondamentales transmises des personnes aux machines ont été effectivement accomplies, et que là où ces connaissances sont relativement immuables ou empiriques d’une certaine manière, des cadres de modèles de langage automatisés peuvent potentiellement effectuer ces tâches en eux-mêmes.

‘Notre idée de base est que, pour une tâche TLP, nous traitons les apprentis à quelques exemples comme des travailleurs non experts, ressemblant à des travailleurs de crowdsourcing qui annotent des ressources pour la technologie du langage humain. Nous sommes inspirés par le fait que nous pouvons considérer un travailleur de crowdsourcing comme un type d’apprenti à quelques exemples.’

Les implications incluent la possibilité que beaucoup des vérités de base sur lesquelles les systèmes d’IA de l’avenir dépendent auront été dérivées d’humains il y a quelques années, puis traitées comme des informations prévalidées et exploitables qui ne nécessitent plus d’intervention humaine.

Emplois pour des modèles de langage semi-performants de milieu de gamme

En plus de la motivation pour réduire le coût des humains dans la boucle, les chercheurs suggèrent que l’utilisation de PLM de milieu de gamme comme vrais Turcs mécaniques fournit un travail utile pour ces systèmes « presque champions », qui sont de plus en plus éclipsés par des modèles de langage à grande échelle et coûteux tels que GPT-3, qui sont trop coûteux et surdimensionnés pour de telles tâches.

‘Notre objectif dans ce document est de concevoir des méthodes qui utilisent de manière plus efficace les apprentis à quelques exemples actuels. C’est crucial car un nombre croissant de géants apprentis à quelques exemples sont formés ; savoir comment les utiliser efficacement est donc une question importante. En particulier, nous voulons une alternative aux modèles énormes difficiles à déployer.’

‘Dans le même temps, nous voulons tirer pleinement parti des forces des PLM : Leur polyvalence assure une applicabilité large sur les tâches ; leur vaste réserve de connaissances sur le langage et le monde (appprises lors de la préformation) se manifeste dans l’efficacité des données des apprentis à quelques exemples, réduisant la consommation de main-d’œuvre et de temps dans l’annotation des données.’

Jusqu’à présent, les auteurs soutiennent que les apprentis à quelques exemples en TLP ont été traités comme des étapes interstitielles jetables sur la route des systèmes de langage naturel de haut niveau qui sont beaucoup plus gourmands en ressources, et que ce travail a été effectué de manière abstraite et sans considération pour l’utilité possible de ces systèmes.

Méthode

Les auteurs proposent LMTurk (Modèle de langage en tant que turc mécanique), dans un flux de travail où la saisie de ce HIT automatisé fournit des étiquettes pour un modèle TLP de niveau intermédiaire.

Un modèle de base pour LMTurk. Source : https://arxiv.org/pdf/2112.07522.pdf

Cette première itération repose sur des données « d’or » étiquetées par des humains à quelques exemples, où les travailleurs de la viande ont annoté des étiquettes pour un nombre limité de tâches, et les étiquettes ont été bien notées, soit via une surveillance humaine directe, soit via un vote de consensus. L’implication de ce schéma est que les fourches ou les développements à partir de ce point de départ ancré dans l’humain pourraient ne pas nécessiter d’entrée humaine supplémentaire plus tard.

Bien que les auteurs suggèrent des expériences supplémentaires avec des modèles hybrides ultérieurs (où l’entrée humaine serait présente, mais grandement réduite), ils n’ont pas, pour les besoins de leur recherche, opposé les modèles LMTurk à des résultats équivalents de travailleurs HIT générés par des humains, considérant que les données étiquetées en or sont en elles-mêmes « une entrée humaine ».

Le PLM conçu pour effectuer des opérations de turc a été adapté pour la tâche par P-Tuning, une méthode publiée par des chercheurs de Chine en 2021, qui a proposé des embeddings de prompt continus formables pour améliorer les performances des modèles de style GPT-3 sur les tâches de compréhension du langage naturel (NLU).

P-Tuning tente d’approfondir la puissance prédictive d’un modèle de style GPT, et son apparence de compréhension conceptuelle du langage, en incorporant des pseudo-prompts intégrés. Dans ce cas, la requête de démarrage est ‘La capitale de la Grande-Bretagne est un [x]’. Source : https://arxiv.org/pdf/2103.10385.pdf

Données et architecture

LMTurk a été évalué sur cinq ensembles de données : deux de la Stanford Sentiment Treebank ; AG’s News Corpus ; Recognizing Textual Entailment (RTE) ; et Corpus of Linguistic Acceptability (CoLA).

Pour son modèle plus grand, LMTurk utilise le PLM public ALBERT-XXLarge-v2 (AXLV2) comme modèle source pour la conversion en un turc automatisé. Le modèle comporte 223 millions de paramètres (par opposition aux 175 milliards de paramètres dans GPT-3). AXLV2, les auteurs observent, a prouvé qu’il est capable de surpasser des modèles à plus grande échelle tels que 334M BERT-Large.

Pour un modèle plus agile, léger et déployable sur le bord, le projet utilise TinyBERT-General-4L-312D (TBG), qui comporte 14,5 millions de paramètres avec des performances comparables à BERT-base (qui comporte 110 millions de paramètres).

La formation avec des invites a eu lieu sur PyTorch et HuggingFace pour AXLV2 sur 100 étapes de lot à un taille de lot de 13, à un taux d’apprentissage de 5e-4, en utilisant une décroissance linéaire. Chaque expérience a été originée avec trois graines aléatoires différentes.

Résultats

Le projet LMTurk exécute des modèles divers contre de nombreux sous-secteurs spécifiques de TLP, de sorte que les résultats complexes des expériences des chercheurs ne sont pas faciles à réduire à des preuves empiriques que LMTurk offre en lui-même une approche viable de réutilisation de scénarios d’apprentissage à quelques exemples historiques et d’origine humaine.

Cependant, à des fins d’évaluation, les auteurs comparent leur méthode à deux travaux antérieurs : Exploitation de questions de type Cloze pour la classification de texte et l’inférence de langage naturel à quelques exemples par des chercheurs allemands Timo Schick et Hinrich Schutze ; et des résultats de Prompt-Based Auto, présentés dans Améliorer les modèles de langage préentraînés pour en faire de meilleurs apprentis à quelques exemples par Gao, Chen et Fisch (respectivement de Princeton et du MIT).

Résultats des expériences LMTurk, les chercheurs signalant des performances ‘comparables’.

En résumé, LMTurk offre une ligne d’enquête relativement prometteuse pour les chercheurs qui cherchent à intégrer et à ancrer des données d’origine humaine étiquetées en or dans des modèles de langage de complexité intermédiaire qui se développent, où des systèmes automatisés se substituent à l’entrée humaine.

Comme pour la quantité relativement faible de travaux antérieurs dans ce domaine, le concept central repose sur l’immutabilité des données humaines d’origine et sur la présomption que les facteurs temporels – qui peuvent représenter des obstacles importants au développement de la TLP – ne nécessiteront pas d’intervention humaine supplémentaire à mesure que la lignée de la machine se développe.

Publié à l’origine le 30 décembre 2022

Martin Anderson

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.