Intelligence Artificielle
Vers une rédaction scientifique automatisée

Ce matin, en parcourant les sections informatiques d'Arxiv, comme je le fais la plupart des matins, je suis tombé sur un récent papier de l'Université fédérale du Ceara au Brésil, proposant un nouveau cadre de traitement du langage naturel pour automatiser la synthèse et l'extraction des données de base des articles scientifiques.
Comme c'est plus ou moins ce que je fais tous les jours, cet article m'a rappelé un commentaire sur un fil de discussion d'écrivains sur Reddit plus tôt cette année - un pronostic selon lequel la rédaction scientifique sera parmi les premiers emplois journalistiques à être repris par l'apprentissage automatique.
Permettez-moi d'être clair - je crois absolument que l'écrivain scientifique automatisé arrive et que tous les défis que je décris dans cet article peuvent être résolus maintenant ou le seront éventuellement. Dans la mesure du possible, je donne des exemples pour cela. De plus, je ne parle pas de savoir si les IA d'écriture scientifique actuelles ou dans un avenir proche seront capables de écrire de manière convaincante ; basé sur niveau d'intérêt actuel dans ce secteur de la PNL, je suppose que ce défi sera finalement résolu.
Je me demande plutôt si une IA rédactrice scientifique sera capable de identifier des histoires scientifiques pertinentes en accord avec les résultats (très variés) souhaités par les éditeurs.
Je ne pense pas que ce soit imminent ; après avoir épluché les gros titres et/ou les copies d'environ 2000 XNUMX nouveaux articles scientifiques sur l'apprentissage automatique chaque semaine, j'ai une vision plutôt cynique de la mesure dans laquelle les soumissions universitaires peuvent être décomposées algorithmiquement, que ce soit à des fins d'indexation académique ou de journalisme scientifique. Comme d'habitude, ce sont ces maudits personnes qui gênent.
Conditions requises pour le rédacteur scientifique automatisé
Examinons le défi que représente l'automatisation des rapports scientifiques sur les dernières recherches universitaires. Par souci d'équité, nous nous limiterons principalement aux catégories informatiques des très populaires publications non payantes. Domaine Arxiv de l'Université Cornell, qui possède au moins un certain nombre de fonctionnalités systématiques et modélisées qui peuvent être connectées à un pipeline d'extraction de données.
Supposons également que la tâche à accomplir, comme dans le cas du nouvel article brésilien, consiste à parcourir les titres, les résumés, les métadonnées et (si cela est justifié) le contenu du corps des nouveaux articles scientifiques à la recherche de constantes, de paramètres fiables, de jetons et d'informations de domaine exploitables et réductibles.
C'est, après tout, le principe sur lequel très réussi nouveaux cadres gagnent du terrain dans les domaines signalement des tremblements de terre, écriture sportive, journalisme financier et la couverture sanitaire, et un point de départ raisonnable pour le journaliste scientifique propulsé par l'IA.

Le workflow de la nouvelle offre brésilienne. L'article scientifique PDF est converti en texte brut UTF-8 (bien que cela supprime les accents italiques qui peuvent avoir une signification sémantique), et les sections d'article sont étiquetées et extraites avant d'être transmises pour le filtrage de texte. Le texte déconstruit est divisé en phrases sous forme de trames de données, et les trames de données sont fusionnées avant l'identification du jeton et la génération de deux matrices de doc-token Source : https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf
Compliquer le modèle
Une couche encourageante de conformité et de régularisation est qu'Arxiv impose un modèle assez bien appliqué pour les soumissions, et fournit des directives détaillées pour soumettre des auteurs. Par conséquent, les articles sont généralement conformes aux parties du protocole qui s'appliquent au travail décrit.
Ainsi, le système de prétraitement de l'IA pour le rédacteur scientifique automatisé putatif peut généralement traiter ces sections comme des sous-domaines : résumé, introduction, travail connexe/précédent, méthodologie/données, résultats/conclusions, études d'ablation, spirituelle, conclusion.
Cependant, en pratique, certaines de ces sections peuvent être manquantes, renommées ou contenir du contenu qui, à proprement parler, relève d'une autre section. De plus, les auteurs incluront naturellement des titres et des sous-titres non conformes au modèle. Il incombera donc au TALN/NLU d'identifier le contenu pertinent lié à la section à partir du contexte.
En route pour les ennuis
Une hiérarchie d'en-têtes est un moyen simple pour les systèmes de traitement du langage naturel de catégoriser initialement des blocs de contenu. De nombreuses soumissions Arxiv sont exportées depuis Microsoft Word (comme en témoignent les fichiers PDF Arxiv mal gérés qui laissent « Microsoft Word » dans l'en-tête du titre – voir l'image ci-dessous). Si vous utilisez correctement titres de section dans Word, un export au format PDF les recréera sous forme d'en-têtes hiérarchiques utiles aux processus d'extraction de données d'une machine reporter.
Cependant, cela suppose que les auteurs utilisent réellement ces fonctionnalités dans Word ou dans d'autres cadres de création de documents, tels que TeX et ses dérivés (rarement fournis en tant que formats alternatifs natifs dans les soumissions Arxiv, la plupart des offres étant limitées au format PDF et, parfois, au format encore plus opaque). PostScript).
Après des années de lecture d'articles Arxiv, j'ai constaté que la grande majorité d'entre eux ne contiennent pas tout métadonnées structurelles interprétables, avec le titre indiqué dans le lecteur (c'est-à -dire un navigateur Web ou un lecteur PDF) comme le titre complet (y compris l'extension) du document lui-même.
Dans ce cas, l'interprétabilité sémantique de l'article est limitée, et un système de rédaction scientifique basé sur l'IA devra le relier par programmation à ses métadonnées associées dans le domaine Arxiv. La convention Arxiv impose que les métadonnées de base soient également insérées latéralement en gros caractères gris sur la page 1 d'un PDF soumis (voir image ci-dessous). Malheureusement, notamment parce que c'est le seul endroit fiable pour trouver une date de publication ou un numéro de version, elles sont souvent exclues.

De nombreux auteurs n'utilisent aucun style, ou uniquement le style H1 (en-tête/titre le plus élevé), laissant NLU extraire à nouveau les titres soit du contexte (probablement pas si difficile), ou en analysant le numéro de référence qui comprend le titre dans la route du document (c'est-à -dire https://arxiv.org/pdf/2110.00168.pdf) et se prévalant de métadonnées en ligne (plutôt que locales) pour la soumission.
Bien que ce dernier ne résoudra pas les en-têtes absents, il établira au moins à quelle section de l'informatique la soumission s'applique et fournira des informations sur la date et la version.

GluedText Ă ParagraphReturns
Les formats PDF et PostScript étant les formats Arxiv les plus courants soumis par les auteurs, le système NLP aura besoin d'une routine pour séparer les mots de fin de ligne des mots de début de ligne suivante qui leur sont « attachés » selon les malheureuses méthodes d'optimisation par défaut du format PDF.

Déconcaténer (et dé-césure) les mots peuvent être accomplis en Perl et de nombreuses autres routines récursives simples, bien qu'un Approche basée sur Python peut être moins chronophage et plus adapté à un framework ML. Adobe, à l'origine du format PDF, a également développé un système de conversion basé sur l'IA appelé Mode liquide, capable de « redistribuer » le texte cuit dans les PDF, bien que son déploiement au-delà de l'espace mobile se soit avéré lent.
Mauvais anglais
L'anglais reste la norme scientifique mondiale pour la soumission d'articles scientifiques, même si cela est controversé. Par conséquent, les articles intéressants et dignes d'intérêt contiennent parfois normes épouvantables d'anglais, de chercheurs non anglophones. Si l'utilisation adroite de l'anglais est incluse comme mesure de valeur lorsqu'un système de machine évalue le travail, non seulement les bonnes histoires seront souvent perdues, mais la production pédante de faible valeur sera mieux notée simplement parce qu'elle en dit très peu très bien.
Les systèmes NLP qui sont inflexibles à cet égard sont susceptibles de rencontrer une couche supplémentaire d'obstacles dans l'extraction de données, sauf dans les sciences les plus rigides et paramétrées, telles que la chimie et la physique théorique, où les graphiques et les tableaux se conforment plus uniformément dans les communautés scientifiques mondiales. Bien que les articles sur l'apprentissage automatique comportent fréquemment des formules, celles-ci peuvent ne pas représenter la valeur déterminante de la soumission en l'absence du consensus scientifique pleinement établi sur la méthodologie dont bénéficient les sciences plus anciennes.
Sélection : déterminer les exigences du public
Nous reviendrons bientôt sur les nombreux problèmes liés à la décomposition d'articles scientifiques excentriques en données discrètes. Considérons maintenant notre public et nos objectifs, car ils seront essentiels pour aider l'IA des rédacteurs scientifiques à trier des milliers d'articles par semaine. Prédire le succès d'articles d'actualité potentiels est déjà une tâche complexe. une zone active dans l'apprentissage automatique.
Si, par exemple, un « trafic scientifique » à volume élevé est le seul objectif d'un site Web où la rédaction scientifique n'est qu'un élément d'une offre journalistique plus large (comme c'est le cas du site Web britannique), Daily Mail section science), une IA peut être amenée à déterminer les sujets les plus rentables en termes de trafic, et à optimiser sa sélection en conséquence. Ce processus donnera probablement la priorité aux fruits (relativement) à portée de main tels que Collaboratif, drones, deepfakes, confidentialité et les failles de sécurité.
Conformément à l'état actuel de l'art des systèmes de recommandation, cette collecte de haut niveau est susceptible de conduire à « bulle de filtre » problèmes pour notre IA de rédacteur scientifique, car l'algorithme accorde une attention accrue à une série d'articles scientifiques plus apocryphes qui comportent des mots-clés et des phrases à haute fréquence « souhaitables » sur ces sujets (encore une fois, parce qu'il y a de l'argent à gagner, à la fois en termes de trafic, pour les médias, et de financement, pour les départements universitaires), tout en ignorant certains des « œufs de Pâques » beaucoup plus faciles à écrire (voir ci-dessous) que l'on peut trouver dans de nombreux coins moins fréquentés d'Arxiv.
Un et c'est fait !
Les bonnes nouvelles scientifiques peuvent provenir de sources étranges et inattendues, et de secteurs et de sujets jusque-là peu fructueux. Pour compliquer encore davantage la tâche de notre rédacteur scientifique IA, qui espérait créer un index productif de sources d'information « fructueuses », la source d'une information insolite (comme un serveur Discord, un département de recherche universitaire ou une start-up technologique) sera souvent ne plus jamais produire de matériel exploitable, tout en continuant à délivrer un flux d'informations volumineux et bruité de moindre valeur.
Que peut en déduire une architecture d'apprentissage automatique itérative ? Que les milliers de sources d'information « aberrantes » qu'elle avait identifiées et exclues auparavant doivent soudainement être priorisées (même si cela créerait un rapport signal/bruit incontrôlable, compte tenu du volume important d'articles publiés chaque année) ? Que le sujet lui-même mérite davantage une couche d'activation que la source d'information dont il est issu (ce qui, dans le cas d'un sujet populaire, est une action redondante) ?
Plus utilement, le système pourrait apprendre qu'il doit se déplacer vers le haut ou vers le bas dans la hiérarchie des dimensions des données à la recherche de modèles - s'il y en a vraiment - qui constituent ce que mon défunt grand-père journaliste appelait « un nez pour l'actualité » et définissent la fonctionnalité digne d'intérêt comme une qualité itinérante et abstraite qui ne peut être prédite avec précision sur la seule base de la provenance, et dont on peut s'attendre à ce qu'elle mute quotidiennement.
Identifier l'échec de l'hypothèse
Grâce à pression des quotasLes départements universitaires publient parfois des travaux dans lesquels l'hypothèse centrale a complètement (ou presque complètement) échoué lors des tests, même si les méthodes et les résultats du projet méritent néanmoins un peu d'intérêt en eux-mêmes.
De telles déceptions ne sont souvent pas signalées dans les résumés ; dans le pire des cas, les hypothèses réfutées ne sont perceptibles qu'à la lecture des graphiques de résultats. Cela implique non seulement de déduire une compréhension détaillée de la méthodologie à partir des informations très sélectives et limitées que le document peut fournir, mais nécessiterait des algorithmes d'interprétation de graphiques habiles qui peuvent interpréter de manière significative tout, d'un graphique à secteurs à un nuage de points, dans le contexte.
Un système basé sur le traitement du langage naturel (TALN) qui se fie aux résumés, mais ne peut interpréter les graphiques et les tableaux, pourrait être très enthousiaste à la lecture d'un nouvel article. Malheureusement, les exemples antérieurs d'« échecs cachés » dans des articles universitaires sont (à des fins de formation) difficiles à généraliser, car ce « crime académique » est principalement une omission ou une sous-estimation, et donc difficile à cerner.
Dans un cas extrême, notre rédacteur IA peut avoir besoin de localiser et de tester les données du référentiel (c'est-à -dire de GitHub), ou d'analyser tout matériel supplémentaire disponible, afin de comprendre ce que les résultats signifient en termes d'objectifs des auteurs. Ainsi, un système d'apprentissage automatique devrait traverser les multiples sources et formats non mappés impliqués, ce qui rendrait l'automatisation des processus de vérification un peu un défi architectural.
Scénarios « boîte blanche »
Certaines des affirmations les plus extravagantes formulées dans les articles sur la sécurité axée sur l'IA nécessitent des niveaux d'accès extraordinaires et très improbables au code source ou à l'infrastructure source – des attaques « boîte blanche ». Bien que cela soit utile pour extrapoler des particularités jusqu'alors inconnues des architectures des systèmes d'IA, cela ne représente presque jamais une surface d'attaque exploitable de manière réaliste. Par conséquent, le rédacteur scientifique en IA aura besoin d'un détecteur de mensonges assez performant pour décomposer les affirmations relatives à la sécurité en probabilités de déploiement efficace.
Le rédacteur scientifique automatisé aura besoin d'une routine NLU capable d'isoler les mentions de « boîte blanche » dans un contexte significatif (c'est-à -dire pour distinguer les mentions des implications fondamentales pour l'article), et de la capacité de déduire la méthodologie de la boîte blanche dans les cas où la phrase n'apparaît jamais dans l'article.
Autres pièges
D'autres endroits où l'infaisabilité et l'échec de l'hypothèse peuvent finir assez enterrés sont dans le études d'ablation, qui éliminent systématiquement les éléments clés d'une nouvelle formule ou méthode afin de déterminer si les résultats sont affectés négativement ou si une découverte fondamentale est résiliente. En pratique, les articles qui incluent des études d'ablation sont généralement assez confiants quant à leurs résultats, même si une lecture attentive peut souvent révéler un bluff. Dans la recherche en IA, ce bluff revient souvent à surajustement, où un système d'apprentissage automatique fonctionne admirablement sur les données de recherche d'origine, mais ne parvient pas à généraliser à de nouvelles données, ou bien fonctionne sous d'autres contraintes non reproductibles.
Un autre titre de section utile pour une extraction systématique potentielle est LimitesIl s'agit de la toute première section que tout rédacteur scientifique (IA ou humain) devrait consulter, car elle peut contenir des informations qui invalident l'hypothèse de l'article. Y accéder directement peut épargner des heures de travail (du moins, pour l'humain). Le pire scénario serait qu'un article contienne effectivement une Limites section, mais les faits « compromettants » sont inclus ailleurs dans le travail, et non ici (ou sont sous-estimés ici).
Suivant est Travail prioritaire. Cela se produit au début du modèle Arxiv et révèle fréquemment que le document actuel ne représente qu'une avancée mineure par rapport à un projet beaucoup plus innovant, généralement des 12 à 18 mois précédents. À ce stade, l'auteur de l'IA aura besoin de la capacité d'établir si le travail antérieur a atteint la traction ; y a-t-il encore une histoire ici? L'œuvre antérieure a-t-elle échappé à l'avis public au moment de sa publication ? Ou le nouveau document n'est-il qu'un post-scriptum superficiel à un projet précédent bien couvert?
Évaluation des pneus rechapés et de la « fraîcheur »
Outre la correction d'errata dans une version antérieure, la version 2 d'un article ne représente bien souvent rien de plus que la revendication par les auteurs de l'attention qu'ils n'ont pas reçue lors de la publication de la version 1. Cependant, il arrive fréquemment qu'un article mérite une seconde chance, car l'attention des médias a pu être détournée ailleurs au moment de la publication initiale, ou que le travail ait été occulté par un flux important de soumissions lors de périodes de symposiums et de conférences surchargées (comme l'automne et la fin de l'hiver).
Une fonctionnalité utile d'Arxiv pour distinguer une rediffusion est la balise [MISE À JOUR] ajoutée aux titres des soumissions. Le système de recommandation interne de notre rédacteur IA devra examiner attentivement si [MIS À JOUR]=='Joué', d'autant plus qu'il peut (vraisemblablement) évaluer le papier réchauffé Plus vite qu'un scientifique en difficulté. À cet égard, il présente un avantage notable sur les humains, grâce à une convention de nommage qui devrait perdurer, du moins chez Arxiv.
Arxiv fournit également des informations dans la page de résumé indiquant si l'article a été identifié comme ayant un « croisement significatif » de texte avec un autre article (souvent par les mêmes auteurs), et cela peut également être potentiellement analysé dans un statut « dupliqué/rechapé » par un système d'écriture IA en l'absence de la balise [UPDATED].
Détermination de la diffusion
Comme la plupart des journalistes, notre rédacteur scientifique en IA projeté recherche des nouvelles non rapportées ou sous-rapportées, afin d'ajouter de la valeur au flux de contenu qu'il prend en charge. Dans la plupart des cas, re-reporter les percées scientifiques présentées pour la première fois dans les principaux médias tels que TechCrunch, The Verge et EurekaAlert et al est inutile, puisque ces grandes plateformes appuient leur contenu sur des machines publicitaires exhaustives, garantissant quasiment la saturation médiatique du journal.
Par conséquent, notre rédacteur en intelligence artificielle doit déterminer si l'histoire est suffisamment récente pour mériter d'être poursuivie.
Le moyen le plus simple, en théorie, serait d'identifier les liens entrants aux pages principales de la recherche (résumé, PDF, section actualités du site Web des départements universitaires, etc.). En général, les cadres qui peuvent fournir des informations à jour sur les liens entrants ne sont pas open source ou à faible coût, mais les principaux éditeurs pourraient vraisemblablement supporter les dépenses SaaS dans le cadre d'un cadre d'évaluation de l'actualité.
En supposant un tel accès, notre rédacteur scientifique AI est alors confronté au problème qu'un grand nombre de médias de reportage scientifique ne citez pas les articles sur lesquels ils écrivent, même lorsque ces informations sont librement accessibles. Après tout, un média souhaite que les articles secondaires pointent vers lui, plutôt que vers la source. Car, dans de nombreux cas, il a obtenu un accès privilégié ou semi-privilégié à un article de recherche (voir L'écrivain en sciences « sociales » ci-dessous), ils ont un prétexte fallacieux pour cela.
Ainsi, notre rédacteur en intelligence artificielle devra extraire des mots clés exploitables d'un article et effectuer des recherches limitées dans le temps pour déterminer où, le cas échéant, l'histoire a déjà éclaté - puis évaluer si toute diffusion antérieure peut être ignorée ou si l'histoire est jouée. .
Parfois, les journaux proposent du contenu vidéo complémentaire sur YouTube, où le nombre de vues peut servir d'indice de diffusion. De plus, notre IA peut extraire des images de l'article et effectuer des recherches systématiques afin de déterminer si, où et quand certaines images ont été republiées.
Œufs de Pâques
Parfois, un article « sec » révèle des résultats qui ont des implications profondes et dignes d’intérêt, mais qui sont sous-estimés (ou même négligés ou écartés) par les auteurs, et ne seront révélés qu’en lisant l’article dans son intégralité et en faisant les calculs.
Dans de rares cas, je crois, c'est parce que les auteurs sont bien plus préoccupés par la réception dans le milieu universitaire que par le grand public, peut-être parce qu'ils estiment (pas toujours à tort) que les concepts fondamentaux impliqués ne peuvent tout simplement pas être suffisamment simplifiés pour la consommation générale, malgré les efforts souvent hyperboliques des services de relations publiques de leurs institutions.
Mais tout aussi souvent, les auteurs sous-estiment ou négligent les implications de leurs travaux, agissant officiellement sous le couvert d'une « discrétion scientifique ». Parfois, ces « œufs de Pâques » ne sont pas des indicateurs positifs pour leurs travaux, comme mentionné précédemment, et peuvent être cyniquement dissimulés dans des tableaux de résultats complexes.
Au-delĂ d'Arxiv
Il faut considérer que la paramétrisation des articles sur l'informatique en jetons et entités discrets sera beaucoup plus facile dans un domaine tel qu'Arxiv, qui fournit un certain nombre de « hooks » cohérents et modélisés à analyser, et ne nécessite pas de connexion pour la plupart des fonctionnalités.
Tous les accès aux publications scientifiques ne sont pas open source, et il reste à voir si (d'un point de vue pratique ou juridique) notre rédacteur scientifique en IA peut ou va recourir à l'évitement des paywalls via Sci-Hub; à utiliser des sites d'archivage pour éviter les paywalls; et s'il est possible de construire des architectures d'exploration de domaine similaires pour une grande variété d'autres plates-formes de publication scientifique, dont beaucoup sont structurellement résistantes aux sondages systématiques.
Il convient en outre de considérer que même Arxiv a des limites de taux qui sont susceptibles de ralentir les routines d'évaluation des nouvelles d'un rédacteur IA à une vitesse plus « humaine ».
L'écrivain scientifique spécialisé dans l'IA « sociale »
Au-delà du domaine ouvert et accessible d'Arxiv et des plateformes de publication scientifique « ouvertes » similaires, même obtenir l'accès à un nouvel article intéressant peut être un défi, impliquant de trouver un canal de contact pour un auteur et de l'approcher pour lui demander de lire l'ouvrage, et même d'obtenir des citations (où la pression du temps n'est pas un facteur prépondérant - un cas rare pour les journalistes en sciences humaines de nos jours).
Cela peut impliquer une navigation automatisée dans les domaines scientifiques et la création de comptes (vous devez être connecté pour révéler l'adresse e-mail de l'auteur d'un article, même sur Arxiv). La plupart du temps, LinkedIn est le moyen le plus rapide d'obtenir une réponse, mais les systèmes d'IA sont actuellement en cours de développement. interdit de contacter les membres.
Quant à la façon dont les chercheurs recevraient des sollicitations par e-mail d'un écrivain scientifique AI - eh bien, comme dans le monde de l'écriture scientifique de la viande, cela dépend probablement de l'influence du point de vente. Si un écrivain putatif basé sur l'IA de Câble Si vous avez contacté un auteur désireux de diffuser son travail, il est raisonnable de supposer qu'il ne rencontrera peut-être pas de réponse hostile.
Dans la plupart des cas, on peut imaginer que l'auteur espère que ces échanges semi-automatisés pourraient éventuellement faire intervenir un humain dans la boucle, mais il n'est pas exclu que des entretiens VOIP de suivi puissent être facilités par une IA, du moins lorsque la viabilité de l'article est prévue en dessous d'un certain seuil, et lorsque la publication a suffisamment de traction pour attirer la participation humaine dans une conversation avec un « chercheur en IA ».
Identifier les actualités avec l'IA
Bon nombre des principes et des défis décrits ici s'appliquent au potentiel d'automatisation dans d'autres secteurs du journalisme et, comme cela a toujours été le cas, l'identification d'une histoire potentielle est le principal défi. La plupart des journalistes humains concéderont que l'écriture de l'histoire ne représente que les 10% restants de l'effort, et qu'au moment où le clavier claque, le travail est presque terminé.
Le défi majeur consiste donc à développer des systèmes d'IA capables de repérer, d'enquêter et d'authentifier une histoire, en se basant sur les nombreuses vicissitudes obscures du jeu d'actualités, et en traversant une vaste gamme de plates-formes déjà durcies contre les sondages et l'exfiltration, humaine ou sinon.
Dans le cas des reportages scientifiques, les auteurs de nouveaux articles ont un programme égoïste aussi profond que toute autre source primaire potentielle d'un reportage, et la déconstruction de leur production impliquera d'intégrer des connaissances préalables sur les motivations sociologiques, psychologiques et économiques. Par conséquent, un rédacteur scientifique automatisé putatif aura besoin de plus que de routines PNL réductrices pour établir où en sont les nouvelles aujourd'hui, à moins que le domaine des nouvelles ne soit particulièrement stratifié, comme c'est le cas avec les actions, les chiffres de la pandémie, les résultats sportifs, l'activité sismique et d'autres sources d'information purement statistiques. .













