Intelligence artificielle

L'apprentissage automatique extrait les données d'attaque des rapports détaillés sur les menaces

Le kit de préparation mis à jour on 9 décembre 2022

Une nouvelle recherche de l’Université de Chicago illustre le conflit qui a surgi au cours des dix dernières années entre les avantages SEO du contenu long et la difficulté qu’ont les systèmes d’apprentissage automatique à en tirer des données essentielles.

En développant une Système d'analyse PNL Pour extraire les informations essentielles sur les menaces des rapports Cyber Threat Intelligence (CTI), les chercheurs de Chicago ont dû faire face à trois problèmes : les rapports sont généralement très longs, avec seulement une petite section consacrée au comportement réel de l'attaque ; le style est dense et grammaticalement complexe, avec de nombreuses informations spécifiques au domaine qui supposent une connaissance préalable de la part du lecteur ; et le matériel nécessite une connaissance des relations inter-domaines, qui doit être « mémorisée » pour le comprendre dans son contexte (un problème persistant, notent les chercheurs).

Rapports interminables sur les menaces

Le principal problème est la verbosité. Par exemple, le journal de Chicago note que parmi les 42 pages de 2019 de ClearSky rapport de menace pour le malware DustySky (alias NeD Worm), seulement 11 phrases traitent et décrivent le comportement de l'attaque.

Le deuxième obstacle est la complexité du texte et, en fait, la longueur des phrases : les chercheurs observent que parmi les 4020 rapports sur les menaces du centre de rapport sur les menaces de Microsoft, la phrase moyenne comprend 52 mots, soit neuf de moins que la longueur moyenne des phrases. il y a des années 500 (dans le contexte du fait que la longueur de la peine a % 75 refusé depuis).

Cependant, le document soutient que ces longues phrases sont essentiellement des « paragraphes compressés » en eux-mêmes, pleins de clauses, d'adverbes et d'adjectifs qui enveloppent le sens principal de l'information ; et que les phrases manquent souvent de la ponctuation conventionnelle de base qui PNL des systèmes tels que SpaCy, Stanford et NLTK s'appuyer pour déduire l'intention ou extraire des données concrètes.

NLP pour extraire des informations sur les menaces saillantes

Le pipeline d'apprentissage automatique que les chercheurs de Chicago ont développé pour résoudre ce problème s'appelle EXTRACTEUR, et utilise des techniques NLP pour générer des graphiques qui distillent et résument le comportement des attaques à partir de rapports discursifs longs. Le processus rejette l'ornementation historique, narrative et même géographique qui crée une «histoire» engageante et exhaustive au détriment d'une hiérarchisation claire de la charge utile informationnelle.

Source : https://arxiv.org/pdf/2104.08618.pdf

Étant donné que le contexte est un tel défi dans les rapports CTI verbeux et prolixes, les chercheurs ont choisi le BERT (Représentations de l'encodeur bidirectionnel de Transformer) modèle de représentation du langage sur Google Mot2Vec ou GloVe de Stanford (Global Vectors for Word Representation).

Le BERT évalue les mots à partir de leur contexte environnant et développe également plongements pour les sous-mots (c'est-à-dire lancer, lancement ainsi que lance tout se résume à lancer). Cela aide EXTRACTOR à gérer le vocabulaire technique qui n'est pas présent dans le modèle de formation de BERT et à classer les phrases comme « productives » (contenant des informations pertinentes) ou « non productives ».

Augmenter le vocabulaire local

Inévitablement, certaines informations spécifiques à un domaine doivent être intégrées dans un pipeline NLP traitant de matériel de ce type, car les formes de mots hautement pertinentes telles que les adresses IP et les noms de processus techniques ne doivent pas être mises de côté.

Les parties ultérieures du processus utilisent un BiLS™ (Bidirectionnelle LSTM) pour lutter contre la verbosité des mots, en dérivant des rôles sémantiques pour les parties de phrase, avant de supprimer les mots improductifs. BiLSTM est bien adapté pour cela, car il peut corréler les dépendances à longue distance qui apparaissent dans les documents verbeux, où une plus grande attention et une plus grande rétention sont nécessaires pour déduire le contexte.

EXTRACTOR définit les rôles sémantiques et les relations entre les mots, avec des rôles générés par les annotations de la banque de propositions (PropBank).

EXTRACTOR définit les rôles sémantiques et les relations entre les mots, avec des rôles générés par Proposition Bank (PropBanque) annotations.

Lors des tests, EXTRACTOR (partiellement financé par la DARPA) s'est avéré capable de faire correspondre l'extraction de données humaines à partir des rapports de la DARPA. Le système a également été exécuté sur un volume élevé de rapports non structurés de Microsoft Security Intelligence et de l'encyclopédie TrendMicro Threat, en extrayant avec succès des informations importantes dans la majorité des cas.

Les chercheurs admettent que les performances d'EXTRACTOR sont susceptibles de diminuer lorsqu'ils tentent de distiller des actions qui se produisent dans un certain nombre de phrases ou de paragraphes, bien que la réorganisation du système pour accueillir d'autres rapports soit indiquée comme une voie à suivre ici. Cependant, cela revient essentiellement à un étiquetage dirigé par l'homme par procuration.

Longueur == Autorité ?

Il est intéressant de noter la tension persistante entre la façon dont les algorithmes de référencement obscurs de Google semblent avoir contenu long de plus en plus récompensé ces dernières années (bien que les avis officiels à ce sujet est contradictoire), et les défis auxquels sont confrontés les chercheurs en IA (y compris de nombreux Initiatives de recherche de Google) face à décoder l'intention et les données réelles de ces articles de plus en plus longs et discursifs.

On peut soutenir qu'en récompensant un contenu plus long, Google présume une qualité constante qu'il n'est pas nécessairement en mesure d'identifier ou de quantifier encore par le biais de processus NLP, sauf en comptant le nombre de sites d'autorité qui y sont liés (une métrique "viande", dans la plupart des cas); et qu'il n'est donc pas rare de voir des messages de 2,500 XNUMX mots ou plus atteindre la proéminence SERPS indépendamment du « gonflement » narratif, tant que le contenu supplémentaire est largement intelligible et n'enfreint pas d'autres directives.

Où est la recette ?

En conséquence, le nombre de mots augmente, en partie à cause d'un véritable désir pour un bon contenu long, mais aussi parce que "stocker" quelques faits peu nombreux peut augmenter la longueur d'un article jusqu'aux normes de référencement idéales et permettre à un contenu léger de rivaliser de manière égale avec une sortie plus exigeante.

Un exemple de ceci est les sites de recettes, fréquemment se plaindre of dans la communauté Hacker News pour avoir préfacé les informations de base (la recette) avec des tas de contenus autobiographiques ou fantaisistes conçus pour créer une « expérience de recette » basée sur une histoire, et pour pousser ce qui serait autrement un très faible nombre de mots dans le référencement -région conviviale de plus de 2,500 XNUMX mots.

Un certain nombre de solutions purement procédurales ont émergé pour extraire les recettes réelles des sites de recettes verbeux, y compris open source grattoirs à recettes, et des extracteurs de recettes pour Firefox ainsi que Chrome. L'apprentissage automatique s'y intéresse également, avec diverses approches allant de Japon, les Etats Unis ainsi que Portugal, ainsi que des recherches de Stanford, entre autres.

En ce qui concerne les rapports de renseignement sur les menaces abordés par les chercheurs de Chicago, la pratique générale des rapports détaillés sur les menaces peut être due en partie à la nécessité de refléter l'ampleur d'une réalisation (qui peut autrement souvent être résumée dans un paragraphe) en créant un très long récit autour de lui, et en utilisant la longueur des mots comme indicateur de l'ampleur de l'effort impliqué, quelle que soit l'applicabilité.

Deuxièmement, dans un climat où la source d'origine d'une histoire est souvent perdu à cause de mauvaises pratiques de citation par les organes d'information populaires, produisant un volume de mots plus élevé que n'importe quel journaliste de reportage pourrait reproduire garantit une victoire SERPS par simple volume de mots, en supposant que la verbosité - maintenant un défi croissant à la PNL - est vraiment récompensé de cette façon.

Rubriques connexes:galerie de nlp un article

Une intelligence artificielle plus intelligente nommée par ABI Research dans un nouveau rapport

Ne manquez pas

Appen Limited lance divers ensembles de formation de données pour la PNL

Martin Anderson

Écrivain sur l'apprentissage automatique, l'intelligence artificielle et le big data.
Site personnel : martinanderson.ai
Contact : [email protected]
Twitter : @manders_ai