Künstliche Intelligenz

Ein Machine-Learning-System, um einen Artikel umzuschreiben, während Sie ihn lesen

Published May 11, 2021

Updated April 28, 2026

Martin Anderson

Neue Forschung aus Kanada schlägt eine Methode vor, um einen Artikel automatisch umzuschreiben, während Sie ihn lesen, basierend auf Tinder-ähnlichen “Swipes” oder auf passiver Beobachtung der Interaktion des Lesers mit den verschiedenen Arten von Inhalten, die der Artikel enthält.

Das System, das als Hone As You Read (HARE) bezeichnet wird, wird in einem Paper der Western University in Ontario, Kanada, vorgestellt, mit entsprechendem Python-Code auf GitHub.

Die zentrale Idee des Projekts ist, dass ein Artikel verschiedene Arten von Inhalten enthalten kann, die sich (wie bei diesem) von der Überschrift bis hin zu weiteren Details entwickeln. Spätere Teile eines Artikels können unterschiedliche Arten von Unterstützungsmaterial, Anwendungsfälle oder Hypothesen oder Vermutungen über die Auswirkungen der Nachricht enthalten.

Unter HARE können Sie, wenn Ihnen diese Art von Material nicht gefällt, es auf paragraphenweiser Basis abwählen, während das System Ihre Vorlieben lernt, so dass bis zum Zeitpunkt, an dem Sie nach unten scrollen, Inhalt, der dem Material ähnelt, das Sie “abgewählt” haben, bereits entfernt oder umgeschrieben wurde. Wenn Sie nicht aktiv an der Schulung des Systems teilnehmen möchten, kann HARE Ihre Auswahl durch Beobachtung Ihrer passiven Interaktionen mit dem Dokument ableiten.

Tinder-ähnliches Voting für unangenehme Sätze

In dem Bild unten sehen wir drei mögliche Arten von Inferenzkategorisierungen für HARE, basierend auf dem expliziten oder impliziten Verhalten des Benutzers. Im ersten Fall (links) wählt der Benutzer aktiv “nach links” (oder rechts), in einer Tinder-ähnlichen Voting-Geste, die Zustimmung oder Unzufriedenheit mit dem Inhalt des Absatzes oder Satzes, oder mit seinem Stil, seiner Komplexität oder seinem Ton ausdrückt.

Quelle: https://arxiv.org/pdf/2105.02923.pdf

Im zweiten Fall (Mitte) verwendet das System die Verweildauer als Maß für das Benutzerinteresse, basierend auf der Positionierung und Dauer der Scrollpause.

Im dritten Fall (rechts) verwendet HARE die Smartphone-Kamera, um den Pfad und die Verweildauer der Blickposition des Betrachters über die Absätze des sichtbaren Dokuments zu schätzen.

Die Forscher behaupten, dass eine erhöhte Verweildauer auf einem bestimmten Absatz ein erhöhtes Benutzerinteresse anzeigen kann, obwohl dies logischerweise nicht der Fall sein muss, wenn der Betrachter versucht, Text zu assimilieren, der kompliziert oder einfach schlecht geschrieben ist.

Benutzerfeedback bearbeitet, schreibt um oder löscht effektiv noch nicht gesehene Teile des Artikels.

Vorverarbeitung von Inhalten gemäß den Benutzervorlieben

Das Paper beschäftigt sich mit der Benutzererfahrung von HARE auf pro-Artikel-Basis, aber offensichtlich ermöglicht die historische Interaktion des Benutzers mit Dokumenten eine Anpassung zukünftiger Leseerfahrungen, indem sie konsistent bestimmte Arten von Inhalten erkennt und vorgefertigte Benutzervorlieben auf neue Artikel anwendet, so dass die Notwendigkeit einer Interaktion abnimmt, wenn der Benutzer weniger und weniger “unerwünschte” Inhalte sieht.

HARE wird als Summarizer-Algorithmus charakterisiert, der es ermöglicht, noch nicht gesehene Inhalte weiter unten auf der Seite in Bezug auf Stil oder Kürze umzuschreiben, bevor der Benutzer sie erreicht; aber das Paper macht deutlich, dass es auch vorab Inhalte basierend auf Benutzerfeedback entfernen kann.

Zu Testzwecken verwendete das System einen Korpus von 11.222 Artikeln der britischen Zeitung Daily Mail und wurde über eine Testbereitstellung auf der Telegram-Chat-App ausgewertet. Artikel mit weniger als zehn Absätzen wurden für Testzwecke verworfen.

Die Telegram-HARE-App in einer Testphase mit Benutzern.

Die Methodik der Forscher verwendet K-Means-Clustering auf SBERT-Satz-Einbettungen in den Artikeln, mit anfänglich zufälligen Gewichten für Konzepte.

Unter einer breiten Gruppe von Algorithmen und Ansätzen verfügt HARE über drei Vergleichsmodelle, von denen das erste (ORACLEGREEDY) Zugang zu vorherigen Benutzervorlieben hat, was darauf hindeutet, dass der Algorithmus Artikel vorab verarbeiten kann, anstatt interaktiv zu sein.

Die anderen Modelle, ORACLESORTED und ORACLEUNIFORM, wählen Sätze basierend auf dem Interessenniveau oder zufällig im gesamten Artikel aus.

Entfernen und Umschreiben von Inhalten

Überraschenderweise übertraf ORACLEUNIFORM die Kontrollgruppe, obwohl es keinen Zugang zu vorherigen Benutzervorlieben hat. Die Forscher behaupten, dass dies daran liegt, dass es den gesamten Artikel in einem Durchgang bearbeitet, “nur die interessantesten Sätze” auswählt. Die Forscher geben zu, dass dies die verfügbaren Inhalte auf Sätze beschränken kann, die sich ausschließlich mit dem wichtigsten Konzept befassen, logischerweise anderen Text entfernt, der sich mit den Auswirkungen oder der Bewertung des Konzepts befasst.

Die extraktiven Summarizer, die in HARE verwendet werden, sind LexRank, SumBasic und TextRank.

HARE wurde an 13 Freiwilligen über 70 Versuche und verschiedene algorithmische Ansätze getestet und konnte Zusammenfassungen (umgeschriebener/entfernter Text) bei etwa 1,3 Millisekunden und 100 ms auf einem Consumer-Grade-Laptop aktualisieren, je nachdem, welches Modell getestet wurde. Die Ergebnisse zeigten, dass die Modelle, die den meisten Text entfernten, nicht gut funktionierten, hauptsächlich weil dies die Kohärenz des verbleibenden Textes beeinträchtigen kann.

Ethische Auswirkungen der dynamischen Artikel-Umschreibung

Die Forscher erkennen ethische Bedenken hinsichtlich Technologien dieser Art an:

‘Die HARE-Aufgabe ist für die Gestaltung zukünftiger benutzerorientierter Anwendungen gedacht. Durch die Gestaltung haben diese Anwendungen die Fähigkeit, zu kontrollieren, was ein Benutzer aus einem bestimmten Artikel liest. Es ist möglich, dass diese Tools, wenn sie ohne ausreichende Sorgfalt eingesetzt werden, den “Echo-Kammer”-Effekt verschärfen, der bereits durch automatisierte Nachrichten-Feeds, Suchergebnisse und Online-Communities erzeugt wird.’

Jedoch weisen sie auch darauf hin, dass ein solches System in zukünftigen Anwendungen verwendet werden könnte, um den Echo-Kammer-Effekt zu mildern, indem es Texte einfügt, die alternative Standpunkte darstellen, die möglicherweise nicht ursprünglich im Artikel vorhanden waren. Sie bemerken: ‘Die Gewichtung dieses Faktors könnte so eingestellt werden, dass sie sowohl eine ansprechende Leseerfahrung als auch die Exposition gegenüber einer Vielzahl von Ideen bietet.’

Diejenigen, die wahrscheinlich von einem solchen System profitieren, sind Leser, die Zeit sparen möchten, um Informationen aufzunehmen, und Inhalte-Verleger.

Martin Anderson

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.

Unite.AI

Ein Machine-Learning-System, um einen Artikel umzuschreiben, während Sie ihn lesen

Tinder-ähnliches Voting für unangenehme Sätze

Vorverarbeitung von Inhalten gemäß den Benutzervorlieben

Entfernen und Umschreiben von Inhalten

Ethische Auswirkungen der dynamischen Artikel-Umschreibung

You may like