Stummel Auf dem Weg zum automatisierten wissenschaftlichen Schreiben – Unite.AI
Vernetzen Sie sich mit uns

Künstliche Intelligenz

Auf dem Weg zum automatisierten wissenschaftlichen Schreiben

mm
Aktualisiert on

Als ich heute Morgen, wie an den meisten Morgen, die Informatikbereiche von Arxiv durchstöberte, stieß ich auf einen aktuellen Artikel Krepppapier von der Bundesuniversität Ceara in Brasilien, das ein neues Framework zur Verarbeitung natürlicher Sprache anbietet, um die Zusammenfassung und Extraktion von Kerndaten aus wissenschaftlichen Arbeiten zu automatisieren.

Da dies mehr oder weniger das ist, was ich jeden Tag mache, erinnerte mich die Zeitung an einen Kommentar zu einem Reddit-Autorenthread Anfang dieses Jahres – eine Prognose, die besagte, dass wissenschaftliches Schreiben zu den ersten journalistischen Jobs gehören wird, die von Maschinen übernommen werden Lernen.

Lassen Sie es mich klarstellen: Ich absolut glauben dass der automatisierte Wissenschaftsschreiber kommt und dass alle Herausforderungen, die ich in diesem Artikel beschreibe, entweder jetzt lösbar sind oder es irgendwann sein werden. Wo möglich, gebe ich hierfür Beispiele. Darüber hinaus gehe ich nicht darauf ein, ob aktuelle oder in naher Zukunft wissenschaftliche Schreib-KIs dazu in der Lage sein werden schreiben zwingend; basierend auf aktuelles Interesse In diesem Bereich des NLP gehe ich davon aus, dass diese Herausforderung irgendwann gelöst werden wird.

Vielmehr frage ich mich, ob eine KI als Wissenschaftsautor dazu in der Lage sein wird identifizieren relevante Wissenschaftsgeschichten im Einklang mit den (sehr unterschiedlichen) gewünschten Ergebnissen der Verlage.

Ich glaube nicht, dass es unmittelbar bevorsteht; Basierend auf der Durchsicht der Schlagzeilen und/oder Kopien von etwa 2000 neuen wissenschaftlichen Arbeiten zum Thema maschinelles Lernen pro Woche habe ich eine etwas zynischere Sicht auf das Ausmaß, in dem wissenschaftliche Beiträge algorithmisch aufgeschlüsselt werden können, sei es zum Zwecke der wissenschaftlichen Indexierung oder für Wissenschaftsjournalismus. Wie immer sind es diese Verdammten befähigen die im Weg stehen.

Voraussetzungen für den automatisierten Wissenschaftsschreiber

Betrachten wir die Herausforderung, die wissenschaftliche Berichterstattung über die neueste akademische Forschung zu automatisieren. Um es fair zu halten, beschränken wir es größtenteils auf die CS-Kategorien der sehr beliebten Nicht-Paywall-Angebote Arxiv-Domäne von der Cornell University, die zumindest über eine Reihe systematischer, auf Vorlagen basierender Funktionen verfügt, die in eine Datenextraktionspipeline eingebunden werden können.

Nehmen wir außerdem an, dass die vorliegende Aufgabe, wie bei der neuen Arbeit aus Brasilien, darin besteht, die Titel, Zusammenfassungen, Metadaten und (falls gerechtfertigt) den Hauptinhalt neuer wissenschaftlicher Arbeiten auf der Suche nach Konstanten, zuverlässigen Parametern, Token und umsetzbaren Elementen zu durchsuchen , reduzierbare Domäneninformationen.

Dies ist schließlich das Prinzip, nach dem sehr erfolgreich ist neue Rahmenwerke sind in den Bereichen auf dem Vormarsch Erdbebenberichterstattung, Sport schreiben, Finanzjournalismus und Krankenversicherung, und ein vernünftiger Ausgangspunkt für den KI-gestützten Wissenschaftsjournalisten.

Der Workflow des neuen brasilianischen Angebots. Die PDF-Wissenschaftsarbeit wird in UTF-8-Nurtext konvertiert (wodurch jedoch kursive Hervorhebungen entfernt werden, die möglicherweise eine semantische Bedeutung haben), und Artikelabschnitte werden beschriftet und extrahiert, bevor sie zur Textfilterung weitergeleitet werden. Dekonstruierter Text wird in Sätze als Datenrahmen zerlegt und die Datenrahmen vor der Token-Identifizierung und der Generierung von zwei Doc-Token-Matrizen zusammengeführt. Quelle: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

Der Workflow des neuen brasilianischen Angebots. Die PDF-Wissenschaftsarbeit wird in UTF-8-Nurtext konvertiert (wodurch jedoch kursive Hervorhebungen entfernt werden, die möglicherweise eine semantische Bedeutung haben), und Artikelabschnitte werden beschriftet und extrahiert, bevor sie zur Textfilterung weitergeleitet werden. Dekonstruierter Text wird in Sätze als Datenrahmen zerlegt und die Datenrahmen vor der Token-Identifizierung und der Generierung von zwei Dokument-Token-Matrizen zusammengeführt   Quelle: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

Die Vorlage verkomplizieren

Eine ermutigende Ebene der Konformität und Regularisierung besteht darin, dass Arxiv eine ziemlich gut durchgesetzte Vorlage für Einreichungen vorschreibt bietet detaillierte Richtlinien für einreichende Autoren. Daher entsprechen Arbeiten im Allgemeinen den Teilen des Protokolls, die für die beschriebene Arbeit gelten.

Daher kann das KI-Vorverarbeitungssystem für den vermeintlichen automatisierten Wissenschaftsautor solche Abschnitte im Allgemeinen als Unterdomänen behandeln: Zusammenfassung, Einführung, verwandte/frühere Arbeit, Methodik/Daten, Ergebnisse/Befunde, Ablationsstudien, Diskussion, Abschluss.

In der Praxis kann es jedoch vorkommen, dass einige dieser Abschnitte fehlen, umbenannt werden oder Inhalte enthalten, die streng genommen in einen anderen Abschnitt gehören. Darüber hinaus fügen Autoren natürlich Überschriften und Unterüberschriften ein, die nicht der Vorlage entsprechen. Somit obliegt es NLP/NLU, relevante abschnittsbezogene Inhalte aus dem Kontext zu identifizieren.

Auf dem Weg zum Ärger

Eine Header-Hierarchie ist für NLP-Systeme eine einfache Möglichkeit zunächst kategorisieren Inhaltsblöcke. Viele Arxiv-Einreichungen werden aus Microsoft Word exportiert (wie aus den falsch behandelten Arxiv-PDFs hervorgeht, die „Microsoft Word“ in der Titelüberschrift enthalten – siehe Abbildung unten). Wenn Sie es richtig verwenden Abschnittsüberschriften in Word, werden sie durch einen Export ins PDF als hierarchische Überschriften neu erstellt, die für die Datenextraktionsprozesse eines Maschinenreporters nützlich sind.

Dies setzt jedoch voraus, dass Autoren solche Funktionen tatsächlich in Word oder anderen Dokumenterstellungs-Frameworks wie TeX und Derivaten verwenden (selten als native Alternativformate in Arxiv-Einreichungen bereitgestellt, wobei die meisten Angebote auf PDF beschränkt sind und gelegentlich sogar noch undurchsichtiger sind). PostScript).

Aufgrund der jahrelangen Lektüre von Arxiv-Artikeln habe ich festgestellt, dass die überwiegende Mehrheit davon keine Inhalte enthält jedem interpretierbare strukturelle Metadaten, wobei der Titel im Reader (z. B. einem Webbrowser oder einem PDF-Reader) als vollständiger Titel (einschließlich Erweiterung) des Dokuments selbst angezeigt wird.

In diesem Fall ist die semantische Interpretierbarkeit des Artikels begrenzt und ein KI-basiertes System für wissenschaftliche Autoren muss ihn programmgesteuert mit den zugehörigen Metadaten in der Arxiv-Domäne verknüpfen. Die Arxiv-Konvention schreibt vor, dass grundlegende Metadaten auch seitlich in großer grauer Schrift auf Seite 1 einer übermittelten PDF-Datei eingefügt werden (siehe Abbildung unten). Leider – nicht zuletzt, weil dies der einzige verlässliche Ort ist, an dem Sie ein Veröffentlichungsdatum oder eine Versionsnummer finden können – wird dies oft ausgeschlossen.

Viele Autoren verwenden entweder überhaupt keine Stile oder nur den H1-Stil (höchster Header/Titel), sodass NLU auch hier wieder Überschriften extrahieren muss aus dem Kontext (wahrscheinlich nicht so schwierig) oder durch Parsen der Referenznummer, die den Titel in der Dokumentroute enthält (z. B. https://arxiv.org/pdf/2110.00168.pdf) und die Nutzung netzbasierter (statt lokaler) Metadaten für die Einreichung.

Letzteres löst zwar keine fehlenden Überschriften, stellt aber zumindest fest, auf welchen Bereich der Informatik sich die Einreichung bezieht, und liefert Datums- und Versionsinformationen.

GluedText bei ParagraphReturns

Da PDF und Postscript die gängigsten verfügbaren Arxiv-Formate sind, die von Autoren eingereicht werden, benötigt das NLP-System eine Routine, um Wörter am Zeilenende von den Wörtern am Anfang der nachfolgenden Zeile zu trennen, die im PDF-Format unglücklicherweise an sie „angehängt“ werden Standardoptimierungsmethoden.

Entkonkatenieren (und enthyphenisieren) Wörter können erreicht werden in Perl und viele andere einfache rekursive Routinen, obwohl a Python-basierter Ansatz ist möglicherweise weniger zeitaufwändig und besser an ein ML-Framework angepasst. Adobe, der Erfinder des PDF-Formats, hat ebenfalls ein KI-gestütztes Konvertierungssystem namens „ Flüssigkeitsmodus, das in der Lage ist, gebackenen Text in PDFs „umzufließen“, obwohl sich die Einführung über den mobilen Bereich hinaus als langsam erwiesen hat.

Schlechtes Englisch                                                

Auch wenn dies der Fall ist, bleibt Englisch der weltweite wissenschaftliche Standard für die Einreichung wissenschaftlicher Arbeiten umstritten. Daher enthalten manchmal interessante und aktuelle Artikel entsetzliche Standards des Englischen, von nicht-englischen Forschern. Wenn bei der Bewertung der Arbeit durch ein maschinelles System der geschickte Gebrauch der englischen Sprache als Wertmaßstab einbezogen wird, gehen nicht nur gute Geschichten oft verloren, sondern auch pedantische, minderwertige Ergebnisse werden höher bewertet, einfach weil sie sehr wenig sehr gut aussagen.

NLP-Systeme, die in dieser Hinsicht unflexibel sind, werden bei der Datenextraktion wahrscheinlich auf eine zusätzliche Ebene von Hindernissen stoßen, außer in den strengsten und parametrisierten Wissenschaften wie der Chemie und der theoretischen Physik, wo Grafiken und Diagramme in den globalen Wissenschaftsgemeinschaften einheitlicher sind. Auch wenn in Arbeiten zum maschinellen Lernen häufig Formeln enthalten sind, stellen diese möglicherweise nicht den entscheidenden Wert der Einreichung dar, da kein vollständig etablierter wissenschaftlicher Konsens über die Methodik besteht, über den ältere Wissenschaften verfügen.

Auswahl: Ermittlung der Zielgruppenanforderungen

Wir werden in Kürze auf die vielen Probleme bei der Zerlegung exzentrischer wissenschaftlicher Arbeiten in diskrete Datenpunkte zurückkommen. Betrachten wir nun unser Publikum und unsere Ziele, da diese von entscheidender Bedeutung sein werden, um der KI für Wissenschaftsjournalisten dabei zu helfen, Tausende von Artikeln pro Woche zu sichten. Es ist bereits möglich, den Erfolg potenzieller Nachrichten vorherzusagen ein aktiver Bereich im maschinellen Lernen.

Wenn zum Beispiel ein hohes Volumen an „Wissenschaftsverkehr“ das einzige Ziel einer Website ist, auf der wissenschaftliches Schreiben nur ein Teil eines breiteren journalistischen Angebots ist (wie es im Vereinigten Königreich der Fall ist). Tägliche Post Im Bereich „Wissenschaft“ kann eine KI erforderlich sein, um die umsatzstärksten Themen im Hinblick auf den Datenverkehr zu ermitteln und ihre Auswahl entsprechend zu optimieren. Bei diesem Prozess werden wahrscheinlich (relativ) niedrig hängende Früchte Priorität haben, wie z Roboter, Drohnen, Deepfakes, Datenschutz und Sicherheitslücken.

Im Einklang mit dem aktuellen Stand der Technik bei Empfehlungssystemen wird dieses Ernten auf hoher Ebene wahrscheinlich zu Folgendem führen: „Filterblase“ Probleme für unsere Wissenschaftsjournalisten-KI, da der Algorithmus einer Reihe von eher unechten wissenschaftlichen Arbeiten mehr Aufmerksamkeit schenkt, die „erwünschte“ hochfrequente Schlüsselwörter und Phrasen zu diesen Themen enthalten (wiederum, weil darin Geld zu verdienen ist, sowohl in Bezug auf von Verkehr für Nachrichtenagenturen und Finanzierung für akademische Abteilungen), während einige der viel beschreibbareren „Easter Eggs“ (siehe unten) ignoriert werden, die in vielen der weniger frequentierten Ecken von Arxiv zu finden sind.

Eins und fertig!

Gutes wissenschaftliches Nachrichtenmaterial kann von seltsamen und unerwarteten Orten sowie aus zuvor unfruchtbaren Sektoren und Themen kommen. Um unseren KI-Wissenschaftsjournalisten, der einen produktiven Index „fruchtbarer“ Nachrichtenquellen erstellen wollte, noch weiter zu verwirren, wird die Quelle eines unkonventionellen „Hits“ (z. B. ein Discord-Server, eine akademische Forschungsabteilung oder ein Technologie-Startup) verwendet oft nie wieder verwertbares Material produzieren, während weiterhin ein umfangreicher und verrauschter Informationsstrom von geringerem Wert ausgegeben wird.

Was kann eine iterative Machine-Learning-Architektur daraus ableiten? Dass die vielen tausend früheren „Ausreißer“-Nachrichtenquellen, die einst identifiziert und ausgeschlossen wurden, plötzlich priorisiert werden sollen (obwohl dies angesichts der hohen Menge an jährlich veröffentlichten Artikeln zu einem unkontrollierbaren Signal-Rausch-Verhältnis führen würde)? Dass das Thema selbst einer Aktivierungsebene mehr würdig ist als die Nachrichtenquelle, aus der es stammt (was im Fall eines beliebten Themas eine überflüssige Aktion ist).

Noch nützlicher wäre es, wenn das System lernt, dass es sich in der Datendimensionalitätshierarchie nach oben oder unten bewegen muss, um nach Mustern zu suchen – falls es überhaupt welche gibt –, die das ausmachen, was mein verstorbener Journalisten-Großvater „ein Gespür für Nachrichten“ nannte, und das Merkmal definiert berichtenswert als eine umherziehende und abstrakte Qualität, die allein aufgrund ihrer Herkunft nicht genau vorhergesagt werden kann und von der zu erwarten ist, dass sie sich täglich verändert.

Identifizieren von Hypothesenfehlern

Durch Quotendruck, veröffentlichen akademische Abteilungen manchmal Arbeiten, bei denen die zentrale Hypothese beim Testen vollständig (oder fast vollständig) versagt hat, auch wenn die Methoden und Ergebnisse des Projekts für sich genommen dennoch ein wenig Interesse wert sind.

Solche Enttäuschungen werden in Zusammenfassungen oft nicht signalisiert; Im schlimmsten Fall sind widerlegte Hypothesen nur durch das Lesen der Ergebnisdiagramme erkennbar. Dies erfordert nicht nur die Ableitung eines detaillierten Verständnisses der Methodik aus den sehr ausgewählten und begrenzten Informationen, die das Papier möglicherweise liefert, sondern erfordert auch geschickte Algorithmen zur Diagramminterpretation, die alles, vom Kreisdiagramm bis zum Streudiagramm, im Kontext sinnvoll interpretieren können.

Ein NLP-basiertes System, das auf die Zusammenfassungen vertraut, aber die Grafiken und Tabellen nicht interpretieren kann, könnte beim ersten Lesen ziemlich aufgeregt über eine neue Arbeit sein. Leider lassen sich frühere Beispiele für „verstecktes Scheitern“ in wissenschaftlichen Arbeiten (zu Schulungszwecken) nur schwer in Muster umwandeln, da es sich bei diesem „wissenschaftlichen Verbrechen“ in erster Linie um Auslassungen oder Unterbetonungen handelt und es daher schwer zu fassen ist.

Im Extremfall muss unser KI-Autor möglicherweise Repository-Daten finden und testen (z. B. von GitHub) oder verfügbare Zusatzmaterialien analysieren, um zu verstehen, was die Ergebnisse im Hinblick auf die Ziele der Autoren bedeuten. Daher müsste ein maschinelles Lernsystem die zahlreichen nicht zugeordneten Quellen und Formate durchlaufen, die dabei beteiligt sind, was die Automatisierung von Verifizierungsprozessen zu einer architektonischen Herausforderung macht.

„White Box“-Szenarien

Es stellt sich heraus, dass einige der empörendsten Behauptungen in KI-zentrierten Sicherheitsdokumenten einen außergewöhnlichen und sehr unwahrscheinlichen Zugriff auf den Quellcode oder die Quellinfrastruktur erfordern – „White-Box“-Angriffe. Dies ist zwar nützlich, um bisher unbekannte Eigenheiten in den Architekturen von KI-Systemen zu extrapolieren, stellt jedoch fast nie eine realistisch ausnutzbare Angriffsfläche dar. Daher wird der KI-Wissenschaftsautor einen ziemlich guten Bullshit-Detektor benötigen, um Behauptungen rund um die Sicherheit in Wahrscheinlichkeiten für einen effektiven Einsatz zu zerlegen.

Der automatisierte Wissenschaftsautor benötigt eine leistungsfähige NLU-Routine, um „White-Box“-Erwähnungen in einen sinnvollen Kontext zu isolieren (d. h. um Erwähnungen von zentralen Implikationen für die Arbeit zu unterscheiden) und die Fähigkeit, die White-Box-Methodik in Fällen abzuleiten, in denen die Phrase nie vorkommt das Papier.

Andere „Fallstricke“

Andere Orte, an denen Undurchführbarkeit und das Scheitern von Hypothesen ziemlich untergehen können, sind die Ablationsstudien, die systematisch Schlüsselelemente einer neuen Formel oder Methode entfernen, um zu sehen, ob die Ergebnisse negativ beeinflusst werden oder ob eine „Kern“-Entdeckung belastbar ist. In der Praxis sind sich Arbeiten, die Ablationsstudien beinhalten, in der Regel recht sicher in Bezug auf ihre Ergebnisse, auch wenn eine sorgfältige Lektüre oft einen „Bluff“ ans Licht bringen kann. In der KI-Forschung kommt dieser Bluff häufig zum Tragen Überanpassung, bei dem ein maschinelles Lernsystem auf den ursprünglichen Forschungsdaten eine hervorragende Leistung erbringt, sich jedoch nicht auf neue Daten verallgemeinern lässt oder anderen nicht reproduzierbaren Einschränkungen unterliegt.

Eine weitere nützliche Abschnittsüberschrift für eine mögliche systematische Extraktion ist Einschränkungen. Dies ist der allererste Abschnitt, zu dem jeder Wissenschaftsautor (KI oder Mensch) springen sollte, da er Informationen enthalten kann, die die gesamte Hypothese des Artikels zunichte machen, und ein Vorwärtsspringen zu diesem Abschnitt verlorene Arbeitsstunden ersparen kann (zumindest für den Menschen). . Ein Worst-Case-Szenario ist hier, dass ein Papier tatsächlich eine hat Einschränkungen Abschnitt, aber die „kompromittierenden“ Fakten sind enthalten anderswo im Werk und nicht hier (oder werden hier unterschätzt).

Der nächste ist Vorherige Arbeit. Dies geschieht zu Beginn der Arxiv-Vorlage und zeigt häufig, dass das aktuelle Papier nur einen geringfügigen Fortschritt gegenüber einem viel innovativeren Projekt darstellt, normalerweise aus den letzten 12 bis 18 Monaten. In dieser Phase muss der KI-Autor in der Lage sein, festzustellen, ob die vorherige Arbeit Anklang gefunden hat; Gibt es hier noch eine Geschichte? Ist das frühere Werk zum Zeitpunkt der Veröffentlichung unverdienterweise der öffentlichen Aufmerksamkeit entgangen? Oder ist das neue Papier nur ein oberflächlicher Nachtrag zu einem ausführlich behandelten früheren Projekt?

Bewertung von runderneuerten Reifen und „Frische“

Abgesehen von der Korrektur von Errata in einer früheren Version stellt V.2 einer Arbeit sehr oft kaum mehr dar, als dass die Autoren nach der Aufmerksamkeit schreien, die sie bei der Veröffentlichung von V.1 nicht erhalten haben. Oftmals verdient ein Artikel jedoch tatsächlich einen zweiten Bissen von der Kirsche, da die Aufmerksamkeit der Medien zum Zeitpunkt der ursprünglichen Veröffentlichung woanders abgelenkt wurde oder die Arbeit durch den hohen Verkehr an Einreichungen in überfüllten „Symposiums“- und Konferenzzeiten (z. B Herbst und Spätwinter).

Eine nützliche Funktion bei Arxiv zur Unterscheidung einer Wiederholung ist das Tag [UPDATED], das an die Einreichungstitel angehängt wird. Das interne „Empfehlungssystem“ unseres KI-Autors muss sorgfältig abwägen, ob dies der Fall ist oder nicht [AKTUALISIERT]=='Ausgespielt', insbesondere da es (vermutlich) das wiedererwärmte Papier auswerten kann viel schneller als ein hartnäckiger Wissenschafts-Hack. In dieser Hinsicht hat es einen bemerkenswerten Vorteil gegenüber Menschen, dank einer Namenskonvention, die zumindest bei Arxiv wahrscheinlich Bestand haben wird.

Arxiv stellt auf der Zusammenfassungsseite auch Informationen darüber bereit, ob bei der Arbeit festgestellt wurde, dass sie eine „erhebliche Überschneidung“ des Textes mit einer anderen Arbeit (häufig von denselben Autoren) aufweist. Dies kann möglicherweise auch in ein „Duplikat/Runderneuerung“ geparst werden. Status durch ein KI-Schreibsystem, wenn das Tag [UPDATED] nicht vorhanden ist.

Bestimmung der Verbreitung

Wie die meisten Journalisten ist unser geplanter KI-Wissenschaftsjournalist auf der Suche nach nicht oder nur unzureichend berichteten Nachrichten, um dem von ihm unterstützten Content-Stream einen Mehrwert zu verleihen. In den meisten Fällen wurde die erneute Berichterstattung über wissenschaftliche Durchbrüche zuerst in großen Medien wie TechCrunch, The Verge und EurekaAlert veröffentlicht et al ist sinnlos, da solche großen Plattformen ihre Inhalte mit umfangreichen Werbemaschinen unterstützen und so die Mediensättigung der Zeitung praktisch garantieren.

Daher muss unser KI-Autor feststellen, ob die Geschichte frisch genug ist, dass es sich lohnt, sie weiterzuverfolgen.

Der einfachste Weg wäre theoretisch, die jüngsten zu identifizieren Inbound-Links zu den wichtigsten Forschungsseiten (Zusammenfassung, PDF, News-Bereich auf der Website der akademischen Abteilung usw.). Im Allgemeinen sind Frameworks, die aktuelle eingehende Linkinformationen bereitstellen können, weder Open Source noch kostengünstig, aber große Verlage könnten vermutlich die SaaS-Kosten als Teil eines Frameworks zur Bewertung der Nachrichtenwürdigkeit tragen.

Unter der Voraussetzung eines solchen Zugriffs steht unsere Wissenschaftsjournalisten-KI dann vor dem Problem, dass eine große Anzahl wissenschaftlicher Berichterstattungskanäle nicht zitieren die Artikel, über die sie schreiben, selbst in Fällen, in denen diese Informationen frei verfügbar sind. Schließlich möchte eine Verkaufsstelle, dass sekundäre Berichte auf sie verweisen und nicht auf die Quelle. Da sie in vielen Fällen tatsächlich privilegierten oder halbprivilegierten Zugang zu einer Forschungsarbeit erhalten haben (siehe Der „soziale“ Wissenschaftsautor unten) haben sie dafür einen unaufrichtigen Vorwand.

Daher muss unser KI-Autor umsetzbare Schlüsselwörter aus einem Artikel extrahieren und zeitlich begrenzte Suchvorgänge durchführen, um festzustellen, wo, wenn überhaupt, die Geschichte bereits veröffentlicht wurde – und dann bewerten, ob eine frühere Verbreitung außer Acht gelassen werden kann oder ob die Geschichte ausgespielt wird .

Manchmal stellen Aufsätze ergänzendes Videomaterial auf YouTube zur Verfügung, wobei die „Ansichtszahl“ als Indikator für die Verbreitung dienen kann. Darüber hinaus kann unsere KI Bilder aus dem Papier extrahieren und systematische bildbasierte Suchen durchführen, um festzustellen, ob, wo und wann eines der Bilder erneut veröffentlicht wurde.

Easter Eggs

Manchmal bringt eine „trockene“ Arbeit Erkenntnisse mit tiefgreifenden und berichtenswerten Implikationen zum Vorschein, die jedoch von den Autoren unterschätzt (oder sogar übersehen oder abgewertet) werden und nur durch die Lektüre der gesamten Arbeit und die Durchführung von Berechnungen ans Licht kommen.

In seltenen Fällen liegt das meines Erachtens daran, dass sich die Autoren viel mehr mit der Rezeption in der Wissenschaft befassen als mit der breiten Öffentlichkeit, vielleicht weil sie (nicht immer zu Unrecht) das Gefühl haben, dass die Kernkonzepte einfach nicht genug vereinfacht werden können, um sie allgemein zu konsumieren oft übertriebene Bemühungen der PR-Abteilungen ihrer Institutionen.

Aber ungefähr genauso oft kommt es vor, dass die Autoren die Implikationen ihrer Arbeit, die offiziell unter dem Deckmantel der „wissenschaftlichen Entfernung“ agiert, vernachlässigen oder auf andere Weise nicht erkennen oder anerkennen. Manchmal sind diese „Easter Eggs“ keine positiven Indikatoren für die Arbeit, wie oben erwähnt, und können in komplexen Ergebnistabellen zynisch verschleiert werden.

Jenseits von Arxiv

Es sollte berücksichtigt werden, dass die Parametrisierung von Arbeiten zur Informatik in diskrete Token und Entitäten in einer Domäne wie Arxiv viel einfacher sein wird, die eine Reihe konsistenter und auf Vorlagen basierender „Hooks“ zur Analyse bereitstellt und für die meisten Funktionen keine Anmeldungen erfordert .

Nicht jeder Zugang zu wissenschaftlichen Veröffentlichungen erfolgt über Open Source, und es bleibt abzuwarten, ob (aus praktischer oder rechtlicher Sicht) unser KI-Wissenschaftsjournalist auf die Umgehung von Paywalls zurückgreifen kann oder will Sci-Hub; zur Verwendung von Archivierungsseiten Vermeiden Sie Paywalls; und ob es praktikabel ist, ähnliche Domain-Mining-Architekturen für eine Vielzahl anderer wissenschaftlicher Veröffentlichungsplattformen zu erstellen, von denen viele strukturell resistent gegen systematische Untersuchungen sind.

Es sollte weiter berücksichtigt werden, dass sogar Arxiv hat Tarifbegrenzungen die wahrscheinlich die Nachrichtenauswertungsroutinen eines KI-Autors auf eine „menschlichere“ Geschwindigkeit verlangsamen.

Der „soziale“ KI-Wissenschaftsautor

Über den offenen und zugänglichen Bereich von Arxiv und ähnlichen „offenen“ wissenschaftlichen Veröffentlichungsplattformen hinaus kann es sogar eine Herausforderung sein, Zugang zu einem interessanten neuen Artikel zu erhalten, bei dem es darum geht, einen Kontaktkanal für einen Autor zu finden und ihn um die Lektüre des Werks zu bitten um Zitate einzuholen (wobei Zeitdruck kein ausschlaggebender Faktor ist – ein seltener Fall für humanwissenschaftliche Reporter heutzutage).

Dies kann das automatisierte Durchsuchen wissenschaftlicher Domänen und die Erstellung von Konten beinhalten (Sie müssen angemeldet sein, um die E-Mail-Adresse des Autors einer Arbeit anzuzeigen, auch bei Arxiv). Meistens ist LinkedIn der schnellste Weg, um eine Antwort zu erhalten, aber KI-Systeme sind es derzeit Es ist verboten, Mitglieder zu kontaktieren.

Die Art und Weise, wie Forscher E-Mail-Anfragen von einer KI für Wissenschaftsjournalisten erhalten würden – nun, wie in der Welt des wissenschaftlichen Schreibens von Fleischartikeln, hängt wahrscheinlich vom Einfluss der Verkaufsstelle ab. Wenn ein mutmaßlicher KI-basierter Autor von Kabelgebunden Wenn Sie einen Autor kontaktiert haben, der sein Werk unbedingt verbreiten wollte, kann man davon ausgehen, dass es möglicherweise nicht auf feindselige Reaktion stößt.

In den meisten Fällen kann man sich vorstellen, dass der Autor hofft, dass dieser halbautomatische Austausch irgendwann einen Menschen auf den Plan rufen könnte, aber es liegt nicht außerhalb des Bereichs der Möglichkeit, dass nachfolgende VOIP-Interviews durch eine KI erleichtert werden könnten Zumindest dann, wenn die Realisierbarkeit des Artikels voraussichtlich unter einem bestimmten Schwellenwert liegt und die Veröffentlichung genügend Anziehungskraft hat, um Menschen zur Teilnahme an einem Gespräch mit einem „KI-Forscher“ zu bewegen.

Nachrichten mit KI identifizieren

Viele der hier dargelegten Prinzipien und Herausforderungen gelten auch für das Potenzial der Automatisierung in anderen Bereichen des Journalismus, und wie immer besteht die größte Herausforderung darin, eine potenzielle Geschichte zu identifizieren. Die meisten menschlichen Journalisten werden zugeben, dass das eigentliche Schreiben der Geschichte lediglich die letzten 10 % der Mühe ausmacht und dass die Arbeit größtenteils erledigt ist, wenn die Tastatur klappert.

Die größte Herausforderung besteht also darin, KI-Systeme zu entwickeln, die eine Geschichte erkennen, untersuchen und authentifizieren können, basierend auf den vielen geheimnisvollen Wechselfällen des Nachrichtenspiels und auf einer Vielzahl von Plattformen, die bereits gegen Sondierungen und Exfiltration durch Menschen oder Menschen geschützt sind ansonsten.

Im Fall der wissenschaftlichen Berichterstattung verfolgen die Autoren neuer Arbeiten eine ebenso tiefgreifende eigennützige Agenda wie jede andere potenzielle Hauptquelle einer Nachrichtenmeldung, und die Dekonstruktion ihrer Ergebnisse erfordert die Einbettung von Vorkenntnissen über soziologische, psychologische und wirtschaftliche Motivationen. Daher benötigt ein vermeintlicher automatisierter Wissenschaftsautor mehr als reduktive NLP-Routinen, um festzustellen, wo sich die Nachrichten heute befinden, es sei denn, der Nachrichtenbereich ist besonders geschichtet, wie dies bei Aktien, Pandemiezahlen, Sportergebnissen, seismischen Aktivitäten und anderen rein statistischen Nachrichtenquellen der Fall ist .