mozzicone AI Startup Diffbot legge l'intera Internet pubblica per perseguire la generazione di testo basata sui fatti - Unite.AI
Seguici sui social

Intelligenza Artificiale

AI Startup Diffbot legge l'intera Internet pubblica per perseguire la generazione di testo basata sui fatti

mm
aggiornato on

I recenti progressi nell'elaborazione del linguaggio naturale e nella generazione di testi compiuti da OpenAI attraverso GPT-2 e GPT-3 i modelli linguistici sono stati impressionanti, in grado di generare un testo che sembra essere stato veramente scritto da un essere umano. Sfortunatamente, anche se questi modelli eccellono nello scrivere testi dal suono naturale, non sono attrezzati per scrivere testi che siano reali. I modelli linguistici avanzati assemblano frasi a partire dalle parole che hanno più senso nel contesto, senza prestare alcuna attenzione alla veridicità delle affermazioni all'interno del testo generato. Come riportato dalla revisione della tecnologia del MIT, una startup nota come DiffBot mira a risolvere questo problema facendo in modo che un'intelligenza artificiale estragga quanti più fatti possibile da Internet.

Diffbot è una startup che spera di rendere l'intelligenza artificiale più utile per attività pratiche di generazione di testo come fogli di calcolo a compilazione automatica e frasi o codice a completamento automatico. Affinché il testo generato dall'IA sia affidabile, l'IA stessa deve essere affidabile e deve avere un concetto di affermazioni fattuali rispetto a quelle fittizie. L'approccio di Diffbot per dare a un programma di generazione di testo la capacità di generare dichiarazioni fattuali inizia raccogliendo enormi quantità di testo praticamente dall'intero web pubblico. Diffbot analizza il testo in più lingue e suddivide il testo in serie di terzine basate sui fatti, con il soggetto, l'oggetto e il verbo di un dato fatto utilizzato per collegare un concetto a un altro. Ad esempio, potrebbe rappresentare fatti riguardanti Bill Gates e Microsoft come questo:

Bill Gates è il fondatore di Microsoft. Microsoft è una società di tecnologia informatica.

Diffbot prende tutti questi brevi fatti e li unisce per creare un grafico della conoscenza. I grafici della conoscenza creano reti di relazioni tra concetti, spesso insieme a un ragionatore che aiuta nella creazione di nuove conclusioni basate su queste relazioni. Per dirla in altro modo, i grafici della conoscenza utilizzano l’interconnessione dei dati e possono aiutare gli algoritmi di apprendimento automatico a modellare i domini della conoscenza. In realtà i grafici della conoscenza esistono da decenni e molti dei primi ricercatori sull’intelligenza artificiale li consideravano strumenti importanti per consentire all’intelligenza artificiale di comprendere il mondo umano. Tuttavia, i grafici della conoscenza venivano generalmente creati a mano, il che è un processo difficile e faticoso. Automatizzare la creazione di grafici della conoscenza potrebbe consentire alle IA di raggiungere una comprensione contestuale molto maggiore dei concetti e di produrre testi basati sui fatti.

Google ha iniziato a utilizzare i grafici della conoscenza alcuni anni fa per aiutare a fornire riepiloghi di informazioni quando viene cercato un argomento popolare. Il grafico della conoscenza viene utilizzato per estrarre i fatti più rilevanti e rappresentarli come riepilogo. Diffbot vuole fare la stessa cosa per ogni argomento, non solo per quelli più popolari. Ciò richiede la creazione di un grafo di conoscenza assolutamente enorme, compilato eseguendo la scansione dell'intero Web pubblico, cosa che solo Google e Microsoft fanno diversamente. Diffbot scansiona l'intero Web e aggiorna il grafico della conoscenza con nuove informazioni ogni quattro o cinque giorni, e nel corso di un mese aggiunge da 100 a 150 milioni di voci.

Diffbot non legge il testo di un sito web come i normali web crawler, piuttosto utilizza algoritmi di visione artificiale per estrarre i pixel grezzi di una pagina web ed estrarre video, immagini, articoli e dati di discussione dalla pagina. Identifica gli elementi chiave della pagina web e quindi estrae i fatti in una varietà di lingue, in aderenza allo schema factoid in tre parti.

Attualmente, Diffbot offre sia l'accesso a pagamento che gratuito al suo grafico di conoscenza. Mentre i ricercatori possono accedere al grafico gratuitamente, aziende come DuckDuckGo e Snapchat lo utilizzano per riassumere il testo ed estrarre frammenti di notizie di tendenza. Nel frattempo, Nike e Adidas utilizzano la piattaforma per trovare siti che vendono prodotti contraffatti, il che è possibile perché Diffbot è in grado di accertare quali siti vendono effettivamente scarpe, non solo discuterne.

In futuro, Diffbot prevede di espandere le proprie capacità e aggiungere un'interfaccia in linguaggio naturale alla piattaforma, in grado di rispondere a quasi tutte le domande che gli vengono poste e di eseguire il backup di tali risposte con le fonti. Idealmente, le capacità di Diffbot sarebbero combinate con un potente modello di sintesi linguistica come GPT-3.