Connect with us

Inteligență artificială

Startup-ul AI Diffbot citește întregul internet public pentru a urmări generarea de text bazată pe fapte

mm

Progresele recente în procesarea limbajului natural și generarea de text realizate de OpenAI prin modelele sale de limbaj GPT-2 și GPT-3 au fost impresionante, capabile să genereze text care arată ca și cum ar fi fost scris cu adevărat de un om. Din nefericire, deși aceste modele excelează la scrierea de text care sună natural, ele nu sunt echipate pentru a scrie text care este factual. Modelele avansate de limbaj construiesc propoziții din cuvinte care au cel mai mult sens în context, fără a acorda atenție veridicității afirmațiilor din textul generat. Așa cum a raportat MIT technology review, o companie cunoscută sub numele de Diffbot își propune să rezolve această problemă prin extragerea de către un AI a cât mai multe fapte de pe internet.

Diffbot este o companie care speră să facă AI-ul mai util pentru sarcinile practice de generare de text, cum ar fi autocompletarea foilor de calcul și autocompletarea propozițiilor sau a codului. Pentru ca textul generat de AI să fie fiabil, AI-ul însuși trebuie să fie de încredere și trebuie să aibă o anumită noțiune despre afirmațiile factuale versus cele fictive. Abordarea lui Diffbot pentru a oferi unui program de generare de text capacitatea de a genera afirmații factuale începe prin colectarea unei cantități masive de text de pe întregul web public. Diffbot analizează textul în multiple limbi și îl împarte în seturi de tripleți bazate pe fapte, subiectul, obiectul și verbul unei anumite fapte fiind folosiți pentru a lega o noțiune de alta. De exemplu, ar putea reprezenta fapte despre Bill Gates și Microsoft astfel:

Bill Gates este fondatorul Microsoft. Microsoft este o companie de tehnologie a computerelor.

Diffbot ia toate aceste fapte scurte și le combină pentru a crea un grafic de cunoștințe. Graficele de cunoștințe creează rețele de relații între noțiuni, adesea împreună cu un raționament care ajută la crearea de noi concluzii pe baza acestor relații. Pentru a spune asta altfel, graficele de cunoștințe folosesc interconectarea datelor și pot ajuta algoritmii de învățare automată să modeleze domenii de cunoștințe. Graficele de cunoștințe au existat de fapt de decenii și mulți cercetători AI timpurii le-au considerat unelte importante pentru a permite AI-ului să înțeleagă lumea umană. Cu toate acestea, graficele de cunoștințe au fost create de obicei manual, ceea ce este un proces dificil și care necesită mult timp. Automatizarea creării graficelor de cunoștințe ar putea permite AI-urilor să atingă o înțelegere mult mai mare și contextuală a noțiunilor și să producă text care este bazat pe fapte.

Google a început să folosească grafice de cunoștințe acum câțiva ani pentru a ajuta la furnizarea de rezumate de informații atunci când se caută un subiect popular. Graficul de cunoștințe este folosit pentru a extrage cele mai relevante fapte și a le reprezenta sub formă de rezumat. Diffbot vrea să facă același lucru pentru orice subiect, nu doar pentru cele mai populare. Acest lucru necesită crearea unui grafic de cunoștințe absolut masiv, compilat prin parcurgerea întregului web public, ceea ce fac doar Google și Microsoft în mod normal. Diffbot scanează întregul web și actualizează graficul de cunoștințe cu informații noi la fiecare patru sau cinci zile, și pe parcursul unei luni adaugă undeva între 100 de milioane și 150 de milioane de intrări.

Diffbot nu citește textul de pe un site web ca și cum ar fi un crawler web normal, ci folosește algoritmi de viziune a computerului pentru a extrage pixelii bruti ai unei pagini web și pentru a extrage date video, imagini, articole și discuții de pe pagină. Identifică elementele cheie ale paginii web și apoi extrage fapte în multiple limbi, în conformitate cu schema de fapte în trei părți.

În prezent, Diffbot oferă atât acces plătit, cât și gratuit la graficul său de cunoștințe. Cercetătorii pot accesa graficul gratuit, în timp ce companii precum DuckDuckGo și Snapchat îl folosesc pentru a rezuma textul și a extrage fragmente de știri în tendințe. Între timp, Nike și Adidas utilizează platforma pentru a găsi site-uri care vând produse contrafăcute, ceea ce este posibil pentru că Diffbot poate determina care site-uri vând cu adevărat încălțăminte, și nu doar discută despre ele.

În viitor, Diffbot plănuiește să-și extindă capacitățile și să adauge o interfață de limbaj natural la platformă, capabilă să răspundă la aproape orice întrebare și să o susțină cu surse. Ideal, capacitățile lui Diffbot ar trebui să fie combinate cu un model puternic de sinteză a limbajului, cum ar fi GPT-3.

Blogger și programator cu specializări în Machine Learning și Deep Learning subiecte. Daniel speră să ajute pe alții să folosească puterea inteligenței artificiale pentru binele social.