stub AI Startup Diffbot loeb kogu avalikku Internetti, et luua faktidel põhinevat teksti – Unite.AI
Ühenda meile

Tehisintellekt

AI Startup Diffbot loeb faktipõhise teksti genereerimiseks kogu avalikku Internetti

mm
Ajakohastatud on

Hiljutised edusammud loomuliku keele töötlemise ja teksti genereerimise alal, mille OpenAI saavutas oma GPT-2 ja GPT-3 keelemudelid on olnud muljetavaldavad, suutes luua teksti, mis näib olevat inimese kirjutatud. Kahjuks, kuigi need mudelid on suurepärased loomuliku kõlaga teksti kirjutamisel, ei ole nad varustatud faktipõhise teksti kirjutamiseks. Täiustatud keelemudelid koondavad lauseid sõnadest, mis on kontekstis kõige mõttekamad, pööramata tähelepanu genereeritud teksti väidete õigsusele. Nagu teatas MIT-i tehnoloogiaülevaade, startup tuntud kui Diffbot eesmärk on see probleem lahendada, võttes tehisintellektist välja nii palju fakte kui võimalik Internetist.

Diffbot on idufirma, kes loodab muuta AI kasulikumaks praktiliste teksti genereerimise ülesannete jaoks, nagu arvutustabelite automaatne täitmine ning lausete või koodide automaatne lõpetamine. Selleks, et tehisintellekti loodud tekst oleks usaldusväärne, peab tehisintellekt ise olema usaldusväärne ja sellel peab olema mingi faktiliste ja väljamõeldud väidete kontseptsioon. Diffboti lähenemine tekstigenereerimisprogrammile faktiliste väidete genereerimise võimaluse andmisel algab tohutul hulgal teksti kogumisega praktiliselt kogu avalikust veebist. Diffbot analüüsib teksti mitmes keeles ja jagab teksti faktipõhisteks kolmikuteks, kusjuures antud fakti subjekti, objekti ja tegusõna kasutatakse ühe mõiste teisega sidumiseks. Näiteks võib see kujutada Bill Gatesi ja Microsofti kohta selliseid fakte:

Bill Gates on Microsofti asutaja. Microsoft on arvutitehnoloogia ettevõte.

Diffbot võtab kõik need lühikesed faktoidid ja ühendab need teadmiste graafiku loomiseks. Teadmiste graafikud loovad mõistetevaheliste seoste võrke, sageli koos põhjendusega, mis aitab nendel suhetel põhinevaid uusi järeldusi teha. Teisisõnu kasutavad teadmiste graafikud andmete omavahelist sidumist ja need võivad aidata masinõppe algoritmidel teadmiste valdkondi modelleerida. Teadmiste graafikud on tegelikult olemas olnud aastakümneid ja paljud varased AI-uurijad pidasid neid olulisteks tööriistadeks, mis võimaldavad tehisintellektil mõista inimeste maailma. Kuid teadmiste graafikud loodi tavaliselt käsitsi, mis on keeruline ja valus protsess. Teadmiste graafikute loomise automatiseerimine võib võimaldada tehisintellektil saavutada palju paremat kontekstipõhist arusaamist mõistetest ja toota faktidel põhinevat teksti.

Google hakkas mõned aastad tagasi kasutama teadmiste graafikuid, et aidata populaarset teemat otsides koostada teabe kokkuvõtteid. Teadmiste graafikut kasutatakse kõige asjakohasemate faktoidide väljavõtmiseks ja nende esitamiseks kokkuvõttena. Diffbot soovib teha sama iga teema, mitte ainult kõige populaarsemate teemade jaoks. Selleks on vaja koostada täiesti massiivne teadmiste graafik, mis on koostatud kogu avaliku veebi roomamise teel, mida muidu teevad ainult Google ja Microsoft. Diffbot skannib kogu veebi ja uuendab teadmiste graafikut uue teabega iga nelja-viie päeva tagant ning kuu aja jooksul lisab see kuskil 100–150 miljonit kirjet.

Diffbot ei loe veebisaidi teksti nagu tavalised veebiindeksoijad, vaid kasutab veebilehe töötlemata pikslite eraldamiseks ja lehelt video, pildi, artikli ja arutelu andmete tõmbamiseks arvutinägemise algoritme. See tuvastab veebilehe põhielemendid ja eraldab seejärel fakte erinevates keeltes, järgides kolmeosalist faktoidskeemi.

Praegu pakub Diffbot nii tasulist kui ka tasuta juurdepääsu oma teadmiste graafikule. Kuigi teadlased saavad graafikule tasuta juurde pääseda, kasutavad sellised ettevõtted nagu DuckDuckGo ja Snapchat seda teksti kokkuvõtmiseks ja populaarsete uudiste väljavõtete tegemiseks. Vahepeal kasutavad Nike ja Adidas seda platvormi võltsitud tooteid müüvate saitide leidmiseks, mis on võimalik, kuna Diffbot suudab kindlaks teha, millised saidid kingi tegelikult müüvad, mitte ainult nende üle arutlema.

Tulevikus kavatseb Diffbot laiendada oma võimalusi ja lisada platvormile loomuliku keele liidese, mis suudab vastata peaaegu kõigile teie esitatud küsimustele ja varundada neid vastuseid allikatega. Ideaalis oleks Diffboti võimalused kombineeritud võimsa keele sünteesi mudeliga nagu GPT-3.