csonk Az AI Startup Diffbot a teljes nyilvános internetet beolvassa a tényeken alapuló szöveggenerálás érdekében – Unite.AI
Kapcsolatba velünk

Mesterséges Intelligencia

Az AI Startup Diffbot a teljes nyilvános internetet beolvassa a tényeken alapuló szöveggenerálás érdekében

mm
korszerűsített on

Az OpenAI által a természetes nyelvi feldolgozásban és szöveggenerálásban elért legújabb fejlesztések a GPT-2 és a GPT-3 A nyelvi modellek lenyűgözőek, képesek olyan szöveget generálni, amely úgy tűnik, mintha valóban ember írta volna. Sajnos, bár ezek a modellek kiválóak a természetes hangzású szöveg írásában, nincsenek felszerelve arra, hogy tényszerű szöveget írjanak. A fejlett nyelvi modellek olyan szavakból állítanak össze mondatokat, amelyek a kontextusban a legértelmesebbek, anélkül, hogy odafigyelnének a generált szövegen belüli állítások valódiságára. Az MIT technológiai áttekintése szerintnéven ismert startup Diffbot Ezt a problémát úgy kívánja megoldani, hogy a mesterséges intelligencia a lehető legtöbb tényt kivonja az internetről.

A Diffbot egy induló vállalkozás, amely azt reméli, hogy az AI-t hasznosabbá tudja tenni a gyakorlati szöveggenerálási feladatokhoz, például a táblázatok automatikus kitöltéséhez és a mondatok vagy kódok automatikus kiegészítéséhez. Ahhoz, hogy a mesterséges intelligencia által generált szöveg megbízható legyen, magának az AI-nak is megbízhatónak kell lennie, és rendelkeznie kell a tényszerű és a kitalált állítások fogalmával. A Diffbot megközelítése, amellyel egy szöveggeneráló programnak lehetőséget ad a tényszerű kijelentések generálására, azzal kezdődik, hogy hatalmas mennyiségű szöveget gyűjt össze gyakorlatilag a teljes nyilvános webről. A Diffbot több nyelven elemzi a szöveget, és tényalapú hármascsoportokra bontja a szöveget, ahol az adott tény alanya, tárgya és igéje egy fogalom összekapcsolására szolgál. Például olyan tényeket ábrázolhat Bill Gates-szel és Microsofttal kapcsolatban, mint például:

Bill Gates a Microsoft alapítója. A Microsoft egy számítástechnikai vállalat.

A Diffbot átveszi ezeket a rövid tényeket, és összekapcsolja őket, hogy tudásgráfot hozzon létre. A tudásgráfok a fogalmak közötti kapcsolatok szövedékét hozzák létre, gyakran egy érvelővel együtt, amely segít új következtetések levonásában ezeken a kapcsolatokon alapulva. Másképpen fogalmazva, a tudásgráfok adatkapcsolatokat használnak, és segíthetnek a gépi tanulási algoritmusoknak tudástartományok modellezésében. A tudásgráfok valójában évtizedek óta léteznek, és sok korai AI-kutató fontos eszköznek tartotta őket abban, hogy a mesterséges intelligencia megértse az emberi világot. A tudásgráfokat azonban jellemzően kézzel hozták létre, ami nehéz, fájdalmas folyamat. A tudásgráfok létrehozásának automatizálása lehetővé teheti a mesterséges intelligencia számára, hogy sokkal jobban megértsék a fogalmakat, és tényeken alapuló szöveget állítsanak elő.

A Google néhány éve elkezdte használni a tudásgrafikonokat, hogy segítsen összefoglalni az információkat, amikor egy népszerű témára keresnek rá. A tudásgráf a legrelevánsabb tények lehívására és összefoglalásként való megjelenítésére szolgál. A Diffbot minden témában ugyanazt akarja csinálni, nem csak a legnépszerűbbeknél. Ehhez egy teljesen hatalmas tudásgráf felépítésére van szükség, amelyet a teljes nyilvános web feltérképezésével állítanak össze, amit egyébként csak a Google és a Microsoft tesz meg. A Diffbot átvizsgálja az egész webet, és négy-öt naponta frissíti a tudásdiagramot új információkkal, és egy hónap leforgása alatt 100-150 millió bejegyzést ad hozzá.

A Diffbot nem olvassa be a webhelyek szövegét, mint a normál webrobotok, hanem számítógépes látási algoritmusokat használ a weboldal nyers képpontjainak kinyerésére, és videó-, kép-, cikk- és vitaadatok kinyerésére az oldalról. Azonosítja a weboldal legfontosabb elemeit, majd a három részből álló faktoid séma szerint számos nyelven kivonja a tényeket.

Jelenleg a Diffbot fizetős és ingyenes hozzáférést kínál tudásgráfjához. Míg a kutatók ingyenesen hozzáférhetnek a grafikonhoz, olyan cégek, mint a DuckDuckGo és a Snapchat, szövegösszegzésre és a felkapott hírek részletének kivonására használják. Eközben a Nike és az Adidas a platformot arra használja, hogy hamisított termékeket árusító webhelyeket találjon, ami azért lehetséges, mert a Diffbot képes megbizonyosodni arról, hogy valójában mely webhelyek árulnak cipőket, és nem csak vitákat folytat róluk.

A jövőben a Diffbot azt tervezi, hogy bővíti képességeit, és természetes nyelvű felülettel egészíti ki a platformot, amely szinte minden feltett kérdésre képes megválaszolni, és a válaszokat forrásokkal alátámasztani. Ideális esetben a Diffbot képességeit egy olyan hatékony nyelvi szintézis modellel kombinálnák, mint a GPT-3.