кочан AI Startup Diffbot чете целия обществен интернет, за да преследва базирано на факти генериране на текст – Unite.AI
Свържете се с нас

Изкуствен интелект

AI Startup Diffbot чете целия обществен интернет, за да преследва базирано на факти генериране на текст

mm
Обновено on

Последните постижения в обработката на естествен език и генерирането на текст, постигнати от OpenAI чрез техните GPT-2 и GPT-3 езиковите модели са впечатляващи, способни да генерират текст, който изглежда сякаш наистина е написан от човек. За съжаление, въпреки че тези модели се справят отлично с писането на естествено звучащ текст, те не са оборудвани да пишат текст, който е действителен. Разширените езикови модели сглобяват изречения от думи, които имат най-голям смисъл в контекста, без да обръщат внимание на истинността на твърденията в генерирания текст. Както съобщава MIT technology review, стартираща компания, известна като Diffbot има за цел да реши този проблем, като накара AI да извлече възможно най-много факти от интернет.

Diffbot е стартираща компания, която се надява да направи AI по-полезен за практически задачи за генериране на текст като автоматично попълване на електронни таблици и автоматично довършване на изречения или код. За да бъде надежден текстът, генериран от AI, самият AI трябва да бъде надежден и трябва да има някаква концепция за фактически срещу измислени твърдения. Подходът на Diffbot да даде възможност на програма за генериране на текст да генерира фактически твърдения започва със събиране на огромни количества текст от практически цялата публична мрежа. Diffbot анализира текст на множество езици и разделя текста на набори от базирани на факти триплети, като субектът, обектът и глаголът на даден факт се използват за свързване на едно понятие с друго. Например, може да представлява факти относно Бил Гейтс и Microsoft по следния начин:

Бил Гейтс е основателят на Microsoft. Microsoft е компания за компютърни технологии.

Diffbot взема всички тези кратки фактоиди и ги обединява, за да създаде графика на знанието. Графиките на знания създават мрежи от връзки между понятия, често заедно с аргумент, който помага при създаването на нови заключения въз основа на тези връзки. Казано по друг начин, графите на знания използват взаимно свързване на данни и могат да помогнат на алгоритмите за машинно обучение да моделират домейни на знания. Графиките на знанието всъщност съществуват от десетилетия и много ранни изследователи на ИИ ги смятаха за важни инструменти, позволяващи на ИИ да разбере човешкия свят. Графиките на знанието обаче обикновено се създават на ръка, което е труден и мъчителен процес. Автоматизирането на създаването на графики на знания може да позволи на ИИ да постигнат много по-добро, контекстуално разбиране на концепциите и да създадат текст, който е базиран на факти.

Google започна да използва графики на знанието преди няколко години, за да помогне при предоставянето на обобщения на информация, когато се търси популярна тема. Графиката на знанието се използва за извличане на най-подходящите фактоиди и представянето им като обобщение. Diffbot иска да прави едно и също нещо за всяка тема, не само за най-популярните. Това изисква изграждането на абсолютно масивна графика на знанието, съставена чрез обхождане на цялата публична мрежа, нещо, което само Google и Microsoft правят иначе. Diffbot сканира цялата мрежа и актуализира графиката на знанието с нова информация на всеки четири или пет дни и в течение на един месец добавя някъде между 100 милиона до 150 милиона записа.

Diffbot не чете текста на уебсайт като нормалните уеб роботи, а по-скоро използва алгоритми за компютърно зрение, за да извлече необработените пиксели на уеб страница и да изтегли видео, изображения, статии и данни за дискусии от страницата. Той идентифицира ключовите елементи на уеб страницата и след това извлича факти на различни езици, като се придържа към схемата от три части factoid.

В момента Diffbot предлага както платен, така и безплатен достъп до своята графика на знанието. Докато изследователите имат достъп до графиката безплатно, компании като DuckDuckGo и Snapchat я използват, за да обобщават текст и да извличат откъси от актуални новини. Междувременно Nike и Adidas използват платформата, за да намерят сайтове, продаващи фалшиви продукти, което е възможно, защото Diffbot може да установи кои сайтове всъщност продават обувки, а не само да води дискусии за тях.

В бъдеще Diffbot планира да разшири възможностите си и да добави интерфейс на естествен език към платформата, способен да отговори на почти всеки въпрос, който сте му задали, и да архивира тези отговори с източници. В идеалния случай възможностите на Diffbot биха се комбинирали с мощен модел за синтез на език като GPT-3.