Umělá inteligence

Quantum Stat vydává „Big Bad NLP Database“

Zveřejněno Ledna 21, 2020

aktualizováno December 9, 2022

Alex McFarland

Společnost Quantum Stat vydala své „Big Bad NLP databáze“, což je velký krok vpřed pro zpracování přirozeného jazyka (NLP). Databáze obsahuje stovky různých datových sad, které mohou vývojáři strojového učení využít.

Podle společnosti poskytují řešení pro iniciativy NLP a AI. Dělají to prostřednictvím služeb, jako je předběžné zpracování až po vývoj webových aplikací, což je mnohostranný přístup, který zahrnuje strojové učení a hluboké neuronové sítě, chatbot a správu dialogů a jejich novou databázi NLP.

Společnost také provádí primární a sekundární výzkum, aby pomohla jednotlivcům analyzovat vývoj v odvětvích.

Centrální centrum dat NLP

Rozhodnutí vytvořit databázi, která je největší světovou datovou knihovnou v oblasti zpracování přirozeného jazyka, vzešlo z potřeby centrálního centra pro ukládání dat NLP. Cílem společnosti bylo učinit jej snadněji dostupným a prohledatelným než alternativa, která často vyžaduje, aby výzkumníci prohledávali více knihoven třetích stran.

Společnost vyvíjí databázi několik týdnů; v současnosti mají kolem 200 datových sad. Existuje celá řada různých datových sad, nejen klasické. Společnost zahrnula ty, jako je CommonCrawl a Penn Treebank.

Spolu s řadou různých databází přicházejí různé úkoly NLP. Existují takové, které se zaměřují na klasifikaci a odpovídání na otázky, ale existují také datové sady pro text-to-SQL, rozpoznávání řeči a multimodální.

Quantum Stat chce, aby databáze byla řízena komunitou s příspěvky uživatelů. Společnost otevřela své dveře každému, kdo může poslat nový datový soubor nebo doporučit změny.

Dalším cílem je přidat datové sady, které diverzifikují jazyk a odkloní se od výhradně angličtiny. Jejich cílem je učinit knihovnu globálnější a přístupnou ostatním.

Po vstupu do „Big Bad NLP Database“ bude uživatel konfrontován s čistým a organizovaným uspořádáním. Je uveden název datové sady, za ním jazyk a podrobný popis. Také uvádí instance, formát, úkol, rok vytvoření a tvůrce. Každá databáze má odkaz ke stažení, který lze sledovat.

Různé databáze

Člověk se setká s databázemi jako Historical Newspapers Daily World Time Series dataset, obsahující denní obsah novin v USA a Velké Británii od roku 1836 do roku 1922; SciQ Dataset obsahující 13,679 25 crowdsourcingových vědeckých zkušebních otázek z oblasti fyziky, biologie a chemie; CommonCrawl, obsahující data z 22,000,000 miliard webových stránek; a MovieLens, datový soubor obsahující 580,000 33,000 240,000 hodnocení a XNUMX XNUMX tagů pro XNUMX XNUMX filmů od XNUMX XNUMX uživatelů.

Působivá databáze Quantum Stat přichází v době, kdy výzkumníci vyžadují větší a rozmanitější datové sady kvůli pokroku v hlubokém učení. Vzhledem k obrovskému množství dat obsažených v lidském jazyce je zpracování každé jedinečné datové sady o něco jednodušší. Pokrok NLP se opírá o tyto databáze a Quantum Stat přispěl k urychlení tohoto pokroku tím, že shromáždil tolik datových sad na jednom prostoru.

NLP bude důležité v mnoha aspektech společnosti. Může pomoci předpovídat nemoci na základě elektronických zdravotních záznamů a řeči pacienta, pomoci společnostem zjistit, co zákazníci říkají o produktu, a identifikovat falešné zprávy ve světě, kde se to rozmáhá.

Technologie se vyvíjí extrémně rychle a nebude to dlouho trvat, než bude schopna zvládnout tyto složité aplikace.

Související témata:umělá inteligence Databáze zpracování přirozeného jazyka

Nahoru Další

Ricky Costa, generální ředitel společnosti Quantum Stat – Interview Series

Nenechte si ujít

Počítačový algoritmus dokáže identifikovat jedinečné taneční charakteristiky

Alex McFarland

Alex McFarland je AI novinář a spisovatel, který zkoumá nejnovější vývoj v oblasti umělé inteligence. Spolupracoval s řadou AI startupů a publikací po celém světě.

Unite.AI

Quantum Stat vydává „Big Bad NLP Database“

Centrální centrum dat NLP

Různé databáze

Můžete se vám líbit