Artificiell intelligens

Quantum Stat släpper "Big Bad NLP Database"

publicerade Januari 21, 2020

Uppdaterad December 9, 2022

Alex McFarland

Quantum Stat har släppt sin "Big Bad NLP Database” i vad som är ett stort steg framåt för naturlig språkbehandling (NLP). Databasen innehåller hundratals olika datauppsättningar för maskininlärningsutvecklare att använda.

Enligt företaget tillhandahåller de lösningar till NLP- och AI-initiativ. De gör detta genom tjänster som förbearbetning till webbappsutveckling, ett mångfacetterat tillvägagångssätt som inkluderar maskininlärning och djupa neurala nätverk, chatbot och dialoghantering, och deras nya NLP-databas.

Företaget bedriver även primär och sekundär forskning för att hjälpa individer att analysera utvecklingen inom branscherna.

Centralt nav för NLP-data

Beslutet att skapa databasen, som är världens största databibliotek inom bearbetning av naturligt språk, kom ur behovet av ett centralt nav för att hålla NLP-data. Företaget strävade efter att göra det mer lättillgängligt och sökbart än alternativet, vilket ofta kräver att forskare söker igenom flera tredjepartsbibliotek.

Företaget har utvecklat databasen under ett antal veckor; de har för närvarande cirka 200 dataset. Det finns en mängd olika datauppsättningar, inte bara klassikerna. Företaget har inkluderat sådana som CommonCrawl och Penn Treebank.

Tillsammans med en rad olika databaser kommer olika NLP-uppgifter. Det finns de som fokuserar på klassificering och frågesvar, men det finns också datauppsättningar för text-till-SQL, taligenkänning och multimodal.

Quantum Stat vill att databasen ska vara community-driven med bidrag från användare. Företaget har öppnat sina dörrar för vem som helst att skicka en ny datauppsättning eller rekommendera ändringar.

Ett annat fokus är att lägga till datauppsättningar som diversifierar språket och går bort från att vara strikt engelska. Deras mål är att göra biblioteket mer globalt och tillgängligt för andra.

När en användare går in i "Big Bad NLP Database" kommer en användare att konfronteras med en ren och organiserad layout. Namnet på datasetet listas, följt av språket och en detaljerad beskrivning. Den listar också instanser, format, uppgift, skapat år och skaparen. Varje databas har en nedladdningslänk att följa.

Olika databaser

Man kommer att stöta på databaser som Historical Newspapers Daily World Time Series dataset, som innehåller dagligt innehåll i tidningar i USA och Storbritannien från 1836 till 1922; SciQ Dataset, som innehåller 13,679 25 crowdsourcede vetenskapliga examensfrågor inom områdena fysik, biologi och kemi; CommonCrawl, som innehåller data från 22,000,000 miljarder webbsidor; och MovieLens, en datauppsättning som innehåller 580,000 33,000 240,000 betyg och XNUMX XNUMX taggar för XNUMX XNUMX filmer av XNUMX XNUMX användare.

Quantum Stats imponerande databas kommer vid en tidpunkt då forskare kräver större och mer varierande datamängder på grund av framsteg inom djupinlärning. På grund av den enorma mängden data som finns i mänskligt språk, gör varje unik datauppsättning det lite lättare att bearbeta. Utvecklingen av NLP är beroende av dessa databaser, och Quantum Stat har bidragit till att snabba upp den utvecklingen genom att samla så många datamängder i ett utrymme.

NLP kommer att vara viktigt i många aspekter av samhället. Det kan hjälpa till att förutsäga sjukdomar baserat på elektroniska journaler och en patients tal, hjälpa företag att ta reda på vad kunder säger om en produkt och identifiera falska nyheter i en värld där den frodas.

Tekniken går extremt snabbt framåt och det kommer inte att dröja länge innan den kan hantera dessa komplexa tillämpningar.

Relaterade ämnen:artificiell intelligens Databas naturlig språkbehandling

Strax

Ricky Costa, VD för Quantum Stat – Intervjuserien

Missa inte

Datoralgoritm kan identifiera unika dansegenskaper

Alex McFarland

Alex McFarland är en AI-journalist och författare som utforskar den senaste utvecklingen inom artificiell intelligens. Han har samarbetat med många AI-startups och publikationer över hela världen.

Unite.AI

Quantum Stat släpper "Big Bad NLP Database"

Centralt nav för NLP-data

Olika databaser

Du må gilla