Anslut dig till vÄrt nÀtverk!

Artificiell intelligens

Quantum Stat slÀpper "Big Bad NLP Database"

mm

Quantum Stat har slĂ€ppt sin "Big Bad NLP Database” i vad som Ă€r ett stort steg framĂ„t för naturlig sprĂ„kbehandling (NLP). Databasen innehĂ„ller hundratals olika datauppsĂ€ttningar för maskininlĂ€rningsutvecklare att anvĂ€nda. 

Enligt företaget tillhandahĂ„ller de lösningar till NLP- och AI-initiativ. De gör detta genom tjĂ€nster som förbearbetning till webbappsutveckling, ett mĂ„ngfacetterat tillvĂ€gagĂ„ngssĂ€tt som inkluderar maskininlĂ€rning och djupa neurala nĂ€tverk, chatbot och dialoghantering, och deras nya NLP-databas. 

Företaget bedriver Ă€ven primĂ€r och sekundĂ€r forskning för att hjĂ€lpa individer att analysera utvecklingen inom branscherna. 

Centralt nav för NLP-data

Beslutet att skapa databasen, som Ă€r vĂ€rldens största databibliotek inom bearbetning av naturligt sprĂ„k, kom ur behovet av ett centralt nav för att hĂ„lla NLP-data. Företaget strĂ€vade efter att göra det mer lĂ€ttillgĂ€ngligt och sökbart Ă€n alternativet, vilket ofta krĂ€ver att forskare söker igenom flera tredjepartsbibliotek. 

Företaget har utvecklat databasen under ett antal veckor; de har för nĂ€rvarande cirka 200 dataset. Det finns en mĂ€ngd olika datauppsĂ€ttningar, inte bara klassikerna. Företaget har inkluderat sĂ„dana som CommonCrawl och Penn Treebank. 

Tillsammans med en rad olika databaser kommer olika NLP-uppgifter. Det finns de som fokuserar pĂ„ klassificering och frĂ„gesvar, men det finns ocksĂ„ datauppsĂ€ttningar för text-till-SQL, taligenkĂ€nning och multimodal. 

Quantum Stat vill att databasen ska vara community-driven med bidrag frĂ„n anvĂ€ndare. Företaget har öppnat sina dörrar för vem som helst att skicka en ny datauppsĂ€ttning eller rekommendera Ă€ndringar. 

Ett annat fokus Ă€r att lĂ€gga till datauppsĂ€ttningar som diversifierar sprĂ„ket och gĂ„r bort frĂ„n att vara strikt engelska. Deras mĂ„l Ă€r att göra biblioteket mer globalt och tillgĂ€ngligt för andra. 

NĂ€r en anvĂ€ndare gĂ„r in i "Big Bad NLP Database" kommer en anvĂ€ndare att konfronteras med en ren och organiserad layout. Namnet pĂ„ datasetet listas, följt av sprĂ„ket och en detaljerad beskrivning. Den listar ocksĂ„ instanser, format, uppgift, skapat Ă„r och skaparen. Varje databas har en nedladdningslĂ€nk att följa. 

Olika databaser

Man kommer att stöta pĂ„ databaser som Historical Newspapers Daily World Time Series dataset, som innehĂ„ller dagligt innehĂ„ll i tidningar i USA och Storbritannien frĂ„n 1836 till 1922; SciQ Dataset, som innehĂ„ller 13,679 25 crowdsourcede vetenskapliga examensfrĂ„gor inom omrĂ„dena fysik, biologi och kemi; CommonCrawl, som innehĂ„ller data frĂ„n 22,000,000 miljarder webbsidor; och MovieLens, en datauppsĂ€ttning som innehĂ„ller 580,000 33,000 240,000 betyg och XNUMX XNUMX taggar för XNUMX XNUMX filmer av XNUMX XNUMX anvĂ€ndare. 

Quantum Stats imponerande databas kommer vid en tidpunkt dĂ„ forskare krĂ€ver större och mer varierande datamĂ€ngder pĂ„ grund av framsteg inom djupinlĂ€rning. PĂ„ grund av den enorma mĂ€ngden data som finns i mĂ€nskligt sprĂ„k, gör varje unik datauppsĂ€ttning det lite lĂ€ttare att bearbeta. Utvecklingen av NLP Ă€r beroende av dessa databaser, och Quantum Stat har bidragit till att snabba upp den utvecklingen genom att samla sĂ„ mĂ„nga datamĂ€ngder i ett utrymme. 

NLP kommer att vara viktigt i mĂ„nga aspekter av samhĂ€llet. Det kan hjĂ€lpa till att förutsĂ€ga sjukdomar baserat pĂ„ elektroniska journaler och en patients tal, hjĂ€lpa företag att ta reda pĂ„ vad kunder sĂ€ger om en produkt och identifiera falska nyheter i en vĂ€rld dĂ€r den frodas. 

Tekniken gĂ„r extremt snabbt framĂ„t och det kommer inte att dröja lĂ€nge innan den kan hantera dessa komplexa tillĂ€mpningar. 

 

Alex McFarland Àr en AI-journalist och författare som utforskar den senaste utvecklingen inom artificiell intelligens. Han har samarbetat med mÄnga AI-startups och publikationer över hela vÀrlden.