Kunstig intelligens

Quantum Stat frigiver "Big Bad NLP Database"

Udgivet Januar 21, 2020

Opdateret 9. December, 2022

Alex McFarland

Quantum Stat har udgivet deres "Big Bad NLP-database” i hvad der er et stort skridt fremad for naturlig sprogbehandling (NLP). Databasen indeholder hundredvis af forskellige datasæt, som maskinlæringsudviklere kan bruge.

Ifølge virksomheden leverer de løsninger til NLP- og AI-initiativer. De gør dette gennem tjenester som forbehandling til webapp-udvikling, en mangesidet tilgang, der inkluderer maskinlæring og dybe neurale netværk, chatbot og dialogstyring og deres nye NLP-database.

Virksomheden udfører også primær og sekundær forskning for at hjælpe enkeltpersoner med at analysere udviklingen inden for industrierne.

Central hub af NLP-data

Beslutningen om at oprette databasen, som er verdens største databibliotek inden for naturlig sprogbehandling, kom ud af behovet for et centralt knudepunkt til at opbevare NLP-data. Virksomheden havde til formål at gøre det lettere tilgængeligt og søgbart end alternativet, som ofte kræver, at forskere skal søge gennem flere tredjepartsbiblioteker.

Virksomheden har udviklet databasen i en række uger; de har i øjeblikket omkring 200 datasæt. Der er en række forskellige datasæt, ikke kun klassikerne. Virksomheden har inkluderet dem som CommonCrawl og Penn Treebank.

Sammen med en række forskellige databaser kommer forskellige NLP-opgaver. Der er dem, der fokuserer på klassificering og besvarelse af spørgsmål, men der er også datasæt til tekst-til-SQL, talegenkendelse og multimodal.

Quantum Stat ønsker, at databasen skal være fællesskabsdrevet med bidrag fra brugere. Virksomheden har åbnet dørene for, at alle kan sende et nyt datasæt eller anbefale ændringer.

Et andet fokus er at tilføje datasæt, der diversificerer sproget og bevæger sig væk fra at være strengt engelsk. Deres mål er at gøre biblioteket mere globalt og tilgængeligt for andre.

Når en bruger går ind i "Big Bad NLP-databasen", vil en bruger blive konfronteret med et rent og organiseret layout. Navnet på datasættet er angivet, efterfulgt af sproget og en detaljeret beskrivelse. Den viser også forekomster, format, opgave, oprettet år og skaberen. Hver database har et downloadlink til at følge.

Forskellige databaser

Man vil støde på databaser såsom Historical Newspapers Daily World Time Series-datasæt, der indeholder dagligt indhold af aviser i USA og Storbritannien fra 1836 til 1922; SciQ-datasæt, der indeholder 13,679 crowdsourcede videnskabelige eksamensspørgsmål inden for fysik, biologi og kemi; CommonCrawl, der indeholder data fra 25 milliarder websider; og MovieLens, et datasæt, der indeholder 22,000,000 vurderinger og 580,000 tags til 33,000 film af 240,000 brugere.

Quantum Stats imponerende database kommer på et tidspunkt, hvor forskere kræver større og mere forskelligartede datasæt på grund af fremskridt inden for dyb læring. På grund af den enorme mængde data, der er indeholdt i det menneskelige sprog, gør hvert unikt datasæt det lidt nemmere at behandle. Fremme af NLP er afhængig af disse databaser, og Quantum Stat har bidraget til at fremskynde denne fremgang ved at samle så mange datasæt i ét rum.

NLP vil være vigtig i mange aspekter af samfundet. Det kan hjælpe med at forudsige sygdomme baseret på elektroniske helbredsjournaler og en patients tale, hjælpe virksomheder med at finde ud af, hvad kunderne siger om et produkt, og identificere falske nyheder i en verden, hvor det florerer.

Teknologien udvikler sig ekstremt hurtigt, og det vil ikke vare længe, før den er i stand til at tackle disse komplekse applikationer.

Relaterede emner:kunstig intelligens Database naturlig sprogbehandling

Næste

Ricky Costa, CEO for Quantum Stat – Interview Series

Gå ikke glip af

Computeralgoritme kan identificere unikke danseegenskaber

Alex McFarland

Alex McFarland er en AI-journalist og forfatter, der udforsker den seneste udvikling inden for kunstig intelligens. Han har samarbejdet med adskillige AI-startups og publikationer verden over.

Unite.AI

Quantum Stat frigiver "Big Bad NLP Database"

Central hub af NLP-data

Forskellige databaser

Du kan godt lide