Kunstig intelligens

Quantum Stat lanserer "Big Bad NLP Database"

oppdatert on Desember 9, 2022

Quantum Stat har gitt ut deres "Big Bad NLP-database” i det som er et stort skritt fremover for naturlig språkbehandling (NLP). Databasen inneholder hundrevis av forskjellige datasett for maskinlæringsutviklere å bruke.

Ifølge selskapet leverer de løsninger til NLP- og AI-initiativer. De gjør dette gjennom tjenester som forbehandling til utvikling av webapper, en mangefasettert tilnærming som inkluderer maskinlæring og dype nevrale nettverk, chatbot og dialogadministrasjon, og deres nye NLP-database.

Selskapet driver også primær- og sekundærforskning for å hjelpe enkeltpersoner med å analysere utviklingen innen bransjene.

Sentralt senter for NLP-data

Beslutningen om å lage databasen, som er verdens største databibliotek innen naturlig språkbehandling, kom ut av behovet for et sentralt knutepunkt for å holde NLP-data. Selskapet hadde som mål å gjøre det lettere tilgjengelig og søkbart enn alternativet, som ofte krever at forskere søker gjennom flere tredjepartsbiblioteker.

Selskapet har utviklet databasen i en rekke uker; de har for tiden rundt 200 datasett. Det finnes en rekke forskjellige datasett, ikke bare klassikerne. Selskapet har inkludert de som CommonCrawl og Penn Treebank.

Sammen med en rekke forskjellige databaser kommer forskjellige NLP-oppgaver. Det er de som fokuserer på klassifisering og spørsmålssvar, men det finnes også datasett for tekst-til-SQL, talegjenkjenning og multimodal.

Quantum Stat ønsker at databasen skal være fellesskapsdrevet med bidrag fra brukere. Selskapet har åpnet dørene for at alle kan sende et nytt datasett eller anbefale endringer.

Et annet fokus er å legge til datasett som diversifiserer språket, og beveger seg bort fra å være strengt engelsk. Målet deres er å gjøre biblioteket mer globalt og tilgjengelig for andre.

Når en bruker går inn i "Big Bad NLP-databasen", vil en bruker bli konfrontert med en ren og organisert layout. Navnet på datasettet er oppført, etterfulgt av språket og en detaljert beskrivelse. Den viser også forekomster, format, oppgave, opprettet år og skaperen. Hver database har en nedlastingslenke å følge.

Ulike databaser

Man vil møte databaser som Historical Newspapers Daily World Time Series datasett, som inneholder daglig innhold av aviser i USA og Storbritannia fra 1836 til 1922; SciQ-datasett, som inneholder 13,679 25 vitenskapelige eksamensspørsmål fra publikum innen fagene fysikk, biologi og kjemi; CommonCrawl, som inneholder dataene fra 22,000,000 milliarder nettsider; og MovieLens, et datasett som inneholder 580,000 33,000 240,000 vurderinger og XNUMX XNUMX tagger for XNUMX XNUMX filmer av XNUMX XNUMX brukere.

Quantum Stats imponerende database kommer på et tidspunkt da forskere krever større og mer varierte datasett på grunn av fremskritt innen dyp læring. På grunn av den enorme mengden data som finnes i menneskelig språk, gjør hvert unike datasett det litt enklere å behandle. Fremme av NLP er avhengig av disse databasene, og Quantum Stat har bidratt til å fremskynde den fremgangen ved å samle så mange datasett på ett sted.

NLP vil være viktig i mange aspekter av samfunnet. Det kan bidra til å forutsi sykdommer basert på elektroniske helsejournaler og en pasients tale, hjelpe bedrifter med å finne ut hva kunder sier om et produkt, og identifisere falske nyheter i en verden der det florerer.

Teknologien går ekstremt raskt frem, og det vil ikke ta lang tid før den er i stand til å takle disse komplekse applikasjonene.

Relaterte temaer:kunstig intelligens Database naturlig språkbehandling

Neste

Ricky Costa, administrerende direktør i Quantum Stat – Intervjuserien

Ikke gå glipp av

Dataalgoritme kan identifisere unike danseegenskaper

Alex McFarland

Alex McFarland er en AI-journalist og skribent som utforsker den siste utviklingen innen kunstig intelligens. Han har samarbeidet med en rekke AI-startups og publikasjoner over hele verden.