stubbur Quantum Stat gefur út „Big Bad NLP Database“ - Unite.AI
Tengja við okkur

Artificial Intelligence

Quantum Stat gefur út „Big Bad NLP Database“

Uppfært on

Quantum Stat hefur gefið út "Big Bad NLP gagnagrunnur“ í því sem er stórt skref fram á við fyrir náttúrulega málvinnslu (NLP). Gagnagrunnurinn inniheldur hundruð mismunandi gagnapakka fyrir vélanámsframleiðendur til að nota. 

Samkvæmt fyrirtækinu veita þeir lausnir á NLP og AI frumkvæði. Þeir gera þetta með þjónustu eins og forvinnslu í þróun vefforrita, margþættri nálgun sem felur í sér vélanám og djúp tauganet, spjallbot og samræðustjórnun og nýja NLP gagnagrunninn þeirra. 

Fyrirtækið stundar einnig frum- og framhaldsrannsóknir til að hjálpa einstaklingum að greina þróun innan atvinnugreinanna. 

Miðstöð NLP gagna

Ákvörðunin um að búa til gagnagrunninn, sem er stærsta gagnasafn heims í náttúrulegri málvinnslu, kom út af þörfinni fyrir miðlæga miðstöð til að geyma NLP gögn. Fyrirtækið stefndi að því að gera það aðgengilegra og aðgengilegra en valkosturinn, sem oft krefst þess að vísindamenn leiti í gegnum mörg þriðja aðila bókasöfn. 

Fyrirtækið hefur verið að þróa gagnagrunninn í nokkrar vikur; þeir eru nú með um 200 gagnasöfn. Það eru til margs konar gagnasöfn, ekki bara klassíkin. Fyrirtækið hefur tekið til þeirra eins og CommonCrawl og Penn Treebank. 

Ásamt ýmsum mismunandi gagnagrunnum koma mismunandi NLP verkefni. Það eru þeir sem einbeita sér að flokkun og spurningasvörun, en það eru líka gagnasöfn fyrir texta-í-SQL, talgreiningu og multi-modal. 

Quantum Stat vill að gagnagrunnurinn sé samfélagsdrifinn með framlögum frá notendum. Fyrirtækið hefur opnað dyr sínar fyrir hvern sem er til að senda nýtt gagnasafn eða mæla með breytingum. 

Önnur áhersla er að bæta við gagnasöfnum sem auka fjölbreytni í tungumálinu og hverfa frá því að vera eingöngu enska. Markmið þeirra er að gera bókasafnið alþjóðlegra og aðgengilegra fyrir aðra. 

Þegar hann fer inn í „Big Bad NLP gagnagrunninn“ mun notandi standa frammi fyrir hreinu og skipulögðu skipulagi. Nafn gagnasafnsins er skráð, síðan tungumálið og nákvæm lýsing. Það listar einnig tilvik, snið, verkefni, árgerð og skapara. Hver gagnagrunnur hefur niðurhalshlekk til að fylgja. 

Ýmsir gagnagrunnar

Maður mun hitta gagnagrunna eins og Historical Newspapers Daily World Time Series gagnapakka, sem inniheldur daglegt efni dagblaða í Bandaríkjunum og Bretlandi frá 1836 til 1922; SciQ gagnasett, sem inniheldur 13,679 hópuppspretta vísindaprófaspurningar á sviði eðlisfræði, líffræði og efnafræði; CommonCrawl, sem inniheldur gögnin frá 25 milljörðum vefsíðna; og MovieLens, gagnapakka sem inniheldur 22,000,000 einkunnir og 580,000 merki fyrir 33,000 kvikmyndir eftir 240,000 notendur. 

Glæsilegur gagnagrunnur Quantum Stat kemur á sama tíma og vísindamenn þurfa stærri og fjölbreyttari gagnasöfn vegna framfara í djúpnámi. Vegna gríðarlegs magns gagna sem er að finna á mannamáli gerir hvert einstakt gagnasafn það aðeins auðveldara í vinnslu. Framfarir NLP byggja á þessum gagnagrunnum og Quantum Stat hefur stuðlað að því að hraða þeim framförum með því að safna svo mörgum gagnasöfnum í einu rými. 

NLP mun skipta miklu máli í mörgum þáttum samfélagsins. Það getur hjálpað til við að spá fyrir um sjúkdóma út frá rafrænum sjúkraskrám og tali sjúklings, hjálpað fyrirtækjum að komast að því hvað viðskiptavinir eru að segja um vöru og bera kennsl á falsfréttir í heimi þar sem þær eru allsráðandi. 

Tæknin fleygir mjög hratt fram og það mun ekki líða á löngu þar til hún er fær um að takast á við þessi flóknu forrit. 

 

Alex McFarland er blaðamaður og rithöfundur gervigreindar sem skoðar nýjustu þróunina í gervigreind. Hann hefur unnið með fjölmörgum AI sprotafyrirtækjum og útgáfum um allan heim.