stub Quantum Stat "Daneya NLP ya Xerab a Mezin" diweşîne - Unite.AI
Girêdana bi me

Îstîxbaratê ya sûnî

Quantum Stat "Daneya NLP ya Xerab a Mezin" diweşîne

Demê on

Quantum Stat" xwe berdanDaneyên NLP-ê ya Big Bad"di çi gavek mezin e ji bo pêvajoya zimanê xwezayî (NLP). Danegeh ji bo pêşdebirên fêrbûna makîneyê bi sedan danehevên cihêreng vedihewîne ku bikar bînin. 

Li gorî pargîdaniyê, ew ji bo destpêşxeriyên NLP û AI-ê çareseriyê peyda dikin. Ew vê yekê bi karûbarên wekî pêşdibistanê ji bo pêşkeftina sepana malperê, nêzîkatiyek pir-alî ku fêrbûna makîneyê û torên neuralî yên kûr, rêveberiya chatbot û diyalogê, û databasa wan a nû ya NLP-ê vedihewîne, dikin. 

Pargîdanî di heman demê de lêkolînên seretayî û navîn jî dike da ku ji kesan re bibe alîkar ku pêşkeftinên di hundurê pîşesaziyê de analîz bikin. 

Navenda Navendî ya Daneyên NLP

Biryara çêkirina databasê, ku pirtûkxaneya daneya herî mezin a cîhanê ye di hilberandina zimanê xwezayî de, ji hewcedariya navendek navendî derket ku daneyên NLP-ê bigire. Pargîdanî armanc kir ku wê ji alternatîfê hêsantir bigihîje û lêgerînê bike, ku bi gelemperî ji lêkolîneran hewce dike ku li gelek pirtûkxaneyên partiya sêyemîn bigerin. 

Şirket ji bo çend hefteyan databasê pêşve dike; niha dora 200 danehevên wan hene. Cûrbecûr danehevên cihêreng hene, ne tenê yên klasîk. Pargîdanî yên wekî CommonCrawl û Penn Treebank pêk tîne. 

Li gel rêzek databasên cihêreng, karên cûda yên NLP jî hene. Yên ku balê dikişînin ser dabeşkirin û bersivdana pirsê hene, lê di heman demê de danehevên ji bo nivîs-to-SQL, naskirina axaftinê, û pir-modal jî hene. 

Quantum Stat dixwaze ku databas bi tevkariyên bikarhêneran ve were rêve kirin. Pargîdanî deriyên xwe ji her kesê re vekiriye ku databasek nû bişîne an guhertinan pêşniyar bike. 

Balkêşek din jî lê zêdekirina danehevên ku ziman cihêreng dikin, ji îngilîzîbûna hişk dûr dikevin. Armanca wan ew e ku pirtûkxaneyê ji kesên din re gerdûnîtir û bigihînin. 

Bi ketina "Daneya NLP ya Big Bad", bikarhênerek dê bi sêwiranek paqij û rêxistinkirî re rû bi rû bimîne. Navê danûstendinê tête navnîş kirin, li dû ziman û ravekek berfireh. Di heman demê de ew mînak, format, peywir, sala hatî afirandin, û afirînerê jî navnîş dike. Her databasek girêdanek dakêşanê heye ku meriv bişopîne. 

Databases Various

Meriv dê bi databasên wekî Danûstendina Rêzeya Dema Cîhanê ya Rojnameyên Dîrokî yên Dîrokî re, ku naveroka rojane ya rojnameyên Dewletên Yekbûyî yên Amerîkayê û Keyaniya Yekbûyî ji 1836 heta 1922 dihewîne; SciQ Dataset, ku di warên Fîzîk, Biyolojî, û Kîmyayê de 13,679 pirsên azmûna zanistî yên girseyî hene; CommonCrawl, ku daneyên ji 25 mîlyar rûpelên malperê vedihewîne; û MovieLens, danûstendinek ku ji 22,000,000 nirxandin û 580,000 nîşanan ji bo 33,000 fîlimên 240,000 bikarhêneran vedihewîne. 

Databasa balkêş a Quantum Stat di demekî de tê ku lêkolîner ji ber pêşkeftinên di fêrbûna kûr de hewceyê danehevên mezin û cihêrengtir in. Ji ber gelek daneyên ku di hundurê zimanê mirovan de hene, her databasek yekta pêvajokirina wê hinekî hêsantir dike. Pêşveçûna NLP-ê xwe dispêre van databasan, û Quantum Stat bi berhevkirina ewqas danehevan di yek cîhê de beşdarî bilezkirina wê pêşkeftinê bûye. 

NLP dê di gelek aliyên civakê de girîng be. Ew dikare li ser bingeha tomarên tenduristiyê yên elektronîkî û axaftina nexweşek pêşbîniya nexweşiyan bike, ji pargîdaniyan re bibe alîkar ku fêr bibin ka xerîdar li ser hilberek çi dibêjin, û nûçeyên sexte li cîhanek ku ew lê belav dibe nas bike. 

Teknolojî pir bi lez pêşde diçe, û ew ê demek dirêj nemîne ku ew bikaribe van sepanên tevlihev çareser bike. 

 

Alex McFarland rojnamevan û nivîskarek AI-ê ye ku pêşkeftinên herî dawî yên di îstîxbarata sûnî de vedikole. Wî li çaraliyê cîhanê bi gelek destpêk û weşanên AI-yê re hevkarî kiriye.