Mākslīgais intelekts

Jaunas gatavās (OTS) datu kopas no Appen Accelerate AI izvietošanas

Atjaunināts on Decembris 9, 2022

Appen Limited (ASX:APX), vadošais augstas kvalitātes apmācības datu nodrošinātājs organizācijām, kuras plašā mērogā veido efektīvas AI sistēmas, šodien paziņoja par jaunu gatavās (OTS) datu kopas. Šīs datu kopas ir izstrādātas, lai uzņēmumiem būtu vieglāk un ātrāk iegūt augstas kvalitātes apmācības datus, kas nepieciešami mākslīgā intelekta (AI) un mašīnmācīšanās (ML) projektu paātrināšanai. Jaunajās OTS datu kopās ietilpst cilvēka ķermeņa kustības un novatoriskas mazuļa raudāšanas skaņas, kā arī skripta runa un attēli ar tekstu, kas piemērots optiskai rakstzīmju atpazīšanai (OCR) ļoti pieprasītām, bet grūti iegūstamām valodām, piemēram, arābu, horvātu, grieķu valodām. , ungāru, taju un citas. Izmantojot paplašinātās datu kopas, Appen kopējais OTS piedāvājums ietver vairāk nekā 250 datu kopas, kas ietver vairāk nekā 11,000 25,000 stundu audio, vairāk nekā 8.7 80 attēlu un vairāk nekā XNUMX miljonus vārdu XNUMX valodās un vairākos dialektos.

Appen OTS datu kopas ir ātrs, rentabls rīks, lai ātri sāktu AI vai ML projektu ar konsekventiem augstas kvalitātes apmācības datiem. Komandas, kas paplašina savas AI iespējas, var arī izmantot OTS datu kopas, lai efektīvi uzlabotu precizitāti, attīstītu jaunas modeļu prasmes un iekļautu citus uzlabojumus savos AI modeļos. OTS datu kopa bieži tiek piegādāta vienas nedēļas laikā, piemēram, salīdzinot ar astoņām līdz divpadsmit nedēļām jaunam datu kopas vākšanas un anotācijas projektam — vai pat ilgāk, atkarībā no sarežģītības. Visas Appen datu kopas ir izstrādātas, izmantojot pilnībā caurspīdīgu, izvēles metodiku, tāpēc AI speciālisti var būt pārliecināti, ka viņu dati ir tīri un atbilstoši, novēršot iespējamo pretreakciju un reputācijas kaitējuma risku.

"AI komandas visā pasaulē, kas strādā pie projektiem ar šauriem termiņiem un elastīgām datu prasībām, var gūt labumu no gatavu datu kopu izmantošanas," sacīja Vilsons Pans, Appen CTO. “OTS datu kopas saīsina vērtību noteikšanai un nodrošina piekļuvi augstas kvalitātes datiem par zemākām kopējām izmaksām nekā izmantojot tradicionālās metodes. Mēs Appen veicam nepieciešamos pasākumus, lai nodrošinātu, ka visas mūsu datu kopas ir ētiski iegūtas un demogrāfiski līdzsvarotas, ļaujot uzņēmumiem uzturēt atbildīgu AI praksi, samazinot modeļu neobjektivitāti un nodrošinot godīgu attieksmi pret datu anotatoriem. Jūs vienmēr zināt precīzu OTS datu kopas kvalitāti, kas palīdz izveidot labāku AI, kas darbojas reālajā pasaulē.

MediaInterface ir piegādājis valodu tehnoloģiju risinājumus ar veselības aprūpi saistītām iestādēm Vācijā un citās Eiropas daļās vairāk nekā 20 gadus. Kad uzņēmums paplašinājās uz Franciju, tam bija pilnībā lokalizēta programmatūra, taču trūka franču valodas leksikas datu, īpaši franču nosaukumu un vietu, uz kurām bieži atsaucas pacientu veselības informācijā. Izmantojot Appen OTS datu kopas, Iegūta multivides saskarne aptuveni 21,000 14,000 franču vārdu un XNUMX XNUMX vietvārdu. “Svarīgie dati no Appen ir iekļauti mūsu fona leksikā, lai veiksmīgi uzsāktu darbu jaunā tirgū, un tas palīdz mums izveidot jaunus vārdu krājumus mūsu klientiem un stiprināt mūsu pieeju arī turpmākai laišanai tirgū,” sacīja produktu vadītāja Inese Vendlere. vietnē MediaInterface.

Pieredzējušie AI eksperti apvieno OTS datu kopas ar datu vākšanas un anotācijas projektiem pēc pieprasījuma, lai apmierinātu savas sarežģītās AI modeļa apmācības datu vajadzības. Appen ir līderis nepārtraukta atbalsta piedāvāšanā, izmantojot virkni specifisku datu vākšanas pakalpojumu, piemēram, pastāvīgu datu anotāciju un viedo marķēšanu, izmantojot ar AI darbināmus rīkus un automatizētas darbplūsmas, lai palielinātu efektivitāti.

"Mēs mijiedarbojamies ar mākslīgo intelektu no brīža, kad pamostamies, līdz brīdim, kad ejam gulēt — izmantojot virtuālos palīgus, tērzēšanas robotus, meklētājprogrammas, sociālos tīklus, medicīniskās ierīces, viedās automašīnas un citas lietojumprogrammas," sacīja Džūdita Bišopa, Appen AI vecākā direktore. speciālisti, kas vada 100 AI lingvistu un valodu ekspertu komandu. “Valoda bieži ir galvenā saskarne daudziem no šiem pārliecinošajiem AI lietošanas gadījumiem, tāpēc, lai garantētu lielisku pieredzi, modelis ir jāapmāca, lai tas darbotos ikvienam. Appen apņemšanās nodrošināt augstas kvalitātes datus un atbildīgu, ētisku mākslīgā intelekta attīstību ļauj uzņēmumiem, kas iegādājas mūsu gatavās datu kopas, paātrināt savus AI projektus, pilnībā paļaujoties uz saviem datiem.

Pievienošanās esošajām simtiem datu kopu jau darbojas appen.com, tagad pieejamo jauno Appen OTS datu kopu saraksts ietver:

Skriptēta runa arābu (Ēģipte), arābu (Saūda Arābija), arābu (Apvienotie Arābu Emirāti), Centrālkhmeru (Kambodža), horvātu, grieķu, ungāru, poļu, spāņu (Spānija) un turku valodā
Attēlu OCR vienkāršotam ķīniešu drukātam tekstam, taju drukātam tekstam un somu drukātam tekstam — ietver iepriekš ierakstītus stendus, ārējo iepakojumu, izkārtnes, žurnālus un izvēlnes, lai apmācītu un atjauninātu datorredzes OCR modeļus.
Cilvēka ķermeņa kustība (Ķīna) — ietverti anotēti videoklipi, kuros redzami cilvēki kustībā, izsekoti pikseļu līmenī, piemēroti spēļu izstrādei, fitnesa lietotnēm un citam.
Bērnu raudāšanas audio (Ķīna) — ietver iepriekš ierakstītas un anotētas mazuļa skaņas, ko var izmantot, lai apmācītu AI modeļus atpazīt dažādas raudāšanas skaņas un brīdināt vecākus.

Lai iegūtu papildinformāciju un pieprasītu Appen OTS datu kopas paraugu, noklikšķiniet šeit.