Kunstig intelligens

Nye Off-the-Shelf (OTS) Datasets fra Appen Accelererer AI-Udrulning

Published February 25, 2021

Updated April 5, 2026

Daniel Martin

Appen Limited (ASX:APX), den førende leverandør af højkvalitets træningsdata for organisationer, der bygger effektive AI-systemer i stor skala, annoncerede i dag nye off-the-shelf (OTS) datasets. Disse datasets er designede til at gøre det lettere og hurtigere for virksomheder at erhverve den højkvalitets træningsdata, der er nødvendig for at accelerere deres kunstig intelligens (AI) og maskinlærings (ML) projekter. De nye OTS-datasets inkluderer menneskeligt kropsbevægelse og innovative babyskrig lyde, samt skriftligt tale og billeder med tekst, der er egnet til optisk tegnkendelse (OCR) for høj-eftertragtede, men svært at erhverve sprog, såsom arabisk, kroatisk, græsk, ungarsk, thai og mere. Med de udvidede datasets, omfatter Appens totale OTS-tilbud over 250 datasets, bestående af over 11.000 timers lyd, over 25.000 billeder og over 8,7 millioner ord på 80 sprog og multiple dialekter.

Appens OTS-datasets er et hurtigt, omkostningseffektivt værktøj til at starte et AI- eller ML-projekt med konsistent højkvalitets træningsdata. Hold, der udvider deres AI-kapaciteter, kan også udnytte OTS-datasets til effektivt at forbedre nøjagtigheden, udvikle nye model-færdigheder og inkorporere andre forbedringer i deres AI-modeller. En OTS-dataset leveres ofte inden for en uge, for eksempel, sammenlignet med de otte til tolv uger for en ny dataset-samling og annotationsprojekt – eller endnu længere, afhængigt af kompleksiteten. Alle Appen-datasets er udviklet ved hjælp af en fuldt gennemsigtig, opt-in-metode, så AI-specialister kan være sikre på, at deres data er ren og compliant, og eliminerer den potentielle risiko for backlash og reputationskade.

“AI-hold verden over, der arbejder på projekter med stramme deadline og fleksible datakrav, kan drage fordel af at bruge off-the-shelf-datasets,” sagde Wilson Pang, CTO af Appen. “OTS-datasets forkorter tiden til værdi og giver adgang til højkvalitetsdata til en lavere total omkostning end ved traditionelle metoder. Vi i Appen tager de nødvendige skridt til at sikre, at alle vores datasets er etisk kildesortede og demografisk balancerede, hvilket ermöglicherer virksomheder at opretholde ansvarlige AI-praktikker ved at minimere bias i deres modeller og sikre fair behandling af data-annotatorer. Du ved altid den præcise kvalitet af en OTS-dataset, hvilket hjælper med at bygge bedre AI, der fungerer i den virkelige verden.”

MediaInterface har leveret sprogteknologiske løsninger til sundhedsrelaterede institutioner i Tyskland og andre dele af Europa i over 20 år. Da virksomheden udvidede sig til Frankrig, havde den fuldt lokaliseret software, men manglede fransk leksikondata, især franske navne og stednavne, som ofte henvises til i patientens sundhedsinformation. Ved hjælp af Appen OTS-datasets, erhvervede MediaInterface ca. 21.000 franske navne og 14.000 stednavne. “Den kritiske data fra Appen er blevet inkorporeret i vores baggrund-leksikon til at lancere med succes på en ny marked, og dette hjælper os med at bygge ud nye ordforråd for vores kunder og styrke vores tilgang til fremtidige markedslanceringer,” sagde Ines Wendler, produktchef hos MediaInterface.

De mest erfarne AI-eksperter kombinerer OTS-datasets med on-demand dataindsamling og annotationsprojekter for at møde deres komplekse AI-model træningsdata behov. Appen er lederen i at tilbyde fortsat support gennem en række specifikke dataindsamlingstjenester, såsom kontinuerlig data-annotation og smart labeling, gennem AI-drevne værktøjer og automatiserede arbejdsgange for at maksimere effektiviteten.

“Vi interagerer med AI fra det øjeblik, vi vågner, til det øjeblik, vi går i seng – gennem virtuelle assistenter, chatbots, søgemaskiner, sociale netværk, medicinske enheder, smarte biler og andre anvendelser,” sagde Judith Bishop, Appens seniordirektør for AI-specialister, der leder et hold på 100 AI-lingvister og sprog-eksperter. “Sprog er ofte den primære grænseflade for mange af disse overbevisende AI-brugstilfælde, så for at garantere en god oplevelse, skal modellen være trænet til at fungere for alle. Appens engagement i højkvalitetsdata og ansvarlig, etisk AI-udvikling ermöglicherer virksomheder, der køber vores off-the-shelf-datasets, at accelerere deres AI-projekter med fuld tillid til deres data.”

Tilføjet til de eksisterende hundredvis af datasets, der allerede er live på appen.com, er listen over nye Appen OTS-datasets, der nu er tilgængelige:

Skriptet tale for arabisk (Egypten), arabisk (Saudi-Arabien), arabisk (Forenede Arabiske Emirater), central khmer (Cambodja), kroatisk, græsk, ungarsk, polsk, spansk (Spanien) og tyrkisk
Billede OCR for forenklet kinesisk trykt tekst, thai trykt tekst og finsk trykt tekst – Inkluderer forudindspillede reklameplakater, ydre emballage, skilte, blade og menuer til at træne og opdatere computer-vision OCR-modeller
Menneskelig kropsbevægelse (Kina) – Inkluderer annoterede videoer af mennesker, der bevæger sig, sporet på pixelniveau, egnet til spiludvikling, fitness-apps og mere
Baby-skrig lyd (Kina) – Inkluderer forudindspillede og annoterede babyskrig lyde, der kan bruges til at træne AI-modeller til at genkende forskellige skrig lyde og advare forældre

For mere information og for at anmode om en Appen OTS-dataset-prøve, klik her.

Unite.AI

Nye Off-the-Shelf (OTS) Datasets fra Appen Accelererer AI-Udrulning

You may like