Inteligencia artificial
Nuevos conjuntos de datos listos para usar (OTS) de Appen aceleran la implementación de IA

Appen Limited (ASX:APX), el principal proveedor de datos de entrenamiento de alta calidad para organizaciones que construyen sistemas de IA efectivos a gran escala, anunció hoy nuevos conjuntos de datos listos para usar (OTS). Estos conjuntos de datos están diseñados para hacer que sea más fácil y rápido para las empresas adquirir los datos de entrenamiento de alta calidad necesarios para acelerar sus proyectos de inteligencia artificial (IA) y aprendizaje automático (ML). Los nuevos conjuntos de datos OTS incluyen movimiento del cuerpo humano y sonidos innovadores de llanto de bebé, así como discurso escrito y imágenes con texto adecuadas para el reconocimiento óptico de caracteres (OCR) para lenguas de alta demanda pero difíciles de adquirir, como árabe, croata, griego, húngaro, tailandés y más. Con los conjuntos de datos ampliados, la oferta total de OTS de Appen incluye más de 250 conjuntos de datos, que comprenden más de 11.000 horas de audio, más de 25.000 imágenes y más de 8,7 millones de palabras en 80 lenguas y múltiples dialectos.
Los conjuntos de datos OTS de Appen son una herramienta rápida y rentable para iniciar un proyecto de IA o ML con datos de entrenamiento de alta calidad consistentes. Los equipos que amplían sus capacidades de IA también pueden aprovechar los conjuntos de datos OTS para mejorar eficazmente la precisión, desarrollar nuevas habilidades de modelo e incorporar otras mejoras en sus modelos de IA. Un conjunto de datos OTS se entrega a menudo en una semana, por ejemplo, en comparación con las ocho a doce semanas para un nuevo proyecto de recopilación y anotación de datos, o incluso más tiempo, dependiendo de la complejidad. Todos los conjuntos de datos de Appen se desarrollan utilizando una metodología completamente transparente y opt-in, por lo que los especialistas en IA pueden estar seguros de que sus datos son limpios y cumplen con las normas, lo que elimina el riesgo potencial de repercusiones y daños a la reputación.
“Los equipos de IA en todo el mundo que trabajan en proyectos con plazos ajustados y requisitos de datos flexibles pueden beneficiarse del uso de conjuntos de datos listos para usar”, dijo Wilson Pang, director de tecnología de Appen. “Los conjuntos de datos OTS acortan el tiempo para obtener valor y brindan acceso a datos de alta calidad a un costo total más bajo que el de los métodos tradicionales. En Appen, tomamos las medidas necesarias para garantizar que todos nuestros conjuntos de datos sean éticamente obtenidos y demográficamente equilibrados, lo que permite a las empresas mantener prácticas de IA responsables al minimizar los sesgos en sus modelos y garantizar un trato justo a los anotadores de datos. Usted siempre conoce la calidad precisa de un conjunto de datos OTS, lo que ayuda a construir una mejor IA que funciona en el mundo real”.
MediaInterface ha entregado soluciones de tecnología lingüística a instituciones de atención médica en Alemania y otras partes de Europa durante más de 20 años. Cuando la empresa se expandió a Francia, tenía software completamente localizado, pero carecía de datos léxicos en francés, especialmente nombres y lugares en francés, que a menudo se citan en la información de salud del paciente. Utilizando los conjuntos de datos OTS de Appen, MediaInterface adquirió aproximadamente 21.000 nombres en francés y 14.000 nombres de lugares. “Los datos críticos de Appen se han incorporado a nuestro léxico de fondo para lanzar con éxito en un nuevo mercado, y esto nos ayuda a construir nuevos vocabularios para nuestros clientes y a fortalecer nuestro enfoque para futuros lanzamientos de mercado”, dijo Ines Wendler, gerente de productos de MediaInterface.
Los expertos en IA más experimentados combinan conjuntos de datos OTS con proyectos de recopilación y anotación de datos a pedido para satisfacer las complejas necesidades de datos de entrenamiento de sus modelos de IA. Appen es el líder en ofrecer apoyo continuo a través de una serie de servicios de recopilación de datos específicos, como la anotación de datos continua y la etiquetado inteligente, a través de herramientas y flujos de trabajo automatizados para maximizar la eficiencia.
“Interactuamos con la IA desde el momento en que nos despertamos hasta el momento en que nos acostamos, a través de asistentes virtuales, chatbots, motores de búsqueda, redes sociales, dispositivos médicos, coches inteligentes y otras aplicaciones”, dijo Judith Bishop, directora sénior de especialistas en IA de Appen, quien lidera un equipo de 100 lingüistas y expertos en lenguas de IA. “El lenguaje es a menudo la interfaz principal para muchos de estos casos de uso de IA atractivos, por lo que para garantizar una gran experiencia, el modelo debe estar entrenado para funcionar para todos. El compromiso de Appen con los datos de alta calidad y el desarrollo de IA ético y responsable permite a las empresas que compran nuestros conjuntos de datos listos para usar acelerar sus proyectos de IA con total confianza en sus datos”.
Se unen a los cientos de conjuntos de datos que ya están disponibles en appen.com, la lista de nuevos conjuntos de datos OTS de Appen que ahora están disponibles incluye:
- Discurso escrito para árabe (Egipto), árabe (Arabia Saudita), árabe (Emiratos Árabes Unidos), jemer central (Camboya), croata, griego, húngaro, polaco, español (España) y turco
- OCR de imagen para texto chino simplificado impreso, texto tailandés impreso y texto finlandés impreso – Incluye vallas publicitarias, embalajes externos, señales, revistas y menús pregrabados para entrenar y actualizar modelos de visión por computadora de OCR
- Movimiento del cuerpo humano (China) – Incluye videos anotados de personas en movimiento, rastreados a nivel de píxel, adecuados para el desarrollo de juegos, aplicaciones de fitness y más
- Audio de llanto de bebé (China) – Incluye sonidos de bebé pregrabados y anotados que se pueden utilizar para entrenar modelos de IA para reconocer diferentes sonidos de llanto y alertar a los padres
Para obtener más información y solicitar una muestra de un conjunto de datos OTS de Appen, haga clic aquí.












