Entrevistas
Omri Geller, CEO y cofundador de Run:AI – Serie de entrevistas

Omri Geller es el CEO y cofundador de Ejecutar: AI
Run:AI virtualiza y acelera la IA al agrupar los recursos informáticos de GPU para garantizar la visibilidad y, en última instancia, el control sobre la priorización y asignación de recursos. Esto garantiza que los proyectos de IA se asignen a los objetivos comerciales y produzca una mejora significativa en la productividad de los equipos de ciencia de datos, permitiéndoles construir y entrenar modelos simultáneos sin limitaciones de recursos.
¿Qué fue lo que inicialmente te atrajo de la Inteligencia Artificial?
Cuando comencé mi licenciatura en Ingeniería Eléctrica y Electrónica en la Universidad de Tel Aviv, descubrí cosas fascinantes sobre la IA que sabía que nos ayudarían a dar el siguiente paso en las posibilidades informáticas. A partir de ahí, supe que quería invertir en el espacio de la IA. Ya sea en la investigación de IA o en la apertura de una empresa que ayudaría a introducir nuevas formas de aplicar la IA en el mundo.
¿Siempre ha tenido interés en el hardware de la computadora?
Cuando recibí mi primera computadora con un procesador Intel 486 a los seis o siete años, inmediatamente me interesó saber cómo funcionaba todo, aunque probablemente era demasiado joven para entenderlo realmente. Aparte de los deportes, las computadoras se convirtieron en uno de mis mayores pasatiempos mientras crecía. Desde entonces, construí computadoras, trabajé con ellas y pasé a estudiar en el campo debido a la pasión que tenía cuando era niño.
¿Cuál fue tu inspiración para lanzar Run:AI?
Supe desde muy temprano que quería invertir en el espacio de la IA. En los últimos dos años, la industria ha visto un tremendo crecimiento en IA, y gran parte de ese crecimiento provino tanto de los científicos informáticos, como yo, como del hardware que podría admitir más aplicaciones. Me quedó más claro que inevitablemente comenzaría una empresa, y junto con mi cofundador Ronen Dar, para continuar innovando y ayudar a llevar la IA a más empresas empresariales.
Run:AI permite a los especialistas en aprendizaje automático obtener un nuevo tipo de control sobre la asignación de costosos recursos de GPU. ¿Puedes explicar cómo funciona esto?
Lo que debemos entender es que los ingenieros de aprendizaje automático, al igual que los investigadores y los científicos de datos, necesitan consumir potencia informática de manera flexible. Los cálculos más nuevos de hoy en día no solo son muy intensivos en computación, sino que también hay nuevos flujos de trabajo que se utilizan en la ciencia de datos. Estos flujos de trabajo se basan en el hecho de que la ciencia de datos se basa en la experimentación y la ejecución de experimentos.
Para desarrollar nuevas soluciones para ejecutar experimentos más eficientes, necesitamos estudiar estas tendencias de flujo de trabajo a lo largo del tiempo. Por ejemplo: un científico de datos usa ocho GPU en un día, pero al día siguiente puede usar cero, o puede usar una GPU durante un largo período de tiempo, pero luego necesita usar 100 GPU porque quiere ejecutar 100 experimentos. en paralelo. Una vez que comprendamos este flujo de trabajo para optimizar el poder de procesamiento de un usuario, podemos comenzar a escalarlo a varios usuarios.
Con la informática tradicional, se asigna un número específico de GPU a cada usuario, sin importar si están en uso. Con este método, las costosas GPU suelen permanecer inactivas sin que nadie más pueda acceder a ellas, lo que resulta en un bajo retorno de la inversión (ROI) para la GPU. Entendemos las prioridades financieras de las empresas y ofrecemos soluciones que permiten la asignación dinámica de estos recursos según las necesidades de los usuarios. Al ofrecer un sistema flexible, podemos asignar potencia adicional a un usuario específico cuando sea necesario, utilizando GPU que otros usuarios no utilizan, lo que genera el máximo ROI para los recursos informáticos de la empresa y acelera la innovación y el plazo de comercialización de las soluciones de IA.
Una de las funcionalidades de Run:AI es que permite la reducción de puntos ciegos creados por la asignación estática de GPU. ¿Cómo se logra esto?
Tenemos una herramienta que nos da una visibilidad completa del grupo de recursos. Al usar esta herramienta, podemos observar y comprender si hay puntos ciegos y luego utilizar esas GPU inactivas para los usuarios que necesitan la asignación. La misma herramienta que brinda visibilidad del clúster y control sobre el clúster también garantiza que se mitiguen esos puntos ciegos.
En un discurso reciente, destacó algunas distinciones entre los flujos de trabajo de creación y capacitación. ¿Puede explicar cómo Run:AI utiliza un mecanismo de gestión de colas de GPU para asignar la gestión de recursos para ambos?
Un modelo de IA se construye en dos etapas. Primero, está la etapa de construcción, donde un científico de datos escribe el código para construir el modelo real, de la misma manera que un ingeniero construiría un automóvil. La segunda es la etapa de entrenamiento, donde el modelo completo comienza a aprender y ser 'entrenado' sobre cómo optimizar una tarea específica. Similar a alguien que aprende a conducir el automóvil después de haberlo ensamblado.
Para construir el modelo en sí, no se necesita mucha potencia informática. Sin embargo, eventualmente, podría necesitar una potencia de procesamiento más fuerte para comenzar pruebas internas más pequeñas. Por ejemplo, la forma en que un ingeniero eventualmente querría probar el motor antes de instalarlo. Debido a estas distintas necesidades durante cada etapa, Run.AI permite la asignación de GPU independientemente de si están construyendo o entrenando el modelo; sin embargo, como se mencionó anteriormente, generalmente se requiere un mayor uso de GPU para entrenar el modelo, mientras que se requiere menos para construirlo. .
¿Cuánto tiempo/recursos informáticos brutos pueden ahorrar los desarrolladores de IA que deseen integrar Run.AI en sus sistemas?
Nuestras soluciones en Run.ai pueden mejorar la digitalización de los recursos, de dos a tres veces, lo que significa una productividad general de 2 a 3 veces mayor.
Gracias por la entrevista, los lectores que deseen obtener más información pueden visitar Ejecutar: AI.












