Inteligencia artificial
Omri Geller, CEO y Co-Fundador de Run:AI – Serie de Entrevistas

Omri Geller es el CEO y Co-Fundador en Run:AI
Run:AI virtualiza y acelera la IA al combinar recursos de computación GPU para garantizar la visibilidad y, en última instancia, el control sobre la priorización y asignación de recursos. Esto garantiza que los proyectos de IA se ajusten a los objetivos comerciales y produzcan una mejora significativa en la productividad de los equipos de ciencia de datos, lo que les permite construir y entrenar modelos concurrentes sin limitaciones de recursos.
¿Qué fue lo que te atrajo inicialmente a la Inteligencia Artificial?
Cuando comencé mi licenciatura en Ingeniería Eléctrica y Electrónica en la Universidad de Tel Aviv, descubrí cosas fascinantes sobre la IA que sabía que nos ayudarían a dar el siguiente paso en las posibilidades de computación. A partir de ahí, supe que quería invertirme en el espacio de la IA. Ya fuera en investigación de IA o en la apertura de una empresa que ayudaría a introducir nuevas formas de aplicar la IA al mundo.
¿Siempre has tenido interés en el hardware de computadora?
Cuando recibí mi primera computadora con un procesador Intel 486 a los seis o siete años, me interesé de inmediato por descubrir cómo funcionaba todo, aunque probablemente era demasiado joven para entenderlo realmente. Además de los deportes, las computadoras se convirtieron en uno de mis pasatiempos más grandes al crecer. Desde entonces, he construido computadoras, he trabajado con ellas y he estudiado en el campo debido a la pasión que tenía de niño.
¿Cuál fue tu inspiración para lanzar Run:AI?
Supe desde muy temprano que quería invertirme en el espacio de la IA. En los últimos años, la industria ha experimentado un crecimiento tremendo en la IA, y gran parte de ese crecimiento provino de científicos informáticos como yo y del hardware que podría respaldar más aplicaciones. Se hizo más claro para mí que inevitablemente iniciaría una empresa, y junto con mi co-fundador Ronen Dar, para seguir innovando y ayudar a llevar la IA a más empresas.
Run:AI permite a los especialistas en aprendizaje automático obtener un nuevo tipo de control sobre la asignación de recursos GPU costosos. ¿Puedes explicar cómo funciona?
Lo que debemos entender es que los ingenieros de aprendizaje automático, como los investigadores y los científicos de datos, necesitan consumir potencia de computación de manera flexible. No solo las computaciones más nuevas son muy intensivas en términos de computación, sino que también hay nuevos flujos de trabajo que se utilizan en la ciencia de datos. Estos flujos de trabajo se basan en el hecho de que la ciencia de datos se basa en la experimentación y la ejecución de experimentos.
Para desarrollar nuevas soluciones para ejecutar experimentos más eficientes, debemos estudiar estas tendencias de flujo de trabajo a lo largo del tiempo. Por ejemplo: un científico de datos utiliza ocho GPU en un día, pero al día siguiente puede utilizar cero, o puede utilizar una GPU durante un período prolongado, pero luego necesita utilizar 100 GPU porque quiere ejecutar 100 experimentos en paralelo. Una vez que entendemos este flujo de trabajo para optimizar la potencia de procesamiento de un usuario, podemos comenzar a escalarlo a varios usuarios.
Con la computación tradicional, se asigna un número específico de GPU a cada usuario, sin tener en cuenta si están en uso o no. Con este método, a menudo las GPU costosas permanecen inactivas sin que nadie más pueda acceder a ellas, lo que resulta en un bajo ROI para la GPU. Entendemos las prioridades financieras de una empresa y ofrecemos soluciones que permiten la asignación dinámica de esos recursos según las necesidades de los usuarios. Al ofrecer un sistema flexible, podemos asignar potencia adicional a un usuario específico cuando se requiera, al utilizar las GPU que no están en uso por parte de otros usuarios, lo que crea un ROI máximo para los recursos informáticos de una empresa y acelera la innovación y el tiempo de comercialización de las soluciones de IA.
Una de las funcionalidades de Run:AI es que permite la reducción de puntos ciegos creados por la asignación estática de GPU. ¿Cómo se logra esto?
Tenemos una herramienta que nos proporciona visibilidad completa en el clúster de recursos. Al utilizar esta herramienta, podemos observar y entender si hay puntos ciegos y luego utilizar esas GPU inactivas para los usuarios que necesitan la asignación. La misma herramienta que proporciona visibilidad en el clúster y control sobre el clúster también garantiza que esos puntos ciegos se mitiguen.
En un discurso reciente, destacaste algunas distinciones entre los flujos de trabajo de construcción y capacitación, ¿puedes explicar cómo Run:AI utiliza un mecanismo de administración de cola de GPU para asignar la gestión de recursos para ambos?
Un modelo de IA se construye en dos etapas. Primero, hay una etapa de construcción, donde un científico de datos escribe el código para construir el modelo real, de la misma manera que un ingeniero construiría un coche. La segunda es la etapa de capacitación, donde el modelo completado comienza a aprender y se “entrena” para optimizar una tarea específica. Similar a cuando alguien aprende a conducir el coche después de que se ha ensamblado.
Para construir el modelo en sí, no se necesita mucha potencia de computación. Sin embargo, eventualmente, podría necesitar una mayor potencia de procesamiento para comenzar pruebas internas más pequeñas. Por ejemplo, la forma en que un ingeniero eventualmente querría probar el motor antes de instalarlo. Debido a estas necesidades distintas en cada etapa, Run.AI permite la asignación de GPU independientemente de si están construyendo o capacitando el modelo, sin embargo, como se mencionó anteriormente, se requiere un mayor uso de GPU para la capacitación del modelo, mientras que se requiere menos para la construcción.
¿Cuánto tiempo de computación bruto/recursos pueden ahorrarse por los desarrolladores de IA que deseen integrar Run.AI en sus sistemas?
Nuestras soluciones en Run.ai pueden mejorar la digitalización de los recursos, alrededor de dos a tres veces, lo que significa 2-3 veces mayor productividad general.
Gracias por la entrevista, los lectores que deseen obtener más información pueden visitar Run:AI.












