Contáctenos

Los investigadores descubren subredes altamente eficientes dentro de las redes neuronales de aprendizaje profundo

Inteligencia Artificial

Los investigadores descubren subredes altamente eficientes dentro de las redes neuronales de aprendizaje profundo

mm

Las redes neuronales de aprendizaje profundo a menudo son masivas y requieren grandes cantidades de potencia informática, pero un nuevo descubrimiento demuestra cómo se puede reducir para completar tareas de manera más eficiente. Jonathan Frankle y su equipo del MIT han propuesto las "hipótesis del boleto de lotería", que muestran cómo hay subredes más delgadas dentro de las redes neuronales más grandes. Estas subredes pueden completar la tarea en cuestión de manera más eficiente con menos poder de cómputo requerido, y uno de los mayores desafíos es encontrar esas subredes o ganar boletos de lotería como el equipo se refiere a ellos.

El equipo descubrió estas subredes dentro de BERT, la técnica de aprendizaje automático de última generación para el procesamiento del lenguaje natural (NLP). La PNL, que es un subcampo de la inteligencia artificial (IA), se encarga de descifrar y analizar el lenguaje humano y se utiliza para aplicaciones como la generación de texto predictivo y chatbots.

Sin embargo, BERT es grande y requiere poder de supercomputación, que es inaccesible para la mayoría de los usuarios. Con el nuevo descubrimiento de estas subredes, podría abrir ese acceso, permitiendo que más usuarios utilicen la tecnología para desarrollar herramientas NLP.

“Llegamos al punto en el que tendremos que hacer que estos modelos sean más ágiles y eficientes”, dice Frankle.

Según él, este desarrollo podría “reducir las barreras de entrada” para la PNL.

BERT – “Obscenamente caro”  

BERT es fundamental para cosas como el motor de búsqueda de Google y ha recibido mucha atención desde que Google lo lanzó en 2018. Es un método para crear redes neuronales y se entrena intentando muchas veces completar el pasaje en blanco de las piezas de escritura. Una de las características más impresionantes de BERT es su enorme conjunto de datos de entrenamiento inicial.

Luego, los usuarios pueden ajustarlo para tareas específicas, como los chatbots de servicio al cliente, pero una vez más, requiere grandes cantidades de potencia de procesamiento, con la posibilidad de que los parámetros alcancen los mil millones.

“Un modelo BERT estándar en estos días, la variedad de jardín, tiene 340 millones de parámetros”, dice Frankle. “Esto es obscenamente caro. Esto está mucho más allá de la capacidad informática de usted o de mí”.

Según el autor principal Tianlong Chen de la Universidad de Texas en Austin, los modelos como BERT "sufren de un tamaño de red enorme", pero gracias a la nueva investigación, "la hipótesis del billete de lotería parece ser una solución".

Subredes eficientes 

Chen y el equipo buscaron un modelo más pequeño ubicado dentro de BERT y compararon el rendimiento de las subredes descubiertas con el modelo BERT original. Esto se probó en una variedad de diferentes tareas de PNL, incluida la respuesta a preguntas y el llenado de palabras en blanco en una oración.

El equipo descubrió subredes exitosas que eran entre un 40 y un 90 por ciento más delgadas que el modelo BERT original, y el porcentaje real dependía de la tarea. Además de esto, podrían identificarlos antes del ajuste fino específico de la tarea, lo que resulta en costos informáticos aún más reducidos. Otra ventaja fue que algunas de las subredes seleccionadas para una tarea específica podían reutilizarse para otra.

“Me sorprendió un poco que esto funcionara”, dice Frankle. “No es algo que di por sentado. Esperaba un resultado mucho más desordenado de lo que obtuvimos”.

Según Ari Morcos, científico de Facebook AI Research, este descubrimiento es “convincente” y “estos modelos se están generalizando cada vez más. Por lo tanto, es importante entender si la hipótesis del boleto de lotería se mantiene”.

Morcos también dice que si estas subredes pudieran ejecutarse con una potencia de cómputo drásticamente menor, entonces esto "tendría un gran impacto dado que estos modelos extremadamente grandes son actualmente muy costosos de ejecutar".

“No sé cuánto más podemos crecer usando estos cálculos al estilo de una supercomputadora”, agrega Frankle. “Vamos a tener que reducir la barrera de entrada”.

“La esperanza es que esto reduzca el costo, que esto lo haga más accesible para todos… para los pequeños que solo tienen una computadora portátil”, concluye.

La investigación está programada para ser presentada en el Conferencia sobre sistemas de procesamiento de información neuronal.

Alex McFarland es un periodista y escritor sobre inteligencia artificial que explora los últimos avances en inteligencia artificial. Ha colaborado con numerosas empresas emergentes y publicaciones de IA en todo el mundo.