Ángulo de Anderson
Servicios de inferencia descentralizados al estilo PiedPiper para IA

¿Es una posibilidad inminente ‘BitTorrent para IA’
Opinión Acabo de terminar de ver anoche la entretenida y ácida sátira tecnológica de Mike Judge Silicon Valley – en la que un grupo de genios geek socialmente desafiantes intentan crear una ‘nueva internet’ llamada PiedPiper, a través de una red en malla instalada en los teléfonos móviles de todos – y me interesó ver a la comunidad de HN interactuando con una nueva oferta de naturaleza similar.
Eigen Labs’ DarkBloom se encuentra en algún punto entre la noción igualitaria de una red en malla descentralizada para la inferencia de IA y los motivos de beneficio de la minería de criptomonedas, lo que permite a los propietarios de sistemas Mac de Apple Silicon convertir su equipo en un nodo de inferencia:

Desde la sección de ganancias del sitio web de DarkBloom, los usuarios pueden seleccionar qué equipo desean alquilar y qué modelos de IA desean admitir. Fuente
El sistema se concentra actualmente en modelos basados en texto como el agente Trinity Mini (3B) y Cohere Transcribe, aunque también ofrece modelos generadores de imágenes diversos como FLUX 2 Klein 4B:

La gama de modelos de los que el ‘arrendador’ puede elegir para alquilar, junto con las proyecciones de ganancias mensuales.
Los usuarios que participan en el esquema pueden aparentemente ganar suficiente dinero en un mes sólido de provisión de inferencia para agregar regularmente un nuevo Mac a una cadena en constante crecimiento, hasta que, en teoría, puedan ganar una granja de inferencia completa.
Efectivamente, un esquema de este tipo que realmente ganara popularidad (tiene un problema de inicio en frío en este momento) podría poner a los usuarios entusiastas y casuales de regreso en una postura de búsqueda de hardware, como en el último gran auge de las criptomonedas (y posterior caída).
No tan rápido
Sin embargo, para los pequeños, ese barco puede haber zarpado. Además de la necesidad apocalíptica de RAM de la IA, la demanda de equipamiento de centros de datos habilitados para IA a nivel global continúa aumentando los costos de hardware y servicios para el consumidor común, que anteriormente había podido monopolizar la RAM para la minería de criptomonedas, debido a la naturaleza periférica de la actividad, así como a la incertidumbre regulatoria, que mantuvo a los intereses comerciales circunspectos sobre las criptomonedas.
Mientras que el MacBook Neo de muy bajo costo ha surgido como una alternativa que supera la escalada de hardware, su chip de teléfono móvil A18 y 8 GB de VRAM no lo convierten en una máquina de inferencia seria.
Pero incluso si el usuario final no busca iniciar una granja de inferencia completa y solo desea alquilar su capacidad M[n] no utilizada, las posibles ganancias parecen significativas, si el problema de inicio en frío se resuelve rápidamente y si la plataforma comienza a anunciarse como algo más que un experimento curioso en demanda potencial.
Inferir de manera diferente
Aunque varios comentaristas han reconocido una democracia al estilo de PiedPiper/Torrent en el esquema de DarkBloom, las tareas de inferencia no son tan fáciles de dividir como fragmentar un archivo de película en múltiples rebanadas hash, para que luego se pueda reensamblar en un cliente de torrent.
El modelo de DarkBloom no propone que el chip M[n] de un participante maneje el x% de una tarea de inferencia. En el uso principal, solo unos pocos marcos o metodologías pueden lograr este tipo de utilización de GPU cruzada en una sola tarea de inferencia, incluyendo TensorRT LLM de NVIDIA, que utiliza paralelismo de tuberías; y la inferencia fragmentada de DeepSpeed, que aprovecha paralelismo de modelo (MP).
En cambio, su Mac habilitado para DarkBloom descargaría y ejecutaría uno de los modelos enumerados y realizaría el 100% de la inferencia para los usuarios que pagan, con cifrado de extremo a extremo y con solicitudes descifradas solo en nodos atestiguados por hardware, lo que significa que los proveedores no podrían leer los datos durante la ejecución. La carga de trabajo en sí constituiría una o más inferencias basadas en texto, o al menos una imagen completa.
No está claro cuán extensa sería una sola sesión de usuario; como está, los entusiastas de la IA están acostumbrados a asegurar una GPU a través de granjas de inferencia como RunPod; aunque puede tomar un tiempo asegurar la GPU deseada en el uso máximo, el usuario puede monopolizarla mientras la sesión no se permite que expire.
Así que es posible que un solo usuario que paga termine usando las capacidades de IA de la serie M de un solo Mac alquilado de DarkBloom durante una sesión muy larga, a menos que haya alguna ventaja logística o de cumplimiento en cambiar a los clientes entre solicitudes.
Los Mac se han señalado para este enfoque, aparentemente, porque solo hay un número limitado de configuraciones técnicas posibles para un participante, y es fácil asignar modelos de tamaño apropiado a un cliente.
Además, los Mac capaces de contribuir a una red de DarkBloom tienen un enclave seguro de hardware que garantiza una pared entre el usuario y el proveedor.
Estos son factores que no son tan fáciles de racionalizar en configuraciones más genéricas y personalizadas, y en cientos o miles de máquinas portátiles y de escritorio Windows y Linux disponibles en los últimos 6-7 años.
Sin embargo, debe ser obvio que el grupo de hardware no Mac mucho más grande podría acomodar una gran demanda si se pudieran racionalizar sus características diversas, en lugar de – como con DarkBloom – subirse al carro de los conjuntos de especificaciones limitados de Apple, lo que facilita una proposición comercial y un enfoque arquitectónico (presumiblemente) mucho más fácil.
Supervisión legal
Quizás el mayor problema que enfrenta una solución ‘democrática’ de este tipo es la naturaleza cerrada del proceso propuesto; los gobiernos de todo el mundo están actualmente involucrados en nueva legislación que efectivamente pondría fin a la anonimidad en internet en cualquier lugar donde se instituya, y claramente no están en una mentalidad pro-privacidad en este período.
Por lo tanto, la perspectiva de inferencia de IA aleatoria que se lleva a cabo sin filtros, controles o equilibrios, a través de una red distribuida (si se puede llamar a DarkBloom así – es más de un mercado de inferencia) parece, irónicamente, remota.
Es posible que DarkBloom, o otros esquemas de malla de inferencia posteriores, necesiten acordar puertas traseras que restrinjan efectivamente la privacidad al host, que no podrá ver los trabajos del cliente en ejecución; en cambio, los datos de inferencia devueltos estarían disponibles a través de estructuras de agencia gubernamental de hombre en el medio (MiTM), manteniendo toda la inferencia auditada.
Presumiblemente, si la racha de nuevas leyes que proponen controles de identidad a nivel de sistema operativo deberían lograr una adopción generalizada, estas medidas pueden volverse redundantes. Pero sin ellas, teniendo en cuenta el clima actual, una red de estilo DarkBloom probablemente se consideraría similar a una ‘red oscura’ de IA, donde podrían ocurrir actividades ilegales basadas en IA en secreto.
Pruebas divididas
Hasta la fecha, ha habido sorprendentemente pocos intentos reales de hacer lo que un sistema ‘al estilo de PiedPiper’ implica; en sí mismo, DarkBloom se encuentra en un extremo, distribuyendo trabajos completos a máquinas individuales en lugar de intentar fragmentarlos a través de una red, mientras que la mayoría de los sistemas de producción simplemente evitan el problema por completo manteniendo la inferencia en un solo host.
Sin embargo, hay un puñado de proyectos que representan algo un poco más cercano a la ‘ejecución compartida’.
Petals, que se describe activamente a sí mismo como una red ‘al estilo de BitTorrent’, distribuye bloques de transformadores en múltiples nodos conectados a Internet, pasando estados intermedios entre ellos:

Un flujo de trabajo típico de Petals, donde una sola solicitud de inferencia se enruta a través de múltiples GPUs remotas, cada una con un subconjunto de capas de modelo; a diferencia de DarkBloom, la ejecución se fragmenta a través de la red, con estados intermedios que se pasan entre nodos operados de forma independiente, lo que aumenta la latencia y la exposición en cada salto mientras se aproxima a un sistema de malla real. Fuente
Hivemind experimenta con una coordinación y enrutamiento de pares similares, aunque en el servicio de entrenamiento de modelos en lugar de inferencia de modelos ya entrenados; y Lattica se centra en la capa de red subyacente necesaria para que estos sistemas sean viables:

Un esquema de Lattica, que muestra un substrato de par a par de bajo nivel que maneja el cruce de NAT, la distribución de contenido y la coordinación basada en DHT; la inferencia fragmentada emerge solo como una capa de aplicación posible; a diferencia de DarkBloom o Petals, Lattica no define un sistema de inferencia en sí mismo, sino que proporciona los primitivos de red y sincronización necesarios para construir uno. Fuente –
Los tres modelos se acercan al ideal de malla, pero al costo de latencia, inestabilidad y exposición.
Por el contrario, exo mantiene la inferencia dentro de un clúster local, utilizando interconexiones rápidas para dividir las cargas de trabajo en GPUs, sin depender de Internet:

Una vista de clúster de exo, que muestra un pequeño anillo de máquinas de Apple Silicon locales que alojan conjuntamente un solo modelo, con división de tuberías o tensor que distribuye capas en nodos; a diferencia de los sistemas basados en WAN, exo depende de interconexiones locales rápidas, lo que efectivamente convierte múltiples dispositivos en una sola máquina de inferencia compuesta. Fuente
Finalmente, varios enfoques comúnmente citados no abordan la inferencia en absoluto: el venerable (2016) FedAvg de Google; la salida de MIT de 2018 SplitNN; y la oferta australiana de 2020 SplitFed, se ocupan de la distribución del entrenamiento o el intercambio de datos de preservación de la privacidad, en lugar de servir solicitudes de inferencia en vivo.
Dado que el entrenamiento es una perspectiva mucho más intensiva en recursos que la inferencia, cualquier red que pruebe ser capaz de distribuir tal carga de manera efectiva, a través de clústeres o nodos, podría tener una participación desproporcionada de interés de aficionados y empresas más adelante.
Conclusión
Debido a que mucha de la tecnología en Silicon Valley fue invención salvaje, no sabemos si PiedPiper estaba impulsado por hash (es decir, dividiendo y distribuyendo datos en fragmentos, al estilo de torrent) o si ‘estableció’ una tarea o incluso una sesión en cualquier nodo en cualquier momento, lo que es lo que hace DarkBloom.
Sin embargo, el actual apuro por proporcionar hardware de entrenamiento y inferencia a nivel de centro de datos indica que el sector de provisión either está esperando servir a todos, al estilo de RunPod, o se está preparando para la provisión de nivel empresarial más lucrativa – una perspectiva tentadora socavada por la falta general de trincheras en la implementación de IA.
Si la inferencia en malla se convierte en una realidad, es razonable esperar que entre los primeros intentos de aprovecharla estén los incumbentes, como OpenAI y Anthropic, que podrían implementar sistemas dedicados dentro de una base de aplicaciones existente masiva o colaborar en sistemas de código abierto que sean fáciles de instalar (dado que las empresas de este tamaño y alcance tienen el dinero y el motivo para simplificar instalaciones difíciles de este tipo).
En cuanto a si podría surgir una red de malla más democrática y impulsada por el usuario, un equivalente de IA real a BitTorrent – varios factores se alinean en su contra.
En primer lugar, la actual campaña global contra el cifrado y la anonimidad podría eliminar o socavar muchos o todos los mecanismos que hacen que los sistemas como BitTorrent sean anónimos, como el cifrado de extremo a extremo y las VPN. Una vez que los flujos de cifrado genéricos que ocultan estos protocolos estén abiertos a la inspección, se vuelven posibles nuevas capas de supervisión y prohibición, y esto puede socavar el atractivo de un sistema de estilo DarkBloom.
En segundo lugar, las regulaciones emergentes o propuestas contra el ‘abuso’ de la IA, o contra la operación anónima de marcos de código abierto, significan que el costo del cumplimiento – trivial a nivel empresarial – probablemente sacaría a los jugadores más pequeños del mercado.
Finalmente – el poder de un jugador importante del sector para abrazar, ampliar y extinguir (EEE, como Facebook y Twitter lo hicieron con comunidades de Internet más ad hoc) significa que los actuales jugadores principales pueden operativizar y simplificar el modelo de malla a su propia ventaja, en un mercado donde los usuarios finales son casi completamente intolerantes a cualquier fricción en la adopción.
Publicado por primera vez el jueves 16 de abril de 2026


