- El motor Flash-MoE permite ejecutar modelos de IA con 400B parámetros en un iPhone 17 Pro, desafiando los límites tradicionales de memoria.
- La velocidad inicial es de solo 0,6 tokens por segundo, pero optimizaciones la duplican a 1,1 tokens/seg con mínima pérdida de calidad.
- Este avance se basa en investigación de Apple de 2023 y metodologías de IA automatizada, mostrando colaboración entre academia y comunidad.
- Podría impulsar IA privada y sin conexión, reduciendo dependencia de la nube y validando arquitecturas de hardware como la memoria unificada.
La memoria unificada de 12 GB en el iPhone 17 Pro parecía una barrera insuperable para modelos de inteligencia artificial masivos. Tradicionalmente, ejecutar localmente un sistema con cientos de miles de millones de parámetros requería decenas de gigabytes de RAM y hardware especializado. Sin embargo, un avance en ingeniería de software ha demostrado que lo imposible ahora es técnicamente factible, aunque a velocidades que desafían la paciencia.
Este avance técnico redefine lo posible en IA local, potencialmente democratizando el acceso a modelos avanzados y aumentando la privacidad, lo que impacta a desarrolladores, empresas de hardware y usuarios finales.
El motor que lo hizo posible
El desarrollador Daniel Woods, conocido como @dandeveloper, creó un motor de inferencia de código abierto llamado Flash-MoE. Publicado en GitHub junto con un estudio detallado, este sistema aprovecha una arquitectura de Mixture of Experts (MoE) optimizada. Inicialmente, Woods ejecutó el modelo Qwen 3.5 397B—la versión completa sin compresión—en una MacBook Pro con 48 GB de RAM. El modelo, que ocupa 209 GB en disco, funcionó, estableciendo un precedente crítico.
La comunidad de desarrolladores rápidamente expandió los límites. Otros lograron ejecutar modelos aún más grandes, como DeepSeek-V3 con 671 mil millones de parámetros y Kimi K2.5 con un asombroso billón de parámetros, en hardware MacBook similar. La velocidad de inferencia en estos casos era notablemente lenta, pero el mero hecho de que funcionaran marcó un hito en la computación de IA descentralizada.
Un iPhone con 12 GB de RAM ejecuta un modelo de 400B, redefiniendo los límites de la IA local.
La prueba en el iPhone
Inspirado por estos logros, otro desarrollador bajo el alias Anemll llevó el experimento al extremo: intentar ejecutar el modelo Qwen 3.5 397B en un iPhone 17 Pro con sus 12 GB de memoria unificada. Contra todo pronóstico, el modelo se ejecutó, produciendo respuestas a una velocidad de apenas 0,6 tokens por segundo. Esta tasa es prácticamente inutilizable para aplicaciones prácticas, pero la demostración técnica es profunda.
Posteriormente, Anemll optimizó el enfoque reduciendo el número de "expertos" en la arquitectura MoE a cuatro, lo que duplicó la velocidad a 1,1 tokens por segundo con una pérdida de calidad estimada del 2,5% en las respuestas. Mientras tanto, otro usuario ejecutó un modelo más pequeño, Qwen 3.5 35B, en el mismo iPhone, alcanzando una velocidad mucho más usable de 13,1 tokens por segundo. Estos experimentos muestran un espectro de compensaciones entre tamaño del modelo, velocidad y calidad.
Contexto histórico y metodología
Este avance no surge de la nada. Hace tres años, investigadores de Apple publicaron un estudio titulado "LLM in a flash", que proponía utilizar no solo la memoria unificada de los dispositivos Apple, sino también su almacenamiento interno para ejecutar modelos de IA grandes. La idea era sortear las limitaciones de RAM mediante técnicas de intercambio eficiente de memoria.
Woods aplicó esta metodología utilizando herramientas avanzadas como Claude Code con el modelo Claude Opus 4.6 y adoptó el enfoque de "autoresearch" popularizado por Andrej Karpathy. Este método de investigación automatizada con IA ayudó a implementar Flash-MoE, demostrando cómo la colaboración entre investigación académica y desarrollo comunitario puede producir saltos tecnológicos.
Implicaciones para el futuro de la IA
La capacidad de ejecutar modelos gigantescos en hardware modesto tiene ramificaciones significativas. Primero, desafía la narrativa de que la IA avanzada está permanentemente atada a la nube y a centros de datos masivos. Empresas como GLM y otros actores en el espacio de IA de código abierto podrían ver acelerada la adopción de sus modelos si las barreras de hardware disminuyen.
“Los mercados están siempre mirando al futuro, no al presente.”
— Xataka
En segundo lugar, esto podría impulsar una nueva ola de aplicaciones de IA verdaderamente privadas y sin conexión, atrayendo a usuarios preocupados por la privacidad de datos. Finalmente, para la industria de hardware, especialmente Apple, valida la arquitectura de memoria unificada y podría influir en las decisiones de diseño futuro, aunque la velocidad actual sigue siendo un cuello de botella crítico que requiere innovación continua en software y chips.