iPhone 17 Pro ejecuta modelo de IA de 400B localmente: la memoria ya no es límite

TECH

Puntos Clave

El motor Flash-MoE permite ejecutar modelos de IA con 400B parámetros en un iPhone 17 Pro, desafiando los límites tradicionales de memoria.
La velocidad inicial es de solo 0,6 tokens por segundo, pero optimizaciones la duplican a 1,1 tokens/seg con mínima pérdida de calidad.
Este avance se basa en investigación de Apple de 2023 y metodologías de IA automatizada, mostrando colaboración entre academia y comunidad.
Podría impulsar IA privada y sin conexión, reduciendo dependencia de la nube y validando arquitecturas de hardware como la memoria unificada.

Purple iPhone 17 with dual cameras — Foto de appshunter.io en Unsplash

La memoria unificada de 12 GB en el iPhone 17 Pro parecía una barrera insuperable para modelos de inteligencia artificial masivos. Tradicionalmente, ejecutar localmente un sistema con cientos de miles de millones de parámetros requería decenas de gigabytes de RAM y hardware especializado. Sin embargo, un avance en ingeniería de software ha demostrado que lo imposible ahora es técnicamente factible, aunque a velocidades que desafían la paciencia.

Por Qué Importa

Este avance técnico redefine lo posible en IA local, potencialmente democratizando el acceso a modelos avanzados y aumentando la privacidad, lo que impacta a desarrolladores, empresas de hardware y usuarios finales.

El motor que lo hizo posible

El desarrollador Daniel Woods, conocido como @dandeveloper, creó un motor de inferencia de código abierto llamado Flash-MoE. Publicado en GitHub junto con un estudio detallado, este sistema aprovecha una arquitectura de Mixture of Experts (MoE) optimizada. Inicialmente, Woods ejecutó el modelo Qwen 3.5 397B—la versión completa sin compresión—en una MacBook Pro con 48 GB de RAM. El modelo, que ocupa 209 GB en disco, funcionó, estableciendo un precedente crítico.

La comunidad de desarrolladores rápidamente expandió los límites. Otros lograron ejecutar modelos aún más grandes, como DeepSeek-V3 con 671 mil millones de parámetros y Kimi K2.5 con un asombroso billón de parámetros, en hardware MacBook similar. La velocidad de inferencia en estos casos era notablemente lenta, pero el mero hecho de que funcionaran marcó un hito en la computación de IA descentralizada.

Un iPhone con 12 GB de RAM ejecuta un modelo de 400B, redefiniendo los límites de la IA local.

Smartphone with multiple camera lenses on dark background — Photo by ubeyonroad on Unsplash

La prueba en el iPhone

Inspirado por estos logros, otro desarrollador bajo el alias Anemll llevó el experimento al extremo: intentar ejecutar el modelo Qwen 3.5 397B en un iPhone 17 Pro con sus 12 GB de memoria unificada. Contra todo pronóstico, el modelo se ejecutó, produciendo respuestas a una velocidad de apenas 0,6 tokens por segundo. Esta tasa es prácticamente inutilizable para aplicaciones prácticas, pero la demostración técnica es profunda.

Posteriormente, Anemll optimizó el enfoque reduciendo el número de "expertos" en la arquitectura MoE a cuatro, lo que duplicó la velocidad a 1,1 tokens por segundo con una pérdida de calidad estimada del 2,5% en las respuestas. Mientras tanto, otro usuario ejecutó un modelo más pequeño, Qwen 3.5 35B, en el mismo iPhone, alcanzando una velocidad mucho más usable de 13,1 tokens por segundo. Estos experimentos muestran un espectro de compensaciones entre tamaño del modelo, velocidad y calidad.

0.6Tokens por segundo al ejecutar un modelo de 400B en un iPhone 17 Pro, demostrando viabilidad técnica a baja velocidad.

Contexto histórico y metodología

Este avance no surge de la nada. Hace tres años, investigadores de Apple publicaron un estudio titulado "LLM in a flash", que proponía utilizar no solo la memoria unificada de los dispositivos Apple, sino también su almacenamiento interno para ejecutar modelos de IA grandes. La idea era sortear las limitaciones de RAM mediante técnicas de intercambio eficiente de memoria.

Woods aplicó esta metodología utilizando herramientas avanzadas como Claude Code con el modelo Claude Opus 4.6 y adoptó el enfoque de "autoresearch" popularizado por Andrej Karpathy. Este método de investigación automatizada con IA ayudó a implementar Flash-MoE, demostrando cómo la colaboración entre investigación académica y desarrollo comunitario puede producir saltos tecnológicos.

Implicaciones para el futuro de la IA

La capacidad de ejecutar modelos gigantescos en hardware modesto tiene ramificaciones significativas. Primero, desafía la narrativa de que la IA avanzada está permanentemente atada a la nube y a centros de datos masivos. Empresas como GLM y otros actores en el espacio de IA de código abierto podrían ver acelerada la adopción de sus modelos si las barreras de hardware disminuyen.

“Los mercados están siempre mirando al futuro, no al presente.”
— Xataka

En segundo lugar, esto podría impulsar una nueva ola de aplicaciones de IA verdaderamente privadas y sin conexión, atrayendo a usuarios preocupados por la privacidad de datos. Finalmente, para la industria de hardware, especialmente Apple, valida la arquitectura de memoria unificada y podría influir en las decisiones de diseño futuro, aunque la velocidad actual sigue siendo un cuello de botella crítico que requiere innovación continua en software y chips.

Cronología

2023Investigadores de Apple publican 'LLM in a flash', proponiendo uso de almacenamiento para ejecutar modelos grandes en hardware limitado.

Mar 2026Daniel Woods crea Flash-MoE y ejecuta Qwen 3.5 397B en una MacBook Pro con 48 GB de RAM.

Mar 2026Desarrolladores ejecutan modelos como DeepSeek-V3 (671B) y Kimi K2.5 (1T) en MacBooks, expandiendo los límites.

Mar 2026Anemll logra ejecutar Qwen 3.5 397B en un iPhone 17 Pro con 12 GB de RAM, demostrando viabilidad técnica.

Temas relacionados

AiiPhone 17 Promodelo IA 400BFlash-MoEIA localmemoria unificadaQwen 3.5desarrollo open sourceApple

Fuentes

Xataka Datos de mercado por CoinGecko

CompartirCompartir

iPhone 17 Pro ejecuta modelo de IA de 400B localmente: la memoria ya no es límite

El motor que lo hizo posible

La prueba en el iPhone

Contexto histórico y metodología

Implicaciones para el futuro de la IA

Articulos relacionados

Nium lanza plataforma de tarjetas con stablecoins en Visa y Mastercard

Madrid amplía la zona SER a domingos y noches: más caro y difícil aparcar

China acelera su plan para dominar el 6G y controlar la próxima revolución tecnológica