- La CNMV evaluó cuatro modelos de IA (ChatGPT, Gemini, DeepSeek, Perplexity) en trading real del Ibex35 durante diez meses.
- El rendimiento varió significativamente, sin que ningún modelo demostrara ventaja consistente, destacando la imprevisibilidad de los mercados.
- La calidad de los prompts fue el factor más crítico: instrucciones vagas llevaron a resultados pobres, mientras que prompts estructurados mejoraron la precisión.
- El estudio advierte contra confiar ciegamente en la IA para inversiones y subraya la necesidad de educación financiera y marcos regulatorios adaptados.
La promesa de 'hazte rico rápido' usando inteligencia artificial para invertir en bolsa ha inundado redes sociales y plataformas de finanzas personales, creando expectativas poco realistas entre inversores novatos. Sin embargo, un estudio pionero de la Comisión Nacional del Mercado de Valores (CNMV) de España arroja luz sobre lo que realmente puede lograr la IA en los mercados financieros—y lo que no. Durante diez meses, desde abril de 2025 hasta enero de 2026, investigadores de la CNMV pusieron a prueba cuatro modelos de lenguaje grande (LLM) en un entorno de trading real, utilizando el índice Ibex35 como campo de pruebas. Los resultados, publicados en un informe detallado, desafían narrativas populares y ofrecen lecciones cruciales para reguladores, inversores y desarrolladores de tecnología financiera.
Este estudio desmitifica las promesas exageradas de IA en finanzas, ayudando a inversores a tomar decisiones informadas y guiando a reguladores en la supervisión de tecnologías emergentes.
Metodología del experimento
Los investigadores Ricardo Crisóstomo y Diana Mykhalyuk diseñaron un enfoque riguroso pero práctico para evaluar la capacidad predictiva de la IA. Seleccionaron cuatro modelos ampliamente utilizados: ChatGPT de OpenAI, Gemini de Google, DeepSeek y Perplexity. Cada mes, durante el período de diez meses, solicitaron a cada modelo que identificara las cinco acciones del Ibex35 con mejor rendimiento esperado para comprar y las cinco con peor rendimiento esperado para vender en corto. No se utilizaron datos históricos seleccionados; el mercado real fue el único árbitro del desempeño. Las decisiones se ejecutaron virtualmente al inicio de cada mes y se midieron contra los resultados reales al final del período, proporcionando una evaluación transparente de la precisión predictiva en condiciones de mercado dinámicas.
Evolución de los modelos y desafíos metodológicos
Uno de los hallazgos más intrigantes del estudio es el reconocimiento de un problema metodológico fundamental: durante los diez meses de prueba, las versiones de los cuatro modelos se actualizaron múltiples veces. Por ejemplo, Gemini evolucionó desde versiones iniciales en abril de 2025 hasta Gemini 3.1 Pro en enero de 2026, con mejoras significativas en capacidades de razonamiento y acceso a datos. Los investigadores admitieron que era imposible determinar con certeza si las variaciones en el rendimiento se debían a cambios en los modelos, fluctuaciones del mercado o ajustes en las estrategias de prompts. Esta dinámica subraya la naturaleza fluida de la tecnología de IA, donde las mejoras continuas pueden alterar los resultados de experimentos a largo plazo, complicando la evaluación comparativa.
Los LLM no son malos inversores por sí mismos; fallan cuando reciben instrucciones vagas, replicando errores humanos en lugar de superarlos.
El papel crítico de los prompts
El estudio reveló que el factor más determinante para el éxito o fracaso de las predicciones de IA no fue la sofisticación intrínseca de los modelos, sino la calidad de las instrucciones proporcionadas. Los investigadores probaron tres enfoques diferentes de prompts: básicos (como 'dime las mejores acciones del Ibex35'), contextuales (con información sobre condiciones económicas) y estructurados (con criterios específicos de análisis). Los prompts vagos y genéricos produjeron resultados inconsistentes y a menudo deficientes, mientras que los prompts detallados y bien estructurados mejoraron significativamente la precisión predictiva. Esto sugiere que el problema no radica en que los LLM sean 'malos inversores', sino en que la mayoría de los usuarios los emplean con instrucciones poco claras, replicando errores humanos en lugar de superarlos.
Resultados de rendimiento y comparativas
A lo largo del período de diez meses, el rendimiento de los modelos varió considerablemente, sin que ninguno demostrara una ventaja consistente sobre los demás. En algunos meses, ciertos modelos lograron identificar acciones ganadoras con precisión notable, superando incluso a estrategias de referencia basadas en análisis técnico simple. Sin embargo, en otros períodos, las predicciones fallaron estrepitosamente, resultando en pérdidas virtuales significativas. El estudio no publicó cifras exactas de rendimiento porcentual, pero destacó que la volatilidad de los resultados era alta, reflejando la imprevisibilidad inherente de los mercados. Curiosamente, los modelos mostraron cierta capacidad para detectar tendencias a corto plazo en sectores específicos, como energía o tecnología, pero su desempeño en predicciones a más largo plazo o durante eventos macroeconómicos disruptivos fue limitado.
Implicaciones para reguladores y el sector financiero
La CNMV, como organismo regulador, enfatizó en su informe los riesgos asociados con confiar ciegamente en la IA para decisiones de inversión. El estudio sirve como una advertencia contra las promesas exageradas de 'riqueza automática' que circulan en línea, destacando que la IA, en su estado actual, es una herramienta complementaria más que un reemplazo para el juicio humano experto. Para los reguladores, los hallazgos sugieren la necesidad de desarrollar marcos que aborden la transparencia algorítmica, la responsabilidad en decisiones automatizadas y la educación del inversor sobre los límites de la tecnología. En el sector financiero, instituciones como bancos y fondos de inversión podrían utilizar estos insights para refinar sus propios sistemas de trading algorítmico, integrando LLMs con metodologías más robustas de análisis cuantitativo.
Perspectivas de futuro y tendencias en IA financiera
Mirando hacia adelante, el experimento de la CNMV señala varias direcciones para la evolución de la IA en finanzas. Primero, la importancia creciente del 'prompt engineering' como disciplina especializada, donde profesionales entrenados diseñan instrucciones optimizadas para maximizar la utilidad de los LLMs. Segundo, la integración de IA con otras tecnologías, como análisis de sentimiento en redes sociales o datos alternativos, podría mejorar la precisión predictiva. Tercero, el desarrollo de modelos específicos para dominios financieros, entrenados con datos de mercado históricos y regulaciones sectoriales, podría superar las limitaciones de los modelos generalistas probados en el estudio. Empresas como GLM están avanzando en esta dirección, ofreciendo soluciones de IA más adaptadas a necesidades empresariales y financieras.
“Los modelos de lenguaje grande no son malos inversores per se. Son malos siguiendo instrucciones vagas, que es justo como los usa la mayoría de la gente.”
Conclusiones y recomendaciones para inversores
El mensaje clave del estudio es claro: la inteligencia artificial tiene el potencial de transformar la inversión, pero no es una varita mágica. Los inversores individuales deben abordar las herramientas de IA con escepticismo saludable, entendiendo que su efectividad depende en gran medida de cómo se utilizan. Se recomienda combinar insights de IA con investigación fundamental, diversificación de carteras y asesoramiento profesional cuando sea necesario. Además, la educación financiera debe evolucionar para incluir alfabetización en IA, enseñando a los usuarios a formular preguntas precisas y evaluar críticamente las respuestas generadas por máquinas. A medida que la tecnología continúa avanzando, estudios como este de la CNMV proporcionarán una base invaluable para separar el hype de la realidad en la intersección entre IA y mercados financieros.
“Los mercados están siempre mirando al futuro, no al presente.”
— Xataka
— TrendRadar Editorial