En abril de 2025, Google DeepMind presentó Gemini 2.5 Flash, la última iteración de su familia de modelos fundacionales. Esta generación combina un innovador mecanismo de razonamiento interno controlable, capacidades multimodales y una ventana de contexto sin precedentes, al mismo tiempo que mantiene un precio‑rendimiento extremadamente competitivo.
Capacidades y características clave
- Razonamiento híbrido (Thinking)
- Modelo configurado para ejecutar un chain‑of‑thought interno antes de responder, con un “presupuesto de pensamiento” personalizable de hasta 24 576 tokens.
- Permite mejorar la precisión en problemas complejos (matemáticas avanzadas, análisis científico, depuración de código) sin sacrificar velocidad.
- Tamaño y eficiencia
- Arquitectura heredera del Mixture‑of‑Experts de Gemini 1.5, optimizada para ofrecer desempeño cercano a los grandes LLM con menor cómputo.
- Coste aproximado de 0,15 USD/M tokens de entrada y entre 0,60 USD y 3,50 USD/M tokens de salida, dependiendo del nivel de “pensamiento” activado.
- Baja latencia y precio‑rendimiento
- Diseñado para entornos de alta demanda en tiempo real.
- Equilibra calidad y velocidad, siendo uno de los modelos más rápidos de Google para producción a gran escala.
- Multimodalidad nativa
- Entrada de texto, imágenes, audio y vídeo, con salida siempre en texto enriquecido (natural, código, JSON).
- Facilita tareas de interpretación visual y auditiva combinadas (p. ej., analizar un gráfico o resumir un fragmento de vídeo).
- Contexto extra‑largo
- Soporta hasta 1 000 000 tokens de entrada y genera respuestas de hasta 65 536 tokens.
- Idóneo para procesar libros enteros, repositorios de código o conversaciones extensas en una sola llamada.
- Integración de herramientas
- Capacidad nativa de ejecutar código, realizar búsquedas web y llamar funciones externas, habilitando la construcción de agentes autónomos.
Google lidera la guerra de la IA con Gemini 2.5 Pro y su estrategia integral
Google ha dado un nuevo paso hacia el liderazgo en IA gracias a una estrategia que combina modelos de vanguardia y hardware especializado:
Rendimiento impresionante y rentabilidad de Gemini 2.5 Pro
- Humanity/Last Exam (3 000 preguntas avanzadas):
- Gemini 2.5 Pro alcanza el primer puesto, superando a rivales como Claude 3.7 y DeepSeek R1.
- Costo por token muy competitivo: Flash (versión ligera) se ofrece a 0,15 USD/M, frente a los 3 USD/M de Grok 3 o Claude, y 10 USD/M de O4 Mini de OpenAI.
- Ventana de contexto:
- 1 000 000 tokens de entrada, comparado con los 200 000 tokens de O3 de OpenAI.
- La gran capacidad de entrada permite procesar colecciones extensas de datos en una sola consulta, aportando claridad en tareas complejas.
Ventaja tecnológica con las TPUs
- Google desarrolla sus propias TPUs (Tensor Processing Units), diseñadas como matrices de procesadores en red (systolic arrays) optimizados para operaciones matriciales masivas.
- A diferencia de GPUs de propósito general, las TPUs ejecutan multiplicaciones de matrices y acumulaciones de forma paralela y a muy baja latencia.
- La nueva generación Ironwood promete un ×10 de rendimiento respecto a la TPU v5p, mejorando además la eficiencia energética.
Datos orgánicos vs. datos sintéticos
- Google aprovecha su ingente reserva de datos orgánicos:
- Google Books, Search, y especialmente YouTube como fuente de lenguaje hablado y “sabiduría oral” en vídeo.
- Control de Android, que le otorga datos de uso y contextos de interacción únicos a nivel global.
- En contraste, otros modelos como DeepSeek R1 han entrenado con datos sintéticos (problemas y soluciones generadas automáticamente), lo que limita la riqueza contextual.
Rendimiento en desarrollo de software
Modelo | Éxito en pruebas complejas | Costo aproximado por token |
Gemini 2.5 Pro | 73 % | 6,30 USD |
O4 Mini (OpenAI) | ~?? % | 10 USD |
O3 (OpenAI) | 79 % | 111 USD |
Claude 3.7 (Anthropic) | <73 % | 3 USD |
En el Polyglot leaderboard de IDER, Gemini 2.5 Pro supera a competidores manteniendo costos muy reducidos.
Capacidad de razonamiento y retroalimentación
- Gracias a su RLHF (Reinforcement Learning with Human Feedback), Gemini 2.5 Pro explica errores y ofrece feedback constructivo, evitando “alucinaciones” y mejorando la confianza en entornos críticos.
Avance vertiginoso y futuro de la IA
- En enero 2025, un 8,5 % en el Humanity Last Exam (DeepSeek R1) era considerado un logro; en abril, Gemini 2.5 Pro obtiene 18,4 %, y O3 de OpenAI alcanza 20,3 %, pero a un costo exponencialmente mayor.
- Esto evidencia una curva de mejora acelerada en capacidades de IA, donde Google capitaliza su infraestructura y datos para liderar.
Comparativa con modelos anteriores y GPT‑4
Modelo | Razonamiento interno | Contexto máx. | Multimodalidad | Costo por M tokens | Latencia |
Gemini 1.0 Pro/Nano | No | 128 k tokens | Texto, imágenes | Alto | Media‑alta |
Gemini 1.5 Pro/Flash | No | 128 k–1 M | Texto, imágenes, audio, vídeo | Medio‑alto | Media |
Gemini 2.5 Flash | Sí | 1 000 000 | Todas las modalidades | Bajo‑medio | Muy baja |
OpenAI GPT‑4 Turbo | No | ~32 k tokens | Texto, imágenes | Alto | Media‑baja |
Gemini 2.5 Flash ofrece casi la misma calidad de GPT‑4 en tareas estándar, con precio y latencia significativamente menores y control granular de su “pensamiento” interno.
Principales casos de uso
- Asistentes de programación: generación y depuración de código avanzado.
- Generación y resumen de contenido: artículos, guiones y documentos largos.
- Chatbots avanzados: memorias de largo plazo y respuestas analíticas.
- Análisis de datos: extracción y estructuración de insights desde grandes volúmenes.
- Resolución de problemas: cálculos y razonamientos en varios pasos.
- IA agente: ejecución de código y búsquedas en web dentro de la misma consulta.
Disponibilidad e integraciones
- API Preview en Google AI Studio y Vertex AI (gemini-2.5-flash-preview-04-17).
- Actualizaciones en Bard/Gemini Advanced, Duet AI (Workspace), Search Generative Experience, Ads, y Android AICore.
- Próximo paso: General Availability en Google Cloud, con precios comerciales ajustados tras la fase de pruebas.
Reacciones de la industria
Expertos destacan la “innovación pragmática” del presupuesto de pensamiento, que permite “pagar solo por la inteligencia que necesitas”. Medios como VentureBeat y Medium subrayan que Google ha ganado terreno en precio‑rendimiento frente a OpenAI y Anthropic, gracias a sus TPUs e ingentes datos orgánicos. La comunidad de desarrolladores valora especialmente la ventana de contexto masivo y la reducción de costos.
Palabras al cierre
Gemini 2.5 Flash y su contraparte 2.5 Pro consolidan la posición de Google como líder tecnológico en IA, gracias a una estrategia integral que abarca desde hardware especializado (TPUs Ironwood) hasta modelos adaptables y datos orgánicos únicos. Con un equilibrio sin precedentes entre calidad, velocidad y costo, Google ofrece hoy la IA más accesible y capaz del mercado, marcando el rumbo para la próxima generación de aplicaciones inteligentes.