Gemma 4: el día que Google decidió abrirse de verdad

Nibaldo Pino Araya

| 17 junio, 2026

El 2 de abril de 2026, Google DeepMind lanzó Gemma 4. Cuatro modelos. Todos bajo licencia Apache 2.0. Todos construidos con la misma investigación y tecnología que alimenta a Gemini 3, el modelo más potente de Google.

Si solo te quedas con los benchmarks, te pierdes la noticia. Los números son excelentes – el modelo de 31B parámetros alcanza un 89.2% en razonamiento matemático avanzado (AIME 2026), un 80% en programación competitiva (LiveCodeBench), y se sitúa como el tercer mejor modelo open source del mundo en Arena AI. Pero la verdadera noticia es otra: Google ha dejado de ponerse trabas a sí mismo y ha liberado sus modelos con la misma licencia permisiva que usa el resto del ecosistema open source.

Y eso, para las empresas, lo cambia todo.

1. ¿Qué es Gemma y por qué debería importarte?

Gemma es la familia de modelos abiertos de Google DeepMind. Nació en 2024 como la hermana pequeña y abierta de Gemini: mismos laboratorios, misma investigación, pero pesos públicos y licencia que permite usar, modificar y redistribuir.

Desde entonces, los desarrolladores han descargado Gemma más de 400 millones de veces y han creado más de 100,000 variantes (fine-tunes, adaptaciones, especializaciones). Es lo que Google llama el «Gemmaverse»: un ecosistema vibrante de modelos derivados para sanidad, educación, derecho, programación, y prácticamente cualquier dominio.

Con Gemma 4, Google da el mayor salto generacional de la familia. Y lo hace, por primera vez, sin el lastre de una licencia restrictiva.

2. La familia Gemma 4: cuatro modelos, dos mundos

Gemma 4 llega en cuatro tamaños, organizados en dos categorías:

Nube y workstation: potencia sin concesiones

Modelo	Parámetros	Arquitectura	Contexto	Para qué
Gemma 4 31B	31B (denso)	Dense Transformer	256K tokens	Máxima calidad, fine-tuning, tareas complejas
Gemma 4 26B MoE	26B total, 3.8B activos	Mixture of Experts (128 expertos)	256K tokens	Velocidad y eficiencia, producción, agentes

Edge y móvil: inteligencia en el bolsillo

Modelo	Parámetros efectivos	Capacidades extra	Contexto	Para qué
Gemma 4 E4B	4B efectivos (~8B totales)	Audio nativo, visión	128K tokens	Portátiles, tablets, tareas locales
Gemma 4 E2B	2B efectivos (~5B totales)	Audio nativo, visión	128K tokens	Móviles, IoT, Raspberry Pi, Jetson

3. La arquitectura: qué hay dentro de Gemma 4

3.1 El truco del MoE: 128 expertos diminutos

El modelo de 26B merece una explicación aparte. Mientras que otros modelos MoE usan pocos expertos grandes (típicamente 8), Google optó por 128 expertos pequeños. En cada inferencia, solo se activan 8 expertos más uno compartido siempre activo.

El resultado: un modelo que rinde como uno de 26B pero consume como uno de 4B. En términos prácticos, esto significa que puedes ejecutarlo en una GPU de consumo (una RTX 4090, por ejemplo) y obtener velocidades de inferencia muy altas con calidad casi idéntica al modelo denso de 31B.

Para empresas que sirven agentes, asistentes de código o pipelines de documentos, el MoE es probablemente la opción más sensata: misma inteligencia, menos GPUs, menos coste.

3.2 Per-Layer Embeddings: el truco de los modelos Edge

Los modelos E2B y E4B llevan una innovación curiosa: cada capa del decoder tiene su propia tabla de embeddings pequeña. Esto hace que el modelo en disco pese más de lo que parece (el E2B tiene 5.1B parámetros totales pero se comporta como uno de 2.3B), pero durante la inferencia el coste computacional es mínimo.

El beneficio: modelos que caben en un móvil pero entienden texto, imágenes y audio de forma nativa.

3.3 Atención híbrida para contexto largo

Los modelos de 31B y 26B usan un mecanismo de atención híbrido: ventanas deslizantes locales intercaladas con atención global completa, y la última capa siempre global. Esto permite manejar 256K tokens de contexto (aproximadamente 500 páginas de texto) sin que la memoria se dispare.

Para los modelos edge, el contexto es de 128K tokens, más que suficiente para documentos largos, repositorios de código o conversaciones multi-turno.

4. Los benchmarks: qué significan los números

Aquí están los datos. Sin florituras.

Benchmark	Qué mide	Gemma 4 31B	Gemma 4 26B MoE	Gemma 4 E4B	Gemma 3 27B (referencia)
AIME 2026	Razonamiento matemático avanzado	89.2%	88.3%	42.5%	20.8%
LiveCodeBench v6	Programación competitiva	80.0%	77.1%	52.0%	29.1%
GPQA Diamond	Conocimiento científico (nivel posgrado)	84.3%	82.3%	58.6%	42.4%
MMLU Pro	Conocimiento multidisciplinar	85.2%	82.6%	69.4%	67.6%
MMMU Pro	Razonamiento multimodal	76.9%	73.8%	52.6%	49.7%
τ2-bench	Uso de herramientas por agentes	86.4%	85.5%	57.5%	6.6%
Arena AI (texto)	Preferencia humana (ELO)	#3 open source	#6 open source	–	–

Tres cosas destacan:

El salto generacional es brutal. Gemma 3 27B sacaba un 20.8% en AIME. Gemma 4 31B saca un 89.2%. Eso no es una mejora incremental: es un cambio de paradigma.
El modelo de 26B MoE sigue muy de cerca al de 31B. La diferencia en benchmarks es de 1-3 puntos porcentuales, pero el coste de inferencia es radicalmente menor. Para producción, el MoE es la opción pragmática.
Los modelos edge son sorprendentemente capaces. El E4B (4B efectivos) supera al Gemma 3 27B del año pasado en casi todos los benchmarks. Un modelo que cabe en un móvil rinde más que el mejor modelo abierto de Google de hace un año. Déjalo reposar un momento.

5. La licencia: Apache 2.0, por fin

Durante dos años, las empresas que querían usar Gemma tenían que llamar a su departamento legal. La licencia personalizada de Google incluía restricciones de uso, cláusulas que Google podía modificar unilateralmente, y exclusiones por «uso dañino» que requerían interpretación jurídica.

Muchas empresas simplemente eligieron Mistral o Qwen en su lugar. No porque fueran mejores modelos, sino porque no tenían que pedir permiso a los abogados para usarlos.

Con Gemma 4, eso se acabó. Licencia Apache 2.0 estándar. La misma que usa el resto del ecosistema open source. Sin cláusulas personalizadas. Sin restricciones a la redistribución. Sin limitaciones al despliegue comercial.

Esto significa:

Puedes hacer fine-tuning y vender el modelo resultante

Puedes desplegarlo on-premise, en tu nube privada o en la nube pública que quieras

Puedes redistribuirlo como parte de tu producto

No necesitas revisión legal para empezar a usarlo

El timing es especialmente significativo: mientras Alibaba ha empezado a cerrar sus modelos Qwen más recientes, Google se mueve en la dirección contraria. Contra-intuitivo, estratégico, y muy relevante para empresas.

6. Multimodalidad nativa: más allá del texto

Una de las decisiones arquitectónicas más importantes de Gemma 4 es que la multimodalidad no es un añadido, es parte del diseño.

Visión

Los cuatro modelos procesan imágenes de forma nativa con ratios de aspecto variables. El nuevo encoder visual soporta presupuestos de tokens configurables: desde 70 tokens por imagen (para clasificación rápida) hasta 1,120 tokens (para OCR, análisis de documentos y comprensión visual detallada).

Esto permite casos de uso como:

Extraer datos de facturas escaneadas

Analizar gráficos y dashboards

Describir imágenes para accesibilidad

Razonar sobre capturas de pantalla y diagramas técnicos

Audio (modelos Edge)

Los modelos E2B y E4B incluyen procesamiento de audio nativo: reconocimiento de voz (ASR) y traducción de voz a texto. El encoder de audio se ha comprimido de 681M a 305M parámetros, y la latencia de frame ha bajado de 160ms a 40ms.

Para aplicaciones empresariales – sanidad, servicio de campo, atención al cliente multilingüe – poder ejecutar ASR, traducción, razonamiento y llamadas a funciones en un solo modelo, en el dispositivo, sin conexión a internet, es un cambio arquitectónico real.

Function calling nativo

Todos los modelos incluyen soporte nativo para function calling, entrenado desde cero, no añadido con prompt engineering. Esto significa que los agentes construidos sobre Gemma 4 pueden interactuar con APIs, bases de datos y herramientas externas de forma fiable, sin los trucos de prompt que requerían generaciones anteriores.

7. Lo que esto significa para la empresa

7.1 Soberanía digital real

Con Apache 2.0, puedes ejecutar Gemma 4 donde quieras: en tus servidores, en tu nube privada, en dispositivos sin conexión. Tus datos nunca salen de tu infraestructura. Para sectores regulados (banca, sanidad, defensa, administración pública), esto no es un nice-to-have: es un requisito.

7.2 Fine-tuning sin límites

El modelo denso de 31B está diseñado específicamente como base para fine-tuning. Puedes entrenarlo con tus datos propios y crear un modelo especializado para tu dominio. Y gracias a Apache 2.0, el modelo resultante es tuyo. Puedes comercializarlo.

7.3 Eficiencia económica

El modelo MoE de 26B ofrece calidad casi idéntica al denso de 31B a una fracción del coste de inferencia. Para casos de uso con alto volumen (asistentes de código, procesamiento de documentos, chatbots empresariales), la diferencia en coste operativo es sustancial.

Además, Google Cloud ofrece despliegue serverless con Cloud Run + GPU: pagas solo por el tiempo de inferencia, sin mantener instancias GPU siempre encendidas. Para herramientas internas o aplicaciones de tráfico bajo/medio, esto cambia las matemáticas.

7.4 Del móvil al centro de datos con el mismo modelo

La familia Gemma 4 cubre todo el espectro de despliegue: desde un Raspberry Pi hasta un clúster de TPUs. Esto significa que puedes prototipar en local, desarrollar en la nube, y desplegar en el edge con la misma arquitectura de modelo. Sin reescribir pipelines, sin cambiar de proveedor.

7.5 Ecosistema desde el día 1

Gemma 4 tiene soporte inmediato en: Hugging Face, Ollama, vLLM, llama.cpp, LM Studio, MLX, NVIDIA NIM, Unsloth, Keras, Docker, Google AI Studio, Vertex AI, Colab, Android AICore, y más. No hay periodo de espera para que las herramientas se adapten: el ecosistema ya está listo.

8. La estrategia: ¿por qué Google se abre ahora?

Hay una lectura estratégica interesante. Durante años, Google mantuvo sus mejores modelos cerrados (Gemini) y sus modelos abiertos con restricciones (Gemma). La lógica era: «te damos algo bueno, pero no tan bueno como lo nuestro, y con condiciones».

Gemma 4 rompe esa lógica por tres razones:

El open source se ha vuelto imparable. Modelos como Llama, Qwen y Mistral han demostrado que lo abierto compite con lo cerrado. Google no quiere quedarse fuera de esa carrera.
El movimiento inverso de Alibaba. Cuando Qwen empezó a cerrar sus últimos modelos, Google vio una ventana: ser el proveedor confiable de modelos abiertos cuando otros se repliegan.
Google Cloud se beneficia. Cada empresa que hace fine-tuning de Gemma 4 y lo despliega en producción es un cliente potencial de Google Cloud. La licencia Apache 2.0 es el anzuelo; Vertex AI, Cloud Run y las TPUs son el negocio.

9. Los matices: lo que Gemma 4 no es

Para ser justos, hay que señalar las limitaciones:

No es un modelo frontier. El mejor Gemma 4 (31B) es el #3 en la categoría open source de Arena AI, no el #1 absoluto. Sigue habiendo modelos cerrados más potentes (Gemini 3, GPT-5.5, Claude Opus).

Google no ha abierto Gemini. Gemma 4 se beneficia de la investigación de Gemini 3, pero no es Gemini 3. La brecha entre lo abierto y lo cerrado sigue existiendo.

Qwen y otros compiten agresivamente. En el rango de parámetros de Gemma 4, hay alternativas muy capaces (Qwen 3.5, GLM-5, Kimi K2.5). La ventaja de Gemma 4 es más el conjunto (rendimiento + licencia + multimodalidad + ecosistema) que un solo benchmark.

No es para todo. Como señala Gartner, las empresas necesitan un portafolio: modelos abiertos para ciertas tareas, modelos propietarios para otras. Gemma 4 no reemplaza a Gemini 3 para los casos más exigentes.

10. Conclusión

Gemma 4 es el mejor lanzamiento open source de Google hasta la fecha. No solo por los números – que son excelentes – sino porque representa un cambio de filosofía: Google ha decidido competir en el terreno del open source con las mismas reglas que los demás.

Para las empresas, esto significa acceso a modelos de primer nivel con una licencia que no requiere pasar por legal, capacidades multimodales nativas, opciones de despliegue que van del móvil al centro de datos, y un ecosistema de herramientas maduro desde el día 1.

El movimiento es particularmente inteligente en un momento donde otros actores del open source están dando marcha atrás. Mientras Alibaba cierra Qwen, Google abre Gemma. Y en ese vacío que dejan otros, Gemma 4 tiene todas las papeletas para convertirse en la opción por defecto para empresas que quieren modelos abiertos, potentes y sin letra pequeña.

Gemma 4 con licencia Apache 2.0 quita el principal freno al open source en la empresa: ahora puedes desplegar el modelo en tu infraestructura, afinarlo con tus datos y ser dueño del resultado sin asteriscos legales. Pero pasar de «el modelo es abierto» a «el modelo aporta valor en producción» sigue exigiendo criterio: elegir el tamaño adecuado, preparar los datos de fine-tuning, dimensionar el hardware y montar la evaluación y el gobierno que lo sostienen.

En Raona ayudamos a las organizaciones a aprovechar ese terreno con cabeza: identificamos dónde un modelo abierto y afinado supera a alquilar inteligencia ajena, diseñamos la arquitectura de despliegue -cloud, edge o local- y de fine-tuning, y acompañamos a los equipos para que la adopción sea sólida, soberana y mantenible, no un experimento que nadie sabe operar.

Si tu organización está mirando Gemma 4, el open source o la soberanía de sus modelos y se pregunta por dónde empezar, hablémoslo. Sin humo. Te ayudamos a separar lo que ya es posible de lo que todavía es promesa, y a construir el primer caso de uso que de verdad mueve la aguja.

Nibaldo Pino Araya

Experto en IA y análisis de datos con 7+ años de experiencia en la industria y 9 en academia, apasionado por la innovación tecnológica y especializado en soluciones avanzadas de machine learning, NLP y visión por computador en Raona.

Nibaldo Pino Araya

Compartir en Redes Sociales