Gemini: una visión general de sus innovadoras características y modelos
Gemini es una familia de chatbots basados en inteligencia artificial desarrollada por Google. En este momento, Gemini ocupa el tercer lugar entre todos los chatbots en términos de cuota de mercado, solo por detrás de ChatGPT y Microsoft Copilot. Al mismo tiempo, Gemini sigue creciendo más rápido que sus competidores y ganando popularidad de forma constante: ocupa el cuarto lugar en términos de afluencia de nuevos usuarios, solo Claude crece más rápido entre los chatbots conocidos. En este artículo veremos la historia de Gemini, los modelos actuales, sus características y limitaciones.
Breve historia de Google Gemini
Google ha sido pionero en la arquitectura de grandes modelos de lenguaje y se basa en su sólida investigación para desarrollar sus propios modelos de inteligencia artificial.
- 2017: Los investigadores de Google presentan la arquitectura del transformador, que sustenta muchos de los grandes modelos de lenguaje actuales.
- 2020: La empresa presenta a Meena, un chatbot basado en redes neuronales con 2600 millones de parámetros, que Google afirmaba que era superior a todos los demás chatbots existentes en ese momento.
- 2021: Meena pasa a llamarse LaMDA (abreviatura de Language Model for Dialogue Applications) a medida que aumentan sus datos y su potencia informática.
- 2022: Se lanza un nuevo modelo de lenguaje llamado PaLM (Pathways Language Model), con capacidades más avanzadas en comparación con LaMDA.
- 2023: Durante el primer trimestre del año se lanza un chatbot llamado Google Bard, respaldado por una versión ligera y optimizada de LaMDA. Luego, en el segundo trimestre, introdujeron PaLM 2, que presenta una codificación mejorada, capacidades multilingües y habilidades de razonamiento mejoradas, que Bard adoptó posteriormente. Por último, en el último trimestre, Google anunció Gemini 1.0.
- 2024: Google cambia el nombre de Bard a Gemini y actualiza sus modelos de IA multimodal a la versión 1.5. Los modelos Gemini 2.0 se presentan en diciembre.
En abril de 2024, el director ejecutivo de Google DeepMind, Demis Hassabis, dijo que, con el tiempo, la empresa gastará más de 100 000 millones de dólares en el desarrollo de tecnología de inteligencia artificial.

Demis Hassabis
Características distintivas de Gemini
Cada chatbot tiene un conocimiento limitado de los acontecimientos recientes porque sus datos de entrenamiento abarcan solo un período de tiempo finito. Una fecha límite en el contexto de los chatbots se refiere al momento hasta el cual el modelo ha sido entrenado con datos y puede proporcionar información. Por ejemplo, si un chatbot tiene una fecha límite de octubre de 2023, significa que todo el conocimiento y los datos a los que tiene acceso son actuales solo hasta esa fecha. Los eventos, desarrollos o cambios que se hayan producido después de esa fecha no se reflejarán en las respuestas del chatbot. Es importante que los usuarios comprendan esta limitación, ya que afecta a la precisión y relevancia de la información proporcionada, especialmente en campos que cambian rápidamente, como la tecnología, la política o la actualidad. Sin embargo, Gemini puede sortear esta limitación accediendo y procesando información de búsquedas en línea a través de Google Search, proporcionando respuestas más actualizadas.
En consecuencia, es posible que los usuarios deban verificar la información de fuentes más recientes si buscan las últimas actualizaciones o perspectivas. A veces, Gemini le muestra fuentes y contenido relacionado dentro y debajo de su respuesta. Estos incluyen fuentes web con información similar y enlaces para que usted profundice. Gemini está diseñado para generar contenido original, pero si cita directamente y en profundidad una página web, verá comillas con la fuente citada y un enlace a esa página. Las fuentes y el contenido relacionado pueden incluir sitios web que Gemini haya citado o que estén relacionados con partes de su respuesta. Si la respuesta de Gemini incluye una miniatura de una imagen de la web, mostrará la fuente y proporcionará un enlace directo a ella.

Gemini se diseñó de forma multimodal desde el principio, lo que significa que se entrenó con múltiples tipos de datos, y ahora puede trabajar a la perfección con diferentes tipos de contenido. Como puede ver en la imagen de arriba, el bot puede incluir imágenes en sus respuestas. Gemini puede entender texto, audio, fragmentos de vídeo, notas escritas a mano, gráficos, diagramas, puede identificar objetos en fotos y, además, puede generar imágenes utilizando Imagen 3, el modelo de texto a imagen más avanzado de Google.
El chatbot también tiene amplias capacidades multilingües, ya que está disponible en 46 idiomas diferentes.
Modelos actuales, sus puntos fuertes y capacidades
Gemini ofrece diferentes modelos optimizados para casos de uso específicos. A continuación, se ofrece una breve descripción general de las variantes disponibles:
| Modelo | Entrada | Resultado | Descripción |
Gemini 2.0 Flash | Audio, imágenes, vídeos y texto | Texto, imágenes (próximamente) y audio (próximamente) | Funciones de última generación, velocidad y generación multimodal para una gran variedad de tareas |
Gemini 2.0 Flash Thinking | Texto, imágenes | Texto | Modelo de razonamiento mejorado que destaca en ciencias y matemáticas |
Gemini 1.5 Flash | Audio, imágenes, vídeos y texto | Texto | Rendimiento rápido y versátil en una amplia variedad de tareas |
Gemini 1.5 Flash-8B | Audio, imágenes, vídeos y texto | Texto | Tareas de gran volumen y menor inteligencia |
Gemini 1.5 Pro | Audio, imágenes, vídeos y texto | Texto | Tareas de razonamiento complejo que requieren más inteligencia |
Gemini 1.5 Flash incluye una ventana de contexto de 1 millón de tokens, y Gemini 1.5 Pro incluye una ventana de contexto de 2 millones de tokens, que es la más larga de cualquier modelo de lenguaje grande.
Un token equivale a unos 4 caracteres en los modelos Gemini. 100 tokens equivalen a unas 60-80 palabras en inglés.
En la práctica, 1 millón de tokens equivaldrían a:
- 50 000 líneas de código (con el estándar de 80 caracteres por línea).
- Transcripciones de más de 200 episodios de podcast de longitud media.
- 8 novelas en inglés de longitud media.
- Todos los mensajes de texto que has enviado en los últimos 5 años.
Gemini 1.5 Flash y Flash-8B | |
| Límite de entrada de token | 1,048,576 |
| Límite de salida de token | 8,192 |
| Número máximo de imágenes | 3,600 |
| Duración máxima del vídeo | 1 hora |
| Duración máxima del audio | Aproximadamente 9,5 horas |
Gemini 1.5 Pro logra un recuerdo casi perfecto en tareas de recuperación de contextos largos en todas las modalidades, lo que permite procesar con precisión documentos extensos, miles de líneas de código, horas de audio, vídeo y mucho más.
Gemini 1.5 Pro | |
| Límite de entrada de token | 2,097,152 |
| Límite de salida de token | 8,192 |
| Número máximo de imágenes | 7,200 |
| Duración máxima del vídeo | 2 horas |
| Duración máxima del audio | Aproximadamente 19 horas |
Cada imagen equivale a 258 tokens. Tipos de imágenes admitidos:
- PNG
- WEBP
- JPEG
- HEIC
- HEIF
Aunque no hay límites específicos para el número de píxeles de una imagen, aparte de la ventana de contexto de la modelo, las imágenes más grandes se reducen a una resolución máxima de 3072x3072 conservando su relación de aspecto original, mientras que las imágenes más pequeñas se amplían a 768x768 píxeles.
Capacidades de visión:
- Subtitular y responder preguntas sobre imágenes.
- Transcribir y razonar sobre archivos PDF, incluidos documentos largos de hasta 2 millones de tokens. Ventana de contexto.
- Describir, segmentar y extraer información de vídeos, incluidos fotogramas visuales y audio, de hasta 90 minutos de duración.

Gemini es capaz de reconocer correctamente todo el contenido escrito a mano y verificar el razonamiento.
Capacidades de audio de Gemini:
- Describir, resumir o responder preguntas sobre el contenido de audio.
- Proporcionar una transcripción del audio.
- Proporcionar respuestas o una transcripción sobre un segmento específico del audio.
Formatos de audio compatibles:
- WAV
- MP3
- FLAC
- OGG Vorbis
- AIFF
- AAC
Cada segundo de audio equivale a 25 tokens; por ejemplo, un minuto de audio equivale a 1500 tokens.
Gemini 2.0 Flash | |
| Límite de entrada de token | 1,048,576 |
| Límite de salida de token | 8,192 |
Gemini 2.0 Flash es el modelo más potente y versátil de la familia Gemini. Puede crear imágenes y generar voz de forma nativa, y en cuanto a rendimiento, supera a otros modelos en casi todos los puntos de referencia clave. Compruébelo usted mismo.
| Capacidad | Referencia | Descripción | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 2.0 Flash |
| General | MMLU-Pro | Evalúa la capacidad de los modelos de aprendizaje automático para comprender el lenguaje natural | 67.3% | 75.8% | 76.4% |
| Código | Natural2Code | Generación de código en Python, Java, C++, JS, Go | 79.8% | 85.4% | 92.9% |
| Código | Bird-SQL (Dev) | Evalúa la conversión de preguntas en lenguaje natural en SQL ejecutable | 45.6% | 54.4% | 56.9% |
| Factualidad | FACTS Grounding | Capacidad para proporcionar respuestas correctas y objetivas a los documentos y diversas solicitudes de los usuarios | 82.9% | 80.0% | 83.6% |
| Matemáticas | MATH | Problemas matemáticos desafiantes (incluidos álgebra, geometría, precálculo y otros) | 77.9% | 86.5% | 89.7% |
| Matemáticas | HiddenMath | Problemas matemáticos de nivel de competición | 47.2% | 52.0% | 63.0% |
| Razonamiento | GPQA (diamond) | Conjunto de preguntas desafiantes escritas por expertos en biología, física y química | 51.0% | 59.1% | 62.1% |
| Imagen | MMMU | Problemas de comprensión y razonamiento multimodal de nivel universitario multidisciplinar | 62.3% | 65.9% | 70.7% |
| Audio | CoVoST2 (21 lang) | Traducción automática de voz | 37.4 | 40.1 | 39.2 |
| Vídeo | EgoSchema (test) | Análisis de vídeo | 66.8% | 71.2% | 71.5% |
Gemini 2.0 Flash Thinking combina velocidad y rendimiento, lo que demuestra una notable experiencia en la resolución de problemas complejos tanto en matemáticas como en ciencias. Una ventana contextual de un millón de tokens permite un análisis más profundo de textos extensos. El pensamiento mejorado proporciona una mayor coherencia entre los pensamientos y las respuestas.
Gemini 2.0 Flash Thinking | |
| Límite de entrada de token | 1,048,576 |
| Límite de salida de token | 65,536 |
Observe la enorme ventana de salida de tokens. Permite al modelo no solo procesar solicitudes largas, sino también ofrecer respuestas extensas, lo que puede resultar útil para generar grandes fragmentos de código, por ejemplo.
Observe cómo Gemini 2.0 Flash Thinking supera a Gemini 1.5 Pro y Gemini 2.0 en matemáticas, ciencias y razonamiento multimodal. Puede que no sea tan versátil como esos dos modelos en general, pero en estos ámbitos específicos, Gemini 2.0 Flash Thinking no tiene rival.

Matemáticas, ciencias y razonamiento

Matemáticas y ciencias
Crítica
El chatbot Gemini tuvo un comienzo difícil cuando se lanzó en 2023. Los desarrolladores tenían demasiada prisa por lanzar un rival a ChatGPT. Y por eso la versión de lanzamiento del chatbot estaba plagada de errores. Los usuarios se quejaron de un gran número de errores fácticos e inexactitudes en las respuestas del bot.
Uno de los más destacados fue la controversia sobre la generación de imágenes. Gemini intentó presentar la máxima diversidad racial incluso cuando no era apropiado. Según el chatbot, así era el aspecto de los soldados alemanes en 1943:

Y así eran los senadores estadounidenses del siglo XIX:

Debido al descontento de los usuarios, las acciones de la empresa cayeron un 4,5 %, lo que equivale aproximadamente a una pérdida de 90 millones de dólares. Los desarrolladores también tuvieron que bloquear temporalmente la capacidad de generar imágenes de personas.
Tras la controversia en torno a la generación de imágenes, algunos usuarios empezaron a acusar a las respuestas de texto de Gemini de estar sesgadas hacia la izquierda. En uno de esos ejemplos, Gemini declaró que era «difícil decirlo con certeza» si Elon Musk o el dictador nazi Adolf Hitler tuvieron un mayor impacto negativo en la sociedad. Además, otros usuarios señalaron que Gemini parecía favorecer a los políticos de izquierdas y a cuestiones como la acción afirmativa y el derecho al aborto, mientras que se mostraba reacio a apoyar a figuras de derechas, el consumo de carne y los combustibles fósiles.
Pero hay que decir que todas estas dificultades ya han quedado atrás. Ahora Gemini no tiene problemas y es uno de los chatbots más exitosos y populares del mundo.