Obtén información sobre los modelos de Gemini

La familia de modelos Gemini se considera multimodal porque es capaz de procesar información de varias modalidades, incluidas imágenes, videos y texto. Por ejemplo, puedes enviarle a un modelo de Gemini una foto de una bandeja de galletas y pedirle una receta para preparar esas galletas.

Instrucción Respuesta
Give me a recipe for these cookies.

fotografía de varias galletas con chispas de chocolate
**INGREDIENTS**
- 1 c. (2 sticks) unsalted butter, softened
- 3/4 c. granulated sugar
- 3/4 c. brown sugar, packed
- 1 tsp . vanilla extract
- 2 large eggs
- 2 1/4 c. all-purpose flour
- 1 tsp. baking soda
- 1 tsp. salt
...

Puedes interactuar con la familia de modelos de Gemini usando el Gemini API que proporciona Vertex AI en Google Cloud. En el caso de las apps web y para dispositivos móviles, puedes usar los SDK de Vertex AI in Firebase para llamar a la API de Gemini y también interactuar con los modelos de Gemini directamente desde tu app.

En esta página, se proporciona la siguiente información sobre los modelos de Gemini:

  • Comparación de alto nivel de los casos de uso de los diversos modelos de Gemini, incluidos sus tipos de entrada compatibles.

  • Comparación de los detalles de cada modelo, por ejemplo, la cantidad máxima de tokens de entrada o la duración máxima del video.

  • Descripción de cómo se controla la versión de los modelos de Gemini, en particular, sus versiones estables, actualizadas automáticamente y de vista previa.

  • Son listas de nombres de modelos disponibles que se incluyen en tu código durante la inicialización.

  • Es la lista de los idiomas admitidos para los modelos de Gemini.

Modelos disponibles

Puedes usar cualquiera de los siguientes modelos de Gemini con Vertex AI in Firebase:

  • Gemini 1.5 Flash
    Es un modelo multimodal que admite los mismos tipos de entrada y salida que 1.5 Pro, pero con una comprensión del contexto a largo plazo de 1 millón de tokens. Gemini 1.5 Flash está diseñado específicamente para aplicaciones rentables de gran volumen.

  • Gemini 1.5 Pro
    Modelo multimodal que admite agregar archivos de imagen, audio, video y PDF en instrucciones de texto o chat para una respuesta de texto o código. Además, admite la comprensión del contexto a largo plazo con 2 millones de tokens.

  • Gemini 1.0 Pro Vision
    Es un modelo multimodal diseñado para controlar texto, así como imágenes y video para una respuesta de texto o código. No se puede usar para chatear.

  • Gemini 1.0 Pro
    Es un modelo diseñado para manejar tareas de lenguaje natural, chat de varios turnos con texto y código, y generación de código.

Ir a los nombres de los modelos para incluirlos en tu código

Casos de uso y capacidades de cada modelo

Cada modelo de Gemini tiene diferentes capacidades para admitir varios casos de uso. Puedes obtener más información en la documentación de Google Cloud sobre cada uno de los modelos de Gemini.

Entradas y salidas compatibles para cada modelo

Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision Gemini 1.0 Pro
Tipos de entrada
Texto
Código
Imagen
PDF
Video (solo fotogramas)
Video (fotogramas y audio)
Audio
Tipos de salida
Texto
Resultados estructurados (como JSON) con el esquema de respuesta
Código

Para obtener información sobre los tipos de archivos compatibles, consulta Archivos de entrada y requisitos compatibles para Vertex AI Gemini API.

Funciones generales y compatibles de cada modelo

Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision Gemini 1.0 Pro
Generación de texto a partir de una entrada de solo texto
Generación de texto a partir de entradas multimodales
Resultado estructurado (como JSON) con el esquema de respuesta
Chat de varios turnos
Llamada a función
Llamadas a funciones básicas
Llamadas a función paralelas
Modo de llamada a función
Recuento de tokens y caracteres facturables
Instrucciones del sistema

Información detallada sobre cada modelo

Propiedad Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision Gemini 1.0 Pro
Límite total de tokens (entrada y salida combinadas) * 1,048,576 tokens 2,097,152 tokens 16,384 tokens 32,760 tokens
Límite de tokens de salida * 8,192 tokens 8,192 tokens 2,048 tokens 8,192 tokens
Cantidad máxima de imágenes por solicitud 3,000 imágenes 3,000 imágenes 16 imágenes N/A
Tamaño máximo de la imagen codificada en base64 7 MB 7 MB 7 MB N/A
Tamaño máximo del PDF 30 MB 30 MB 30 MB N/A
Cantidad máxima de archivos de video por solicitud 10 archivos de video 10 archivos de video 1 archivo de video N/A
Duración máxima del video (solo fotogramas) ~60 minutos de video ~60 minutos de video 2 minutos N/A
Duración máxima del video (fotogramas y audio) ~45 minutos de video ~45 minutos de video N/A N/A
Cantidad máxima de archivos de audio por solicitud 1 archivo de audio 1 archivo de audio N/A N/A
Duración máxima del audio Aprox. 8.4 horas de audio Aprox. 8.4 horas de audio N/A N/A

* En todos los modelos de Gemini, un token equivale a aproximadamente 4 caracteres, por lo que 100 tokens son entre 60 y 80 palabras en inglés. Puedes determinar el recuento total de tokens en tus solicitudes con countTokens.

Obtén información sobre los tipos de archivos admitidos, cómo especificar el tipo de MIME y cómo asegurarte de que tus archivos y solicitudes multimodales cumplan con los requisitos y sigan las prácticas recomendadas en Archivos de entrada admitidos y requisitos para Vertex AI Gemini API.

Control de versiones de los modelos

Los modelos de Gemini se ofrecen en versiones estables, actualizadas automáticamente y de vista previa.

  • Las versiones estables se consideran de disponibilidad general.

    • Las versiones estables tienen nombres de modelos a los que se les agrega un número de versión específico de tres dígitos, por ejemplo, gemini-1.5-pro-002.
  • Las versiones actualizadas automáticamente siempre apuntan a la versión estable más reciente de ese modelo. Si se lanza una nueva versión estable, la versión actualizada automáticamente comienza a apuntar automáticamente a esa nueva versión estable.

    • Las versiones actualizadas automáticamente tienen nombres de modelos sin ningún tipo de terminación, por ejemplo, gemini-1.5-pro.
  • Las versiones de vista previa tienen funciones nuevas y se consideran no estables. Ten en cuenta que las versiones preliminares siempre apuntan a la versión preliminar más reciente de ese modelo. Si se lanza una versión preliminar nueva, cualquier versión preliminar existente comienza a apuntar automáticamente a esa versión preliminar nueva.

    • Las versiones preliminares tienen nombres de modelos que terminan con -preview junto con la fecha de lanzamiento inicial del modelo (-MMDD), por ejemplo, gemini-1.5-pro-preview-0409 (lanzado el 9 de abril de 2024).

Obtén más información sobre las versiones de modelos de Gemini disponibles y su ciclo de vida en la documentación de Google Cloud.

Nombres de modelos disponibles

Los nombres de los modelos son los valores explícitos que incluyes en tu código durante la inicialización del modelo generativo (que es un paso obligatorio para llamar a Gemini API). Para ver ejemplos de inicialización en tu idioma, consulta la guía de introducción.

Nombres de los modelos Gemini 1.5 Flash

Nombre del modelo Descripción Etapa de lanzamiento Fecha de lanzamiento inicial Fecha de descontinuación
Versiones estables
gemini-1.5-flash-002 La versión estable más reciente de Gemini 1.5 Flash Disponibilidad general 2024-09-24 A partir del 24 de septiembre de 2025
gemini-1.5-flash-001 Versión estable inicial de Gemini 1.5 Flash Disponibilidad general 2024-05-24 A partir del 24/05/2025
Versión actualizada automáticamente
gemini-1.5-flash Hace referencia a la versión estable más reciente de Flash 1.5
(actualmente, gemini-1.5-flash-002).
Disponibilidad general 2024-09-24 ---

Nombres de los modelos de Gemini 1.5 Pro

Nombre del modelo Descripción Etapa de lanzamiento Fecha de lanzamiento inicial Fecha de descontinuación
Versiones estables
gemini-1.5-pro-002 La versión estable más reciente de Gemini 1.5 Pro Disponibilidad general 2024-09-24 A partir del 24 de septiembre de 2025
gemini-1.5-pro-001 Versión estable inicial de Gemini 1.5 Pro Disponibilidad general 2024-05-24 A partir del 24/05/2025
Versión actualizada automáticamente
gemini-1.5-pro Hace referencia a la versión estable más reciente de 1.5 Pro
(actualmente, gemini-1.5-pro-002).
Disponibilidad general 2024-09-24 ---

Nombres de los modelos Gemini 1.0 Pro Vision

Nombre del modelo Descripción Etapa de lanzamiento Fecha de lanzamiento inicial Fecha de descontinuación
Versiones estables
gemini-1.0-pro-vision-001 La versión estable más reciente de Gemini 1.0 Pro Vision Disponibilidad general 2024-02-15 No antes del 15/02/2025
Versión actualizada automáticamente
gemini-1.0-pro-vision Hace referencia a la versión estable más reciente de 1.5 Pro Vision
(actualmente, gemini-1.5-pro-vision-001).
Disponibilidad general 2024-01-04 ---

Nombres de los modelos Gemini 1.0 Pro

Nombre del modelo Descripción Etapa de lanzamiento Fecha de lanzamiento inicial Fecha de descontinuación
Versiones estables
gemini-1.0-pro-002 La versión estable más reciente de Gemini 1.0 Pro Disponibilidad general 2024-04-09 A partir del 9/04/2025
gemini-1.0-pro-001 Versión estable de Gemini 1.0 Pro Disponibilidad general 2024-02-15 No antes del 15/02/2025
Versión actualizada automáticamente
gemini-1.0-pro Indica la versión estable más reciente de 1.0 Pro
(actualmente, gemini-1.0-pro-002).
Disponibilidad general 2024-02-15 ---

Idiomas compatibles

  • Todos los modelos de Gemini pueden comprender y responder en los siguientes idiomas:

    Árabe (ar), bengalí (bn), búlgaro (bg), chino simplificado y tradicional (zh), croata (hr), checo (cs), danés (da), neerlandés (nl), inglés (en), estonio (et), finlandés (fi), francés (fr), alemán (de), griego (el), hebreo (iw), hindi (hi), húngaro (hu), indonesio (id), italiano (it), japonés (ja), coreano (ko), letón (lv), lituano (lt), noruego (no), (pl), portugués (pt), rumano (ro), ruso (ru), serbio (sr), eslovaco (sk), esloveno (sl), español (es), swahili (sw), sueco (sv), tailandés (th), turco (tr), ucraniano (uk) y vietnamita (vi)

  • Los modelos Gemini 1.5 Pro y Gemini 1.5 Flash pueden entender y responder en los siguientes idiomas adicionales:

    Afrikaans (af), Amharic (am), Assamese (as), Azerbaijani (az), Belarusian (be), Bosnian (bs), Catalan (ca), Cebuano (ceb), Corsican (co), Welsh (cy), Dhivehi (dv), Esperanto (eo), Basque (eu), Persian (fa), Filipino (Tagalog) (fil), Frisian (fy), Irish (ga), Scots Gaelic (gd), Galician (gl), Gujarati (gu), Hausa (ha), Hawaiian (haw), Hmong (hmn), Haitian Creole (ht), Armenian (hy), Igbo (ig), Icelandic (is), Javanese (jv), Georgian (ka), Kazakh (kk), Khmer (km), Kannada (kn), Krio (kri), Kurdish (ku), Kyrgyz (ky), Latin (la), Luxembourgish (lb), Lao (lo), Malagasy (mg), Maori (mi), Macedonian (mk), Malayalam (ml), Mongolian (mn), Meiteilon (Manipuri) (mni-Mtei), Marathi (mr), Malay (ms), Maltese (mt), Myanmar (Burmese) (my), Nepali (ne), Nyanja (Chichewa) (ny), Odia (Oriya) (or), Punjabi (pa), Pashto (ps), Sindhi (sd), Sinhala (Sinhalese) (si), Samoan (sm), Shona (sn), Somali (so), Albanian (sq), Sesotho (st), Sundanese (su), Tamil (ta), Telugu (te), Tajik (tg), Uyghur (ug), Urdu (ur), Uzbek (uz), Xhosa (xh), Yiddish (yi), Yoruba (yo), Zulu (zu)

Próximos pasos

Prueba las funciones de Gemini API