A família de modelos Gemini é considerada multimodal porque é capaz de processamento de informações de várias modalidades, incluindo imagens, vídeos, e texto. Por exemplo, você pode enviar a um modelo do Gemini a foto de um prato de biscoitos e pedir para ele dar uma receita para você.
Comando | Resposta |
Mostre um roteiro para esses cookies. |
**INGREDIENTES** - 1 c. (2 palitos) manteiga sem sal e suave - 3/4 de xícara de açúcar granulado - 3/4 de xícara de açúcar mascavo, embalado - 1 colher de chá. extrato de baunilha - 2 ovos grandes - 2 1/4 de xícara de farinha de trigo - 1 colher de chá de bicarbonato de sódio - 1 colher de chá de sal ... |
É possível interagir com a família de modelos Gemini usando o Gemini API fornecido por Vertex AI em Google Cloud. Para apps da Web e para dispositivos móveis, SDKs do Vertex AI in Firebase para chamar a API Gemini e interagir com os Gemini diretamente do seu app.
Esta página traz as seguintes informações sobre os modelos Gemini:
Comparação detalhada dos casos de uso dos vários modelos do Gemini incluindo os tipos de entrada compatíveis.
Comparação dos detalhes de cada modelo, por exemplo tokens de entrada máximos ou duração máxima do vídeo.
Descrição de como os modelos do Gemini têm controle de versões, especificamente as versões estáveis, atualizadas automaticamente e de pré-lançamento.
Listas de nomes de modelos disponíveis para incluir no código durante a inicialização.
Lista de idiomas compatíveis com os modelos do Gemini.
Modelos disponíveis
Você pode usar qualquer um dos seguintes modelos do Gemini com Vertex AI in Firebase:
Gemini 1.5 Flash
Modelo multimodal que oferece suporte à mesma entrada e saída como o 1.5 Pro, mas com uma compreensão de longo contexto de 1 milhão de tokens. O Gemini 1.5 Flash foi projetado especificamente para aplicativos de alto volume aplicativos conteinerizados.Gemini 1.5 Pro
Um modelo multimodal que oferece suporte à adição de imagem, áudio, vídeo e arquivos PDF em comandos de texto ou chat para uma resposta de texto ou código. Além disso, ele oferece suporte à compreensão de contexto longo com 2 milhões de tokens.Gemini 1.0 Pro Vision
Modelo multimodal projetado para lidar com texto e imagens e vídeo para uma resposta de texto ou código. Não pode ser usado para chat.Gemini 1.0 Pro
Modelo projetado para processar tarefas de linguagem natural, com várias interações conversar com texto, código e geração de código.
Acesse os nomes dos modelos para incluir no seu código
Casos de uso e recursos para cada modelo
Cada modelo do Gemini tem recursos diferentes para oferecer suporte a vários casos de uso. Para saber mais, consulte a documentação do Google Cloud sobre cada um dos Modelos do Gemini.
Entrada e saída compatíveis com cada modelo
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|---|
Tipos de entrada | ||||
Texto | ||||
Código | ||||
Imagem | ||||
Vídeo (somente frames) | ||||
Vídeo (frames e áudio) | ||||
Áudio | ||||
Tipos de saída | ||||
Texto | ||||
Código |
Para saber mais sobre os tipos de arquivo aceitos, consulte Arquivos de entrada compatíveis e requisitos para Vertex AI Gemini API.
Recursos compatíveis e recursos gerais de cada modelo
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||
---|---|---|---|---|---|
Geração de texto usando comandos somente de texto | |||||
Geração de texto usando comandos multimodais | |||||
Saída JSON (modo de esquema restrito) (em breve nos SDKs do Vertex AI in Firebase) |
|||||
Chat multiturno | |||||
Chamadas de função | |||||
Chamada de função básica | |||||
Chamada de função paralela | |||||
Modo da chamada de função | |||||
Contar tokens e caracteres faturáveis | |||||
Instruções do sistema |
Informações detalhadas sobre cada modelo
Propriedade | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|---|
Limite total de tokens (entrada e saída combinadas) * | 1.048.576 tokens | 2.097.152 tokens | 16.384 tokens | 32.760 tokens |
Limite de tokens de saída * | 8.192 tokens | 8.192 tokens | 2.048 tokens | 8.192 tokens |
Número máximo de imagens por solicitação | 3.000 imagens | 3.000 imagens | 16 imagens | N/A |
Tamanho máximo da imagem codificada em base64 | 7 MB | 7 MB | 7 MB | N/A |
Tamanho máximo do PDF | 30 MB | 30 MB | 30 MB | N/A |
Número máximo de arquivos de vídeo por solicitação | 10 arquivos de vídeo | 10 arquivos de vídeo | 1 arquivo de vídeo | N/A |
Duração máxima do vídeo (somente frames) | Aprox. 60 minutos de vídeo | Aprox. 60 minutos de vídeo | 2 minutos | N/A |
Duração máxima do vídeo (frames e áudio) | Aprox. 45 minutos de vídeo | Aprox. 45 minutos de vídeo | N/A | N/A |
Número máximo de arquivos de áudio por solicitação | 1 arquivo de áudio | 1 arquivo de áudio | N/A | N/A |
Duração máxima do áudio | Cerca de 8,4 horas de áudio | Cerca de 8,4 horas de áudio | N/A | N/A |
* Para todos os modelos do Gemini, um token equivale a cerca de quatro caracteres,
Portanto, 100 tokens equivalem a cerca de 60 a 80 palavras em inglês. É possível determinar a contagem total
de tokens nas solicitações
countTokens
.
Aqui você encontra informações ainda mais detalhadas sobre os modelos e arquivos de entrada:
Saiba mais sobre o diferenças entre os modelos multimodais na documentação de Google Cloud.
Saiba mais sobre os tipos de arquivo compatíveis, como especificar o tipo MIME e criar certifique-se de que seus arquivos e solicitações multimodais atendam aos requisitos e sigam práticas recomendadas em Arquivos de entrada compatíveis e requisitos para Vertex AI Gemini API.
Controle de versões dos modelos
Os modelos do Gemini são oferecidos nos modos estável, atualizado automaticamente e pré-lançamento. mais recentes.
As versões estáveis são consideradas com disponibilidade geral.
- As versões estáveis têm nomes de modelo anexados com um
um número de versão de três dígitos, por exemplo
.gemini-1.0-pro-001
- As versões estáveis têm nomes de modelo anexados com um
um número de versão de três dígitos, por exemplo
As versões atualizadas automaticamente sempre apontam para a versão estável mais recente do esse modelo; se uma nova versão estável for lançada, a versão atualizada automaticamente começa a apontar automaticamente para essa nova versão estável.
- As versões atualizadas automaticamente têm nomes de modelo sem
apêndice, por exemplo
.gemini-1.0-pro
- As versões atualizadas automaticamente têm nomes de modelo sem
apêndice, por exemplo
As versões de pré-lançamento têm novos recursos e são consideradas não estáveis. As versões de visualização sempre apontam para a versão de pré-lançamento mais recente do esse modelo; se uma nova versão de pré-lançamento for lançada, qualquer versão de visualização existente começa a apontar automaticamente para essa nova versão de visualização.
- As versões de pré-lançamento têm nomes de modelos anexados com
junto com a versão inicial do modelo data (-preview
), por exemplo-MMDD
(em inglês) (lançado em 9 de abril de 2024).gemini-1.5-pro-preview-0409
- As versões de pré-lançamento têm nomes de modelos anexados com
Saiba mais sobre o versões disponíveis do modelo Gemini e o ciclo de vida delas na documentação de Google Cloud.
Nomes de modelos disponíveis
Nomes de modelos são os valores explícitos que você inclui no código durante inicial do modelo generativo (que é uma etapa necessária para chamar a função Gemini API). Para ver exemplos de inicialização para sua linguagem, consulte a guia para iniciantes.
Nomes de modelos do Flash Gemini 1.5
Nome do modelo | Descrição | Fase de lançamento | Data de lançamento inicial | Data de desativação |
---|---|---|---|---|
Versões estáveis | ||||
gemini-1.5-flash-001 |
Versão estável mais recente do Gemini 1.5 Flash | Disponibilidade geral | 2024-05-24 | Até 24/05/2025 |
Versão atualizada automaticamente | ||||
gemini-1.5-flash |
Aponta para a versão estável mais recente do Flash 1.5 (atualmente gemini-1.5-flash-001 |
Disponibilidade geral | 2024-05-24 | --- |
Versões de pré-lançamento | ||||
gemini-1.5-flash-preview-0514 |
Versão de pré-lançamento mais recente do Gemini 1.5 Flash | Prévia pública | 2024-05-14 | 2024-06-24 |
Nomes dos modelos Gemini 1.5 Pro
Nome do modelo | Descrição | Fase de lançamento | Data de lançamento inicial | Data de desativação |
---|---|---|---|---|
Versões estáveis | ||||
gemini-1.5-pro-001 |
Versão estável mais recente do Gemini 1.5 Pro | Disponibilidade geral | 2024-05-24 | Até 24/05/2025 |
Versão atualizada automaticamente | ||||
gemini-1.5-pro |
Aponta para a versão estável mais recente do 1.5 Pro (atualmente gemini-1.5-pro-001 |
Disponibilidade geral | 2024-05-24 | --- |
Versões de pré-lançamento | ||||
gemini-1.5-pro-preview-0514 |
Versão de pré-lançamento mais recente do Gemini 1.5 Pro | Prévia pública | 2024-05-14 | 2024-06-24 |
gemini-1.5-pro-preview-0409 |
Aponta para gemini-1.5-pro-preview-0514 (que é a versão de pré-lançamento mais recente) |
Prévia pública | 2024-04-09 | 2024-06-14 |
Nomes dos modelos Gemini 1.0 Pro Vision
Nome do modelo | Descrição | Fase de lançamento | Data de lançamento inicial | Data de desativação |
---|---|---|---|---|
Versões estáveis | ||||
gemini-1.0-pro-vision-001 |
Versão estável mais recente do Gemini 1.0 Pro Vision | Disponibilidade geral | 2024-02-15 | Até 15/02/2025 |
Versão atualizada automaticamente | ||||
gemini-1.0-pro-vision |
Aponta para a versão estável mais recente do 1.5 Pro Vision (atualmente gemini-1.5-pro-vision-001 |
Disponibilidade geral | 2024-01-04 | --- |
Nomes dos modelos Gemini 1.0 Pro
Nome do modelo | Descrição | Fase de lançamento | Data de lançamento inicial | Data de desativação |
---|---|---|---|---|
Versões estáveis | ||||
gemini-1.0-pro-002 |
Versão estável mais recente do Gemini 1.0 Pro | Disponibilidade geral | 2024-04-09 | Até 09/04/2025 |
gemini-1.0-pro-001 |
Versão estável do Gemini 1.0 Pro | Disponibilidade geral | 2024-02-15 | Até 15/02/2025 |
Versão atualizada automaticamente | ||||
gemini-1.0-pro |
Aponta para a versão estável mais recente do 1.0 Pro (atualmente gemini-1.0-pro-002 |
Disponibilidade geral | 2024-02-15 | --- |
Idiomas disponíveis
Todos os modelos Gemini podem entender e responder de seguintes idiomas:
Árabe (ar), bengali (bn), búlgaro (bg), Chinês simplificado e tradicional (zh), croata (hr), tcheco (cs), Dinamarquês (da), holandês (nl), inglês (en), estoniano (et), finlandês (fi), Francês (fr), alemão (de), grego (el), hebraico (iw), hindi (hi), húngaro (hu), Indonésio (id), italiano (it), japonês (ja), coreano (ko), letão (lv), Lituano (lt), norueguês (no), polonês (pl), português (pt), romeno (ro), Russo (ru), sérvio (sr), eslovaco (sk), esloveno (sl), espanhol (es), Suaíli (sw), sueco (sv), tailandês (th), turco (tr), ucraniano (uk), Vietnamita (vi)
Gemini 1.5 Pro e Gemini 1.5 Flash os modelos podem entender e responder nos seguintes idiomas adicionais:
Africâner (af), amárico (am), assamês (as), azerbaijano (az), Bielorrusso (be), bósnio (bs), catalão (ca), Cebuano (ceb), Córsego (co), Galês (cy), Dhivehi (dv), esperanto (eo), basco (eu), persa (fa), Filipino (Tagalog) (fil), frísio (fy), irlandês (ga), gaélico escocês (gd), Galego (gl), guzerate (gu), hauçá (ha), havaiano (haw), hmong (hmn), Crioulo haitiano (ht), armênio (hy), Igbo (ig), islandês (is), javanês (jv), Georgiano (ka), cazaque (kk), Khmer (km), Canarês (kn), Krio (kri), Curdo (ku), quirguiz (ky), latim (la), Luxemburguês (lb), Laos (lo), Malgaxe (mg), maori (mi), macedônio (mk), malaiala (ml), mongol (mn), Meiteilon (Manipuri) (mni-Mtei), marati (mr), malaio (ms), maltês (mt), Mianmar (birmanês) (meu), Nepalês (ne), Nyanja (Chichewa) (ny), Oriá (oriya) (ou), punjabi (pa), pashto (ps), sindi (sd), Cingalês (Cingalês) (si), Samoano (sm), Shona (sn), Somali (so), Albanês (sq), Sesoto (st), sundanês (su), tâmil (ta), télugo (te), tadjique (tg), Uigur (ug), urdu (ur), usbeque (uz), Xhosa (xh), iídiche (yi), iorubá (yo) Zulu (zu)
Próximas etapas
Teste os recursos do Gemini API
- Criar conversas de várias interações (chat).
- Gerar texto com base comandos somente de texto.
- Gerar texto com base comandos multimodais (incluindo texto, imagens, PDFs, vídeo e áudio).
- Use chamadas de função para se conectar modelos generativos a sistemas e informações externos.