Check out the latest news from Firebase at Cloud Next 2025. Learn more.

Esta página foi traduzida pela API Cloud Translation.

Arquivos de entrada compatíveis e requisitos para a API Gemini da Vertex

Ao chamar a Vertex AI Gemini API do seu app usando um SDK Vertex AI in Firebase, você pode solicitar que o modelo Gemini gere texto com base em uma entrada multimodal. Os comandos multimodais podem incluir várias modalidades (ou tipos de entrada), como texto com imagens, PDFs, vídeo e áudio.

Para as partes não textuais da entrada (como arquivos de mídia), use tipos de arquivos compatíveis, especifique um tipo MIME compatível e verifique se os arquivos e as solicitações multimodais atendem aos requisitos e seguem as práticas recomendadas.

Esta página descreve os itens a seguir:

Opções para enviar arquivos na sua solicitação.
Detalhes sobre os tipos MIME aceitos, práticas recomendadas e limitações para as seguintes entradas de arquivo:
Imagens | Vídeo | Áudio | Documentos (como PDFs).

Opções para fornecer arquivos em solicitações multimodais

Em cada solicitação multimodal, é necessário fornecer o seguinte:

O arquivo é mimeType. Consulte os tipos MIME aceitos de cada arquivo de entrada na seção relevante desta página.
O arquivo. Você pode fornecer o arquivo usando o URL / URI dele ou fornecer o arquivo como dados inline.

O tamanho e o número de arquivos que você pode enviar na solicitação são determinados pelo tipo de arquivo de entrada, como você envia o arquivo e o modelo usado. Para saber mais, consulte a seção de cada tipo de arquivo de entrada nesta página.

Opção 1: fornecer o arquivo usando um URL ou URI

Estes são os tipos aceitáveis de URLs ou URIs:

URL do bucket Cloud Storage for Firebase: o URL do arquivo precisa ser público ou o usuário ou cliente conectado precisa ter acesso suficiente ao arquivo. Saiba mais sobre os Cloud Storage for Firebase benefícios, requisitos de URL e exemplos de código.
URL do bucket Google Cloud Storage: o URL do arquivo precisa ser público. Além disso, se o bucket estiver em um projeto diferente do que você está usando com Vertex AI in Firebase, use o formato https://storage.googleapis.com/BUCKET_NAME/PATH/TO/FILE para o URL.
URLs do navegador/HTTP: o URL do arquivo precisa ser legível publicamente. Exemplos incluem URLs de sites de hospedagem de mídia, URLs que mostram a mídia diretamente (não uma página da Web que hospeda a mídia) ou um arquivo publicado do Google Drive ou do Google Workspace.
URL do vídeo do YouTube: o vídeo do YouTube precisa ser público ou não listado.

Saiba mais sobre os requisitos de URLs e URIs na documentação do Google Cloud.

Opção 2: fornecer o arquivo como dados inline

Observe o seguinte sobre os arquivos fornecidos como dados inline:

Somente arquivos pequenos podem ser enviados como dados inline, porque o limite de tamanho de solicitação total é de 20 MB.
O arquivo é codificado em base64 em trânsito, o que aumenta o tamanho do arquivo.

Para conferir exemplos de como incluir arquivos como dados inline, consulte Gerar texto de comandos multimodais usando a API Gemini.

Imagens: requisitos, práticas recomendadas e limitações

Imagens: requisitos

Nesta seção, saiba mais sobre os tipos MIME aceitos e os limites por solicitação de imagens.

Tipos MIME compatíveis

Os modelos multimodais Gemini são compatíveis com os seguintes tipos MIME de imagem:

Tipo de Mime da imagem	Gemini 2.0 Flash	Gemini 2.0 Flash‑Lite
PNG - `image/png`
JPEG - `image/jpeg`
WebP: `image/webp`

Limites por solicitação

Não há um limite específico para o número de pixels em uma imagem. No entanto, imagens maiores são reduzidas e preenchidas para caber em uma resolução máxima de 3072 x 3072, preservando a proporção original.

Este é o número máximo de arquivos de imagem permitidos em uma solicitação de comando:

Gemini 2.0 Flash e Gemini 2.0 Flash‑Lite: 3.000 imagens

Imagens: tokenização

Veja como os tokens são calculados para imagens:

Gemini 2.0 Flash e Gemini 2.0 Flash‑Lite:
- Se as duas dimensões de uma imagem forem menores ou iguais a 384 pixels, então 258 tokens serão usados.
- Se uma dimensão de uma imagem for maior do que 384 pixels, a imagem será cortada em blocos. O padrão de cada tamanho de bloco é a menor dimensão (largura ou altura) dividida por 1,5. Se necessário, cada bloco é ajustado para não ser menor que 256 pixels nem maior que 768 pixels. Cada bloco é redimensionado para 768 x 768 e usa 258 tokens.

Imagens: práticas recomendadas

Ao usar imagens, siga as práticas recomendadas e informações a seguir para ter os melhores resultados.

Se você quiser detectar texto em uma imagem, use comandos com uma única imagem para produzir resultados melhores do que comandos com várias imagens.
Se o comando tiver apenas uma imagem, coloque-a antes do comando de texto na solicitação.
Se o comando tiver várias imagens e você quiser consultá-las posteriormente no comando ou fazer com que o modelo as mencione na resposta do modelo, atribua um índice a cada imagem antes da imagem. Use a b c ou image 1 image 2 image 3 no seu índice. Confira a seguir um exemplo de uso de imagens indexadas em um comando:
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
Use imagens com resolução mais alta para gerar resultados melhores.
Inclua alguns exemplos no comando.
Gire as imagens para a orientação correta antes de adicioná-las ao comando.
Evite imagens desfocadas.

Imagens: limitações

Embora os modelos multimodais Gemini sejam eficientes em muitos casos de uso multimodal, é importante entender as limitações dos modelos:

Moderação de conteúdo: os modelos se recusam a fornecer respostas sobre imagens que violam nossas políticas de segurança.
Raciocínio espacial: os modelos não são precisos para localizar texto ou objetos em imagens. Talvez eles retornem somente as contagens aproximadas de objetos.
Usos médicos: os modelos não são adequados para interpretar eimagens médicas (por exemplo, raios-X e tomografias computadorizadas) ou fornecer aconselhamento médico.
Reconhecimento de pessoas: os modelos não são usados para identificar pessoas que não são celebridades em imagens.
Precisão: os modelos podem apresentar alucinação artificial ou cometer erros ao interpretar imagens de baixa qualidade, rotacionadas ou de resolução extremamente baixa. Os modelos também podem apresentar erros ao interpretar texto escrito à mão em imagens ou documentos.

Vídeo: requisitos, práticas recomendadas e limitações

Vídeo: requisitos

Nesta seção, saiba mais sobre os tipos MIME aceitos e os limites por solicitação de vídeo.

Tipos MIME compatíveis

Os modelos multimodais Gemini são compatíveis com os seguintes tipos MIME de vídeo:

Tipo de vídeo MIME	Gemini 2.0 Flash	Gemini 2.0 Flash‑Lite
FLV - `video/x-flv`
MOV - `video/quicktime`
MPEG - `video/mpeg`
MPEGPS - `video/mpegps`
MPG - `video/mpg`
MP4 - `video/mp4`
WEBM - `video/webm`
WMV - `video/wmv`
3GPP - `video/3gpp`

Limites por solicitação

Este é o número máximo de arquivos de vídeo permitidos em uma solicitação de comando:

Gemini 2.0 Flash e Gemini 2.0 Flash‑Lite: 10 arquivos de vídeo

Vídeo: Tokenização

Veja como os tokens são calculados para vídeos:

Gemini 2.0 Flash e Gemini 2.0 Flash‑Lite: a faixa de áudio é codificada com frames de vídeo. A faixa de áudio também é dividida em troncos de um segundo que representam 32 tokens. O frame de vídeo e os tokens de áudio são intercalados com os respectivos carimbos de data/hora. Os carimbos de data/hora são representados como sete tokens.
Todos os modelos multimodais do Gemini: as amostras de vídeo são feitas a 1 frame por segundo (QPS). Cada frame de vídeo representa 258 tokens.

Vídeo: práticas recomendadas

Ao usar vídeos, siga as práticas recomendadas e informações abaixo para ter os melhores resultados:

Se o comando contiver um único vídeo, coloque o vídeo antes do comando de texto.
Se você precisar de localização de carimbo de data/hora em um vídeo com áudio, peça ao modelo para gerar carimbos de data/hora no formato MM:SS, em que os dois primeiros dígitos representam minutos e os dois últimos dígitos representam segundos. Use o mesmo formato para perguntas sobre carimbo de data/hora.

Vídeo: limitações

Embora os modelos multimodais Gemini sejam eficientes em muitos casos de uso multimodal, é importante entender as limitações dos modelos:

Moderação de conteúdo: os modelos se recusam a fornecer respostas sobre vídeos que violam nossas políticas de segurança.
Reconhecimento de som sem fala: os modelos compatíveis com áudio podem cometer erros ao reconhecer sons que não são fala.
Movimento de alta velocidade: os modelos podem cometer erros na compreensão do movimento de alta velocidade nos vídeos devido à taxa de amostragem fixa de 1 frame por segundo (QPS).

Áudio: requisitos e limitações

Áudio: requisitos

Nesta seção, saiba mais sobre os tipos MIME aceitos e os limites por solicitação de áudio.

Tipos MIME compatíveis

Os modelos multimodais Gemini são compatíveis com os seguintes tipos MIME de áudio:

Tipo MIME de áudio	Gemini 2.0 Flash	Gemini 2.0 Flash‑Lite
AAC - `audio/aac`
FLAC - `audio/flac`
MP3 - `audio/mp3`
MPA - `audio/m4a`
MPEG - `audio/mpeg`
MPGA - `audio/mpga`
MP4 - `audio/mp4`
OPUS - `audio/opus`
PCM - `audio/pcm`
WAV - `audio/wav`
WEBM - `audio/webm`

Limites por solicitação

Você pode incluir no máximo 1 arquivo de áudio em uma solicitação de comando.

Áudio: limitações

Embora os modelos multimodais Gemini sejam eficientes em muitos casos de uso multimodal, é importante entender as limitações dos modelos:

Reconhecimento de som sem fala: os modelos compatíveis com áudio podem cometer erros ao reconhecer sons que não são fala.
Carimbos de data/hora somente de áudio: para gerar carimbos de data/hora com precisão para arquivos somente de áudio, configure o parâmetro audio_timestamp em generation_config.

Documentos (como PDFs): requisitos, práticas recomendadas e limitações

Documentos: requisitos

Nesta seção, saiba mais sobre os tipos MIME aceitos e os limites por solicitação para documentos (como PDFs).

Tipos MIME compatíveis

Os modelos multimodais Gemini são compatíveis com os seguintes tipos MIME de documento:

Tipo de documento MIME	Gemini 2.0 Flash	Gemini 2.0 Flash‑Lite
PDF - `application/pdf`
Texto - `text/plain`

Limites por solicitação

PDFs são tratados como imagens, portanto, uma única página de um PDF é tratada como uma imagem. O número de páginas permitido em um comando é limitado ao número de imagens que o modelo aceita:

Gemini 2.0 Flash e Gemini 2.0 Flash‑Lite:
- Máximo de arquivos por solicitação: 3.000
- Máximo de páginas por arquivo: 1.000
- Tamanho máximo por arquivo: 50 MB

Documentos: Tokenização

Tokenização de PDFs

Os PDFs são tratados como imagens. Por isso, cada página de um PDF é tokenizada da mesma forma que uma imagem.

Além disso, o custo dos PDFs segue os preços de imagens do Gemini. Por exemplo, se você incluir um documento PDF de duas páginas em uma chamada da API Gemini, será cobrada uma taxa de entrada pelo processamento de duas imagens.

Tokenização de texto simples

Os documentos de texto simples são tokenizados como texto. Por exemplo, se você incluir um documento de texto simples de 100 palavras em uma chamada da API Gemini, será cobrada uma taxa de entrada pelo processamento de 100 palavras.

Documentos: práticas recomendadas

Ao usar PDFs, siga as práticas recomendadas e informações a seguir para ter os melhores resultados:

Se o comando contiver um único PDF, coloque o PDF antes do comando de texto na solicitação.
Se você tiver um documento longo, considere dividi-lo em vários PDFs para processá-lo.
Use PDFs criados com texto renderizado como texto em vez de usar texto em imagens digitalizadas. Esse formato garante que o texto seja legível por máquina para que seja mais fácil editar, pesquisar e manipular o texto em comparação com PDFs de imagens digitalizadas. Isso fornece os resultados ideais ao trabalhar com documentos com muito texto, como contratos.

Documentos: limitações

Embora os modelos multimodais Gemini sejam eficientes em muitos casos de uso multimodal, é importante entender as limitações dos modelos:

Raciocínio espacial: os modelos não são precisos para localizar texto ou objetos em PDFs. Talvez eles retornem somente as contagens aproximadas de objetos.
Precisão: os modelos podem cometer erros ao interpretar texto escrito à mão em documentos PDF.