Check out the latest news from Firebase at Cloud Next 2025. Learn more.

Esta página foi traduzida pela API Cloud Translation.

Gere texto com base em comandos multimodais usando a API Gemini

Ao chamar a Gemini API do seu app usando um SDK da Vertex AI in Firebase, é possível solicitar que o modelo Gemini gere texto com base em uma entrada multimodal. Os comandos multimodais podem incluir várias modalidades (ou tipos de entrada), como texto com imagens, PDFs, arquivos de texto simples, vídeo e áudio.

Em cada solicitação multimodal, é necessário fornecer o seguinte:

O arquivo é mimeType. Saiba mais sobre os tipos MIME aceitos para cada arquivo de entrada.
O arquivo. Você pode fornecer o arquivo como dados inline (como mostrado nesta página) ou usando o URL ou URI dele.

Para testar e iterar comandos multimodais, recomendamos usar Vertex AI Studio.

Outras opções para trabalhar com o Gemini API

Opcionalmente, teste uma versão alternativa "Google AI" do Gemini API
para ter acesso sem custo financeiro (dentro dos limites e onde disponível) usando Google AI Studio e SDKs de cliente Google AI. Esses SDKs devem ser usados somente para prototipagem em apps para dispositivos móveis e da Web.

Depois de entender como um Gemini API funciona, migre para nossos SDKs Vertex AI in Firebase (esta documentação), que têm muitos outros recursos importantes para apps para dispositivos móveis e da Web, como a proteção da API contra abuso usando Firebase App Check e suporte para arquivos de mídia grandes em solicitações.

Chame opcionalmente o Vertex AI Gemini API do lado do servidor (como com Python, Node.js ou Go)
Use os SDKs Vertex AI do lado do servidor, Genkit ou Firebase Extensions para o Gemini API.

Antes de começar

Se ainda não tiver feito isso, conclua o guia de início, que descreve como configurar seu projeto do Firebase, conectar seu app ao Firebase, adicionar o SDK, inicializar o serviço Vertex AI e criar uma instância GenerativeModel.

Gerar texto com base em texto e uma única imagem Gerar texto com base em texto e várias imagens Gerar texto com base em texto e um vídeo

Exemplos de arquivos de mídia

Se você ainda não tiver arquivos de mídia, use os arquivos disponíveis publicamente a seguir. Como esses arquivos são armazenados em buckets que não estão no seu projeto do Firebase, é necessário usar o formato https://storage.googleapis.com/BUCKET_NAME/PATH/TO/FILE para o URL.

Imagem: https://storage.googleapis.com/cloud-samples-data/generative-ai/image/scones.jpg com um tipo MIME de image/jpeg. Acesse ou faça o download desta imagem.
PDF: https://storage.googleapis.com/cloud-samples-data/generative-ai/pdf/2403.05530.pdf com um tipo MIME de application/pdf. Acesse ou faça o download deste PDF.
Vídeo: https://storage.googleapis.com/cloud-samples-data/video/animals.mp4 com um tipo MIME de video/mp4. Assista ou faça o download deste vídeo.
Áudio: https://storage.googleapis.com/cloud-samples-data/generative-ai/audio/pixel.mp3 com um tipo MIME de audio/mp3. Ouça ou faça o download deste áudio.

Gerar texto com base em texto e uma única imagem

Confira se você concluiu a seção Antes de começar deste guia antes de testar este exemplo.

É possível chamar Gemini API com comandos multimodais que incluem texto e um único arquivo (como uma imagem, conforme mostrado neste exemplo). Para essas chamadas, é necessário usar um modelo compatível com mídia em comandos (como Gemini 2.0 Flash).

Confira os requisitos e recomendações para arquivos de entrada.

Escolha se você quer transmitir a resposta (generateContentStream) ou esperar pela resposta até que todo o resultado seja gerado (generateContent).

Streaming

É possível ter interações mais rápidas sem esperar pelo resultado completo da geração do modelo e, em vez disso, usar o streaming para processar resultados parciais.

Sem streaming

Como alternativa, aguarde o resultado completo em vez de streaming. O resultado só é retornado depois que o modelo conclui todo o processo de geração.

Saiba como escolher um modelo e, opcionalmente, um local adequado para seu caso de uso e app.

Gerar texto com base em texto e várias imagens

Confira se você concluiu a seção Antes de começar deste guia antes de testar este exemplo.

É possível chamar Gemini API com comandos multimodais que incluem texto e vários arquivos (como imagens, conforme mostrado neste exemplo). Para essas chamadas, é necessário usar um modelo compatível com mídia em comandos (como Gemini 2.0 Flash).

Leia os requisitos e recomendações para arquivos de entrada.

Escolha se você quer transmitir a resposta (generateContentStream) ou esperar pela resposta até que todo o resultado seja gerado (generateContent).

Streaming

É possível ter interações mais rápidas sem esperar pelo resultado completo da geração do modelo e, em vez disso, usar o streaming para processar resultados parciais.

Sem streaming

Como alternativa, aguarde o resultado completo em vez de fazer streaming. O resultado só é retornado depois que o modelo conclui todo o processo de geração.

Saiba como escolher um modelo e, opcionalmente, um local adequado para seu caso de uso e app.

Gerar texto com base em texto e vídeo

Confira se você concluiu a seção Antes de começar deste guia antes de testar este exemplo.

É possível chamar Gemini API com comandos multimodais que incluem arquivos de texto e vídeo, conforme mostrado neste exemplo. Para essas chamadas, você precisa usar um modelo compatível com mídia em comandos (como Gemini 2.0 Flash).

Leia os requisitos e recomendações para arquivos de entrada.

Escolha se você quer transmitir a resposta (generateContentStream) ou esperar pela resposta até que todo o resultado seja gerado (generateContent).

Streaming

É possível ter interações mais rápidas sem esperar pelo resultado completo da geração do modelo e, em vez disso, usar o streaming para processar resultados parciais.

Sem streaming

Como alternativa, aguarde o resultado completo em vez de streaming. O resultado só é retornado depois que o modelo conclui todo o processo de geração.

Saiba como escolher um modelo e, opcionalmente, um local adequado para seu caso de uso e app.

Requisitos e recomendações para arquivos de entrada

Consulte Arquivos de entrada e requisitos compatíveis com o Vertex AI Gemini API para saber mais sobre o seguinte:

Opções diferentes para enviar um arquivo em uma solicitação
Tipos de arquivos compatíveis
Tipos MIME compatíveis e como especificá-los
Requisitos e práticas recomendadas para arquivos e solicitações multimodais

O que mais você pode fazer?

Saiba como contar tokens antes de enviar comandos longos para o modelo.
Configure Cloud Storage for Firebase para incluir arquivos grandes nas solicitações multimodais e ter uma solução mais gerenciada para fornecer arquivos em comandos. Os arquivos podem incluir imagens, PDFs, vídeos e áudio.
Comece a pensar na preparação para a produção, incluindo a configuração de Firebase App Check para proteger o Gemini API contra abusos de clientes não autorizados. Além disso, consulte a lista de verificação de produção.

Testar outros recursos

Crie conversas com vários turnos (chat).
Gerar texto com base em comandos somente de texto.
Gere saída estruturada (como JSON) com comandos de texto e multimodais.
Gerar imagens com base em comandos de texto.
Use a chamada de função para conectar modelos generativos a sistemas e informações externas.

Saiba como controlar a geração de conteúdo

Entenda o design de comandos, incluindo práticas recomendadas, estratégias e exemplos de comandos.
Configure os parâmetros do modelo, como temperatura e máximo de tokens de saída (para Gemini) ou proporção e geração de pessoas (para Imagen).
Use as configurações de segurança para ajustar a probabilidade de receber respostas que podem ser consideradas nocivas.

Também é possível testar comandos e configurações de modelo usando Vertex AI Studio.

Saiba mais sobre os modelos compatíveis

Saiba mais sobre os modelos disponíveis para vários casos de uso e as cotas e o preço.

Enviar feedback sobre sua experiência com o Vertex AI in Firebase