Generowanie tekstu z promptów multimodalnych za pomocą interfejsu Gemini API


Gdy wywołujesz Gemini API z aplikacji za pomocą pakietu SDK Vertex AI in Firebase, możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych. Prompty multimodalne mogą zawierać wiele modalności (czyli typów danych wejściowych), takich jak tekst, obrazy, pliki PDF, pliki tekstowe, filmy i dźwięk.

W każdym żądaniu multimodalnym musisz zawsze podać te informacje:

  • Plik ma nazwę mimeType. Dowiedz się więcej o obsługiwanych typach MIME poszczególnych plików wejściowych.

  • Plik. Plik możesz przesłać jako dane wstawione (jak na tej stronie) lub podać jego adres URL lub identyfikator URI.

Do testowania i ulepszania promptów multimodalnych zalecamy używanie Vertex AI Studio.

Zanim zaczniesz

Jeśli jeszcze tego nie zrobisz, przeczytaj przewodnik dla początkujących, w którym znajdziesz instrukcje konfigurowania projektu Firebase, łączenia aplikacji z Firebase, dodawania pakietu SDK, inicjowania usługi Vertex AI i tworzenia wystąpienia GenerativeModel.

Generowanie tekstu na podstawie tekstu i jednego obrazu Generowanie tekstu na podstawie tekstu i wielu obrazów Generowanie tekstu na podstawie tekstu i filmu

Przykładowe pliki multimedialne

Jeśli nie masz jeszcze plików multimedialnych, możesz użyć tych dostępnych publicznie. Ponieważ te pliki są przechowywane w workach, które nie znajdują się w Twoim projekcie Firebase, musisz użyć formatu https://storage.googleapis.com/BUCKET_NAME/PATH/TO/FILE w adresie URL.

Generowanie tekstu na podstawie tekstu i jednego obrazu

Zanim spróbujesz użyć tego przykładu, zapoznaj się z sekcją Zanim zaczniesz tego przewodnika.

Możesz wywołać Gemini API za pomocą promptów multimodalnych, które zawierają zarówno tekst, jak i pojedynczy plik (np. obraz, jak w tym przykładzie). W takich przypadkach musisz użyć modelu, który obsługuje media w promptach (np. Gemini 2.0 Flash).

Sprawdź wymagania i zalecenia dotyczące plików wejściowych.

Wybierz, czy chcesz odtwarzać odpowiedź strumieniowo (generateContentStream), czy czekać na odpowiedź, aż zostanie wygenerowany cały wynik (generateContent).

Streaming

Możesz uzyskać szybsze interakcje, nie czekając na pełny wynik wygenerowany przez model, a zamiast tego używać strumieniowego przetwarzania częściowych wyników.

Bez strumieniowego przesyłania

Możesz też poczekać na cały wynik zamiast strumieniowego przesyłania. Wynik zostanie zwrócony dopiero po zakończeniu całego procesu generowania.

Dowiedz się, jak wybrać model i opcjonalnie lokalizację odpowiednią do przypadku użycia i aplikacji.

Generowanie tekstu na podstawie tekstu i wielu obrazów

Zanim spróbujesz użyć tego przykładu, zapoznaj się z sekcją Zanim zaczniesz tego przewodnika.

Możesz wywołać Gemini API za pomocą promptów multimodalnych, które zawierają zarówno tekst, jak i wiele plików (np. obrazów, jak w tym przykładzie). W takich przypadkach musisz użyć modelu, który obsługuje media w promptach (np. Gemini 2.0 Flash).

Zapoznaj się z wymaganiami i zaleceniami dotyczącymi plików wejściowych.

Wybierz, czy chcesz odtwarzać odpowiedź strumieniowo (generateContentStream), czy czekać na odpowiedź, aż zostanie wygenerowany cały wynik (generateContent).

Streaming

Możesz uzyskać szybsze interakcje, nie czekając na pełny wynik wygenerowany przez model, a zamiast tego używać strumieniowego przetwarzania częściowych wyników.

Bez strumieniowego przesyłania

Możesz też poczekać na cały wynik zamiast przesyłania strumieniowego. Wynik zostanie zwrócony dopiero po zakończeniu całego procesu generowania.

Dowiedz się, jak wybrać model i opcjonalnie lokalizację odpowiednią do przypadku użycia i aplikacji.

Generowanie tekstu na podstawie tekstu i filmu

Zanim spróbujesz użyć tego przykładu, zapoznaj się z sekcją Zanim zaczniesz tego przewodnika.

Możesz wywołać Gemini API za pomocą promptów multimodalnych, które zawierają zarówno tekst, jak i pliki wideo (jak w tym przykładzie). W przypadku takich połączeń musisz użyć modelu, który obsługuje media w promptach (np. Gemini 2.0 Flash).

Zapoznaj się z wymaganiami i zaleceniami dotyczącymi plików wejściowych.

Wybierz, czy chcesz odtwarzać odpowiedź strumieniowo (generateContentStream), czy czekać na odpowiedź, aż zostanie wygenerowany cały wynik (generateContent).

Streaming

Możesz uzyskać szybsze interakcje, nie czekając na pełny wynik wygenerowany przez model, a zamiast tego używać strumieniowego przetwarzania częściowych wyników.

Bez strumieniowego przesyłania

Możesz też poczekać na cały wynik zamiast strumieniowego przesyłania. Wynik zostanie zwrócony dopiero po zakończeniu całego procesu generowania.

Dowiedz się, jak wybrać model i opcjonalnie lokalizację odpowiednią do przypadku użycia i aplikacji.

Wymagania i zalecenia dotyczące plików wejściowych

Aby dowiedzieć się więcej o obsługiwanych plikach wejściowych i wymaganiach dotyczących pliku Vertex AI Gemini API, zapoznaj się z tymi informacjami:

  • Różne opcje przesyłania pliku w żądaniu
  • Obsługiwane typy plików
  • Obsługiwane typy MIME i sposób ich określania
  • Wymagania i sprawdzone metody dotyczące plików i zapytań multimodalnych

Co jeszcze możesz zrobić?

Wypróbuj inne funkcje

Dowiedz się, jak kontrolować generowanie treści

Możesz też eksperymentować z promptami i konfiguracjami modeli za pomocą Vertex AI Studio.

Więcej informacji o obsługiwanych modelach

Dowiedz się więcej o modelach dostępnych w różnych przypadkach użycia oraz o ich limitachcenach.


Prześlij opinię o tym, jak oceniasz korzystanie z usługi Vertex AI in Firebase