Gemini API を使用してマルチモーダル プロンプトからテキストを生成する


Vertex AI in Firebase SDK を使用してアプリから Gemini API を呼び出す場合: マルチモーダル入力に基づいてテキストを生成するように Gemini モデルに指示できます。 マルチモーダル プロンプトには、複数のモダリティ(または入力の種類)を含めることができます。 テキスト、画像、PDF、動画、音声などです。

マルチモーダル プロンプトのテストと反復処理には、 Vertex AI Studio

始める前に

まだ実施していない場合は、 Vertex AI in Firebase SDK のスタートガイド 以下のことをすべて完了していることを確認してください。

  1. 新規または既存の Firebase プロジェクトを設定します。これには、 Blaze の料金プランと必要な API の有効化。

  2. アプリの登録や Firebase 構成をアプリに追加します。

  3. SDK を追加して Vertex AI サービスと生成モデルを初期化する 説明します

アプリを Firebase に接続して SDK を追加し、 Vertex AI サービスと生成モデル Gemini API を呼び出す準備が整いました。

で確認できます。

テキストと 1 つの画像からテキストを生成する

始める前にを セクションをご覧ください。

Gemini API は、次のようなマルチモーダル プロンプトで呼び出すことができます。 テキストと 1 つのファイル(この例に示す画像など)の両方が含まれます。対象 マルチモーダル プロンプトをサポートするモデルを使用する必要があります。 (Gemini 1.5 Pro など)。

画像、PDF、動画、音声などがサポートされています。 必ず 入力ファイルの要件と推奨事項

レスポンスをストリーミングするか(generateContentStream)、待つかを選択します (generateContent)。

ストリーミング

やり取りを迅速化するために、 代わりにストリーミングを使用して部分的な結果を処理します

ストリーミングなし

ストリーミングではなく、結果全体を待つこともできます。 モデルが生成全体を完了した後にのみ結果が返される プロセスです

Gemini モデルの選択方法を学習する 必要に応じてロケーション 適切なストレージクラスを選択できます

テキストと複数の画像からテキストを生成する

始める前にを セクションをご覧ください。

Gemini API は、次のようなマルチモーダル プロンプトで呼び出すことができます。 テキストと複数のファイル(この例に示す画像など)の両方に対応しています。対象 マルチモーダル プロンプトをサポートするモデルを使用する必要があります。 (Gemini 1.5 Pro など)。

画像、PDF、動画、音声などがサポートされています。 必ず 入力ファイルの要件と推奨事項

レスポンスをストリーミングするか(generateContentStream)、待つかを選択します (generateContent)。

ストリーミング

やり取りを迅速化するために、 代わりにストリーミングを使用して部分的な結果を処理します

ストリーミングなし

または、代わりに結果全体を待つこともできます。 ストリーミングモデルがトレーニング全体を完了した後にのみ、 プロセスです。

Gemini モデルの選択方法を学習する 必要に応じてロケーション 適切なストレージクラスを選択できます

テキストと動画からテキストを生成する

始める前にを セクションをご覧ください。

Gemini API は、次のようなマルチモーダル プロンプトで呼び出すことができます。 両方を含めることもできます(この例を参照)。対象 マルチモーダル プロンプトをサポートするモデルを使用する必要があります。 (Gemini 1.5 Pro など)。

必ず 入力ファイルの要件と推奨事項

レスポンスをストリーミングするか(generateContentStream)、待つかを選択します (generateContent)。

ストリーミング

やり取りを迅速化するために、 代わりにストリーミングを使用して部分的な結果を処理します

ストリーミングなし

ストリーミングではなく、結果全体を待つこともできます。 モデルが生成全体を完了した後にのみ結果が返される プロセスです

Gemini モデルの選択方法を学習する 必要に応じてロケーション 適切なストレージクラスを選択できます

入力ファイルの要件と推奨事項

サポートされているファイル形式、MIME タイプの指定方法、MIME タイプの作成方法については、 ファイルとマルチモーダル リクエストが要件を満たしていることを確認し、 ベスト プラクティスについては、 Vertex AI Gemini API でサポートされている入力ファイルと要件

Google アシスタントの機能

  • トークンをカウントする方法を学習する モデルに長いプロンプトを送信します
  • Cloud Storage for Firebase を設定する 使用してマルチモーダル リクエストにサイズの大きなファイルを含められます。 Cloud Storage 件の URL。ファイルには画像、PDF、動画、音声を含めることができます。
  • 本番環境に向けた準備として、 Firebase App Check の設定 権限のないクライアントによる不正使用から Gemini API を保護します。

Gemini API のその他の機能を試す

コンテンツの生成を制御する方法

で確認できます。 また、Terraform を使用してプロンプトやモデル構成をテストすることもできます。 Vertex AI Studio

Gemini モデルの詳細

詳しくは、 さまざまなユースケースで利用可能な および 割り当てと料金をご確認ください。


フィードバックを送信 Vertex AI in Firebase の感想をお聞かせください。