使用 Firebase AI Logic SDK 從應用程式呼叫 Gemini API 時,您可以提示 Gemini 模型根據多模態輸入內容 (例如圖片、影片、音訊和文件 (如 PDF)) 生成文字。
您必須使用支援的檔案類型、指定支援的 MIME 類型,並確保檔案和多模態要求符合規定,且遵循最佳做法。
本頁面專門說明如何使用 GenerativeModel
,並介紹下列主題:
以下檔案輸入內容的支援 MIME 類型、最佳做法和限制:
圖片 | 影片 | 音訊 | 文件 (例如 PDF)。
在多模態要求中提供檔案的方法
選取 Gemini API 供應商,即可在這個頁面查看供應商專屬內容 |
在每個多模態要求中,您一律必須提供下列項目:
檔案的
mimeType
。如要瞭解各個輸入檔案支援的 MIME 類型,請參閱本頁的適用章節。檔案。您可以將檔案提供為內嵌資料,或使用檔案的網址提供檔案。
您可以在要求中提供的檔案大小和數量,取決於輸入檔案類型、檔案提供方式和所用模型 (詳情請參閱本頁各輸入檔案類型部分)。
方法 1:以內嵌資料形式提供檔案
請注意以下事項:
由於要求總大小限制為 20 MB,因此只能以內嵌資料的形式傳送小型檔案。
檔案在傳輸過程中會編碼為 Base64 (這會增加檔案大小)。
如需如何將檔案做為內嵌資料的範例,請參閱「從文字和檔案 (多模態) 輸入內容生成文字」。請注意,Android 和 Apple 平台的 SDK 可處理要求中的內嵌圖片,無需指定 MIME 類型。瞭解詳情。
選項 2:使用網址提供檔案
使用 Gemini Developer API 時,可接受的網址類型如下:
YouTube 影片網址:YouTube 影片必須設為公開或不公開。
每項要求只能指定一個 YouTube 影片網址。
圖片:規定、最佳做法和限制
圖片:規定
在本節中,您將瞭解圖片支援的 MIME 類型,以及每項要求的限制。
支援的 MIME 類型
Gemini 多模態模型支援下列圖片 MIME 類型:
圖片 MIME 類型 | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
PNG - image/png |
||
JPEG - image/jpeg |
||
WebP - image/webp |
每項要求的限制
圖片的像素數量沒有具體限制,不過,系統會縮小較大的圖片,並加上邊框,以符合 3072 x 3072 的最大解析度,同時保留原始長寬比。
提示要求中允許的圖片檔案數量上限如下:
- Gemini 2.0 Flash 和 Gemini 2.0 Flash‑Lite:3,000 張圖片
圖片:權杖化
圖片的權杖計算方式如下:
- Gemini 2.0 Flash 和 Gemini 2.0 Flash‑Lite:
- 如果圖片的兩個維度都小於或等於 384 像素,則會使用 258 個權杖。
- 如果圖片的其中一個尺寸大於 384 像素,系統就會將圖片裁剪成圖塊。每個圖塊大小預設為最小維度 (寬度或高度) 除以 1.5。如有需要,系統會調整每個圖塊,確保圖塊大小介於 256 像素和 768 像素之間。然後,每個圖塊都會調整為 768x768 大小,並使用 258 個權杖。
圖片:最佳做法
使用圖片時,請遵循下列最佳做法和資訊,以獲得最佳成效:
- 如要偵測圖片中的文字,請使用單張圖片的提示,這樣比使用多張圖片的提示效果更好。
- 如果提示包含單一圖片,請將圖片放在要求中的文字提示之前。
- 如果提示包含多張圖片,且您想在提示中稍後參照這些圖片,或讓模型在模型回覆中參照這些圖片,建議先為每張圖片加上索引。使用
或a
b
c
做為索引。以下是在提示中使用索引圖片的範例:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - 使用高解析度圖片,可獲得較佳結果。
- 在提示中加入幾個範例。
- 先將圖片旋轉至正確方向,再加入提示。
- 避免使用模糊的圖片。
圖片:限制
雖然Gemini多模態模型在許多多模態用途中都非常強大,但請務必瞭解模型的限制:
- 內容審查:模型會拒絕提供違反安全政策的圖片相關答案。
- 空間推理:模型無法精確定位圖片中的文字或物件。他們可能只會傳回物件的概略計數。
- 醫療用途:模型不適合用於解讀醫學圖像 (例如 X 光和 CT 掃描),也不適合用於提供醫療建議。
- 人物辨識:模型不應用於辨識圖片中非名人的使用者。
- 準確度:解讀品質不佳、旋轉或極低解析度的圖片時,模型可能會產生幻覺或出錯。模型在解讀圖片文件中的手寫文字時,也可能會產生錯覺。
影片:規定、最佳做法和限制
影片:相關規定
在本節中,您將瞭解影片支援的 MIME 類型,以及每項要求的限制。
支援的 MIME 類型
Gemini 多模態模型支援下列影片 MIME 類型:
影片 MIME 類型 | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
FLV - video/x-flv |
||
MOV - video/quicktime |
||
MPEG - video/mpeg |
||
MPEGPS - video/mpegps |
||
每加侖英里數 - video/mpg |
||
MP4 - video/mp4 |
||
WEBM - video/webm |
||
WMV - video/wmv |
||
3GPP - video/3gpp |
每項要求的限制
提示要求中可使用的影片檔案數量上限如下:
- Gemini 2.0 Flash和Gemini 2.0 Flash‑Lite:10 個影片檔案
影片:權杖化
影片的權杖計算方式如下:
-
Gemini 2.5 Pro、Gemini 2.0 Flash和Gemini 2.0 Flash‑Lite:音軌會與視訊影格一起編碼。音軌也會細分為
1 秒的片段 ,每個片段會佔用 32 個權杖。影片畫面和音訊權杖會與時間戳記交錯。時間戳記以 5 個權杖表示。 - 所有 Gemini 多模態模型:影片的取樣率為
每秒 1 個影格 。每個影片影格會計為 258 個權杖。
影片:最佳做法
使用影片時,請參考下列最佳做法和資訊,盡量提升成效:
- 如果提示只包含一部影片,請將影片放在文字提示之前。
- 如果音訊影片需要時間戳記本地化,請要求模型以
MM:SS
格式生成時間戳記,前兩位數代表分鐘,後兩位數代表秒數。詢問時間戳記的問題時,請使用相同格式。
影片:限制
雖然Gemini多模態模型在許多多模態用途中都非常強大,但請務必瞭解模型的限制:
- 內容審核:如果影片違反安全政策,模型會拒絕提供答案。
- 辨識非語音聲音:支援音訊的模型可能會誤認非語音聲音。
- 高速動作:由於取樣率固定為
每秒 1 個影格 ,模型可能無法正確解讀影片中的高速動作。
音訊:規定和限制
音訊:需求條件
在本節中,您將瞭解音訊支援的 MIME 類型,以及每項要求的限制。
支援的 MIME 類型
Gemini 多模態模型支援下列音訊 MIME 類型:
音訊 MIME 類型 | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
每項要求的限制
提示要求最多可包含
音訊:限制
雖然Gemini多模態模型在許多多模態用途中都非常強大,但請務必瞭解模型的限制:
- 辨識非語音聲音:支援音訊的模型可能會誤認非語音聲音。
- 純音訊時間戳記:如要為純音訊檔案準確生成時間戳記,請在
generation_config
中設定audio_timestamp
參數。
文件 (例如 PDF):規定、最佳做法和限制
文件:規定
本節將說明文件 (例如 PDF) 支援的 MIME 類型,以及每個要求的限制。
支援的 MIME 類型
Gemini 多模態模型支援下列文件 MIME 類型:
文件 MIME 類型 | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
PDF - application/pdf |
||
傳送訊息到 text/plain |
每項要求的限制
PDF 會視為圖片,因此 PDF 的單一頁面會視為一張圖片。提示中允許的頁數上限取決於模型可支援的圖片數量:
- Gemini 2.0 Flash 和 Gemini 2.0 Flash‑Lite:
- 每項要求的檔案數量上限:3,000 個
- 每個檔案的頁數上限:1,000 頁
- 每個檔案的大小上限為 50 MB
文件:權杖化
PDF 代碼化
PDF 會視為圖片,因此系統會以與圖片相同的方式,將 PDF 的每個頁面轉換為權杖。
此外,PDF 的費用也遵循Gemini圖片定價。 舉例來說,如果您在 Gemini API 呼叫中加入兩頁的 PDF,系統會將其視為兩張圖片,並收取輸入費用。
文件:最佳做法
使用 PDF 時,請參考下列最佳做法和資訊,以獲得最佳結果:
- 如果提示包含單一 PDF,請在要求中將 PDF 放在文字提示之前。
- 如果文件很長,建議將其拆分成多個 PDF 檔案,再進行處理。
- 使用以文字形式呈現文字的 PDF,而非掃描圖片中的文字。這種格式可確保文字能以機器可讀取的形式呈現,因此與掃描的 PDF 圖片相比,模型更容易編輯、搜尋及處理文字。處理合約等文字量大的文件時,這項做法可提供最佳結果。
文件:限制
雖然Gemini多模態模型在許多多模態用途中都非常強大,但請務必瞭解模型的限制:
- 空間推理:模型無法精確找出 PDF 中的文字或物件。他們可能只會傳回物件的概略計數。
- 準確度:模型在解讀 PDF 文件中的手寫文字時,可能會產生幻覺。