支援的輸入檔案和相關規定

使用 Firebase AI Logic SDK 從應用程式呼叫 Gemini API 時,您可以提示 Gemini 模型根據多模態輸入內容 (例如圖片、影片、音訊和文件 (如 PDF)) 生成文字。

您必須使用支援的檔案類型、指定支援的 MIME 類型,並確保檔案和多模態要求符合規定,且遵循最佳做法。

本頁面專門說明如何使用 GenerativeModel,並介紹下列主題:

在多模態要求中提供檔案的方法

選取 Gemini API 供應商,即可在這個頁面查看供應商專屬內容

在每個多模態要求中,您一律必須提供下列項目:

您可以在要求中提供的檔案大小和數量,取決於輸入檔案類型、檔案提供方式和所用模型 (詳情請參閱本頁各輸入檔案類型部分)。

方法 1:以內嵌資料形式提供檔案

請注意以下事項:

  • 由於要求總大小限制為 20 MB,因此只能以內嵌資料的形式傳送小型檔案。

  • 檔案在傳輸過程中會編碼為 Base64 (這會增加檔案大小)。

如需如何將檔案做為內嵌資料的範例,請參閱「從文字和檔案 (多模態) 輸入內容生成文字」。請注意,Android 和 Apple 平台的 SDK 可處理要求中的內嵌圖片,無需指定 MIME 類型。瞭解詳情

選項 2:使用網址提供檔案

使用 Gemini Developer API 時,可接受的網址類型如下:

  • YouTube 影片網址:YouTube 影片必須設為公開或不公開

    每項要求只能指定一個 YouTube 影片網址。



圖片:規定、最佳做法和限制

圖片:規定

在本節中,您將瞭解圖片支援的 MIME 類型,以及每項要求的限制。

支援的 MIME 類型

Gemini 多模態模型支援下列圖片 MIME 類型:

圖片 MIME 類型 Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
PNG - image/png
JPEG - image/jpeg
WebP - image/webp

每項要求的限制

圖片的像素數量沒有具體限制,不過,系統會縮小較大的圖片,並加上邊框,以符合 3072 x 3072 的最大解析度,同時保留原始長寬比。

提示要求中允許的圖片檔案數量上限如下:

  • Gemini 2.0 FlashGemini 2.0 Flash‑Lite:3,000 張圖片

圖片:權杖化

圖片的權杖計算方式如下:

  • Gemini 2.0 FlashGemini 2.0 Flash‑Lite
    • 如果圖片的兩個維度都小於或等於 384 像素,則會使用 258 個權杖。
    • 如果圖片的其中一個尺寸大於 384 像素,系統就會將圖片裁剪成圖塊。每個圖塊大小預設為最小維度 (寬度或高度) 除以 1.5。如有需要,系統會調整每個圖塊,確保圖塊大小介於 256 像素和 768 像素之間。然後,每個圖塊都會調整為 768x768 大小,並使用 258 個權杖。

圖片:最佳做法

使用圖片時,請遵循下列最佳做法和資訊,以獲得最佳成效:

  • 如要偵測圖片中的文字,請使用單張圖片的提示,這樣比使用多張圖片的提示效果更好。
  • 如果提示包含單一圖片,請將圖片放在要求中的文字提示之前。
  • 如果提示包含多張圖片,且您想在提示中稍後參照這些圖片,或讓模型在模型回覆中參照這些圖片,建議先為每張圖片加上索引。使用 a b cimage 1 image 2 image 3 做為索引。以下是在提示中使用索引圖片的範例:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • 使用高解析度圖片,可獲得較佳結果。
  • 在提示中加入幾個範例。
  • 先將圖片旋轉至正確方向,再加入提示。
  • 避免使用模糊的圖片。

圖片:限制

雖然Gemini多模態模型在許多多模態用途中都非常強大,但請務必瞭解模型的限制:

  • 內容審查:模型會拒絕提供違反安全政策的圖片相關答案。
  • 空間推理:模型無法精確定位圖片中的文字或物件。他們可能只會傳回物件的概略計數。
  • 醫療用途:模型不適合用於解讀醫學圖像 (例如 X 光和 CT 掃描),也不適合用於提供醫療建議。
  • 人物辨識:模型不應用於辨識圖片中非名人的使用者。
  • 準確度:解讀品質不佳、旋轉或極低解析度的圖片時,模型可能會產生幻覺或出錯。模型在解讀圖片文件中的手寫文字時,也可能會產生錯覺。



影片:規定、最佳做法和限制

影片:相關規定

在本節中,您將瞭解影片支援的 MIME 類型,以及每項要求的限制。

支援的 MIME 類型

Gemini 多模態模型支援下列影片 MIME 類型:

影片 MIME 類型 Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
每加侖英里數 - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

每項要求的限制

提示要求中可使用的影片檔案數量上限如下:

  • Gemini 2.0 FlashGemini 2.0 Flash‑Lite:10 個影片檔案

影片:權杖化

影片的權杖計算方式如下:

  • Gemini 2.5 ProGemini 2.0 FlashGemini 2.0 Flash‑Lite:音軌會與視訊影格一起編碼。音軌也會細分為1 秒的片段,每個片段會佔用 32 個權杖。影片畫面和音訊權杖會與時間戳記交錯。時間戳記以 5 個權杖表示。
  • 所有 Gemini 多模態模型:影片的取樣率為每秒 1 個影格。每個影片影格會計為 258 個權杖。

影片:最佳做法

使用影片時,請參考下列最佳做法和資訊,盡量提升成效:

  • 如果提示只包含一部影片,請將影片放在文字提示之前。
  • 如果音訊影片需要時間戳記本地化,請要求模型以 MM:SS 格式生成時間戳記,前兩位數代表分鐘,後兩位數代表秒數。詢問時間戳記的問題時,請使用相同格式。

影片:限制

雖然Gemini多模態模型在許多多模態用途中都非常強大,但請務必瞭解模型的限制:

  • 內容審核:如果影片違反安全政策,模型會拒絕提供答案。
  • 辨識非語音聲音:支援音訊的模型可能會誤認非語音聲音。
  • 高速動作:由於取樣率固定為每秒 1 個影格,模型可能無法正確解讀影片中的高速動作。



音訊:規定和限制

音訊:需求條件

在本節中,您將瞭解音訊支援的 MIME 類型,以及每項要求的限制。

支援的 MIME 類型

Gemini 多模態模型支援下列音訊 MIME 類型:

音訊 MIME 類型 Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

每項要求的限制

提示要求最多可包含 1 個音訊檔案

音訊:限制

雖然Gemini多模態模型在許多多模態用途中都非常強大,但請務必瞭解模型的限制:

  • 辨識非語音聲音:支援音訊的模型可能會誤認非語音聲音。
  • 純音訊時間戳記:如要為純音訊檔案準確生成時間戳記,請在 generation_config 中設定 audio_timestamp 參數。



文件 (例如 PDF):規定、最佳做法和限制

文件:規定

本節將說明文件 (例如 PDF) 支援的 MIME 類型,以及每個要求的限制。

支援的 MIME 類型

Gemini 多模態模型支援下列文件 MIME 類型:

文件 MIME 類型 Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
PDF - application/pdf
傳送訊息到 text/plain

每項要求的限制

PDF 會視為圖片,因此 PDF 的單一頁面會視為一張圖片。提示中允許的頁數上限取決於模型可支援的圖片數量:

  • Gemini 2.0 FlashGemini 2.0 Flash‑Lite
    • 每項要求的檔案數量上限:3,000 個
    • 每個檔案的頁數上限:1,000 頁
    • 每個檔案的大小上限為 50 MB

文件:權杖化

PDF 代碼化

PDF 會視為圖片,因此系統會以與圖片相同的方式,將 PDF 的每個頁面轉換為權杖。

此外,PDF 的費用也遵循Gemini圖片定價。 舉例來說,如果您在 Gemini API 呼叫中加入兩頁的 PDF,系統會將其視為兩張圖片,並收取輸入費用。

文件:最佳做法

使用 PDF 時,請參考下列最佳做法和資訊,以獲得最佳結果:

  • 如果提示包含單一 PDF,請在要求中將 PDF 放在文字提示之前。
  • 如果文件很長,建議將其拆分成多個 PDF 檔案,再進行處理。
  • 使用以文字形式呈現文字的 PDF,而非掃描圖片中的文字。這種格式可確保文字能以機器可讀取的形式呈現,因此與掃描的 PDF 圖片相比,模型更容易編輯、搜尋及處理文字。處理合約等文字量大的文件時,這項做法可提供最佳結果。

文件:限制

雖然Gemini多模態模型在許多多模態用途中都非常強大,但請務必瞭解模型的限制:

  • 空間推理:模型無法精確找出 PDF 中的文字或物件。他們可能只會傳回物件的概略計數。
  • 準確度:模型在解讀 PDF 文件中的手寫文字時,可能會產生幻覺。