Vertex AI Gemini API 支持的输入文件和要求

使用Vertex AI Gemini API Vertex AI in Firebase SDK,您可以提示 Gemini 模型生成文本 进行训练。多模态提示可以包含多种模态 (或输入类型),例如文字以及图片、PDF、视频和音频。

对于输入的非文本部分(例如媒体文件),您需要使用 支持的文件类型,指定支持的 MIME 类型,并确保 文件和多模态请求符合要求并遵循最佳实践。

本页介绍了支持的 MIME 类型、最佳实践和限制 用于以下方面:

针对 Vertex AI in Firebase SDK 的要求

对于 Vertex AI in Firebase 个 SDK,请求的总大小上限为 20 MB。如果请求过大,您会收到 HTTP 413 错误。



图片:要求、最佳做法和限制

图片:要求

在本部分中,您将了解支持的 MIME 类型和每个请求的 图片。

支持的 MIME 类型

Gemini 多模态模型支持以下图片 MIME 类型:

图片 Mime 类型 Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PNG - image/png
JPEG - image/jpeg

每个请求的限额

对图片中的像素数量没有具体限制。不过, 放大的图片会按比例缩小并填充,以适应 3072 x 的最大分辨率 3072,同时保留原始宽高比。

以下是提示请求中允许的图片文件的数量上限:

  • Gemini 1.0 Pro Vision:16 张图片
  • Gemini 1.5 Flash 和 Gemini 1.5 Pro:3000 张图片

图片:令牌化

图片词元的计算方式如下:

  • Gemini 1.0 Pro Vision:每个图片都对应一个图片 258 个词元。
  • Gemini 1.5 Flash 和 Gemini 1.5 Pro: <ph type="x-smartling-placeholder">
      </ph>
    • 如果图片的两个尺寸均小于或等于 384 像素, 就会用到 258 个词元。
    • 如果图片的某一个尺寸大于 384 像素,则 图片被剪裁成平铺图片每个图块大小默认为 尺寸(宽度或高度)除以 1.5。如有必要,每个图块 调整为不小于 256 像素,且不超过 768 像素。然后将每个图块的大小调整为 768x768,并使用 258 个词元。

图片:最佳做法

使用图片时,请遵循以下最佳实践和有关 最佳结果:

  • 如果要检测图片中的文本,请使用针对单张图片的提示 生成比包含多张图片的提示更好的结果。
  • 如果提示包含单张图片,请将该图片放在文本前面 。
  • 如果提示包含多个图片,并且你想引用这些图片 或者让模型在模型回答中引用它们, 不妨在每张图片之前为其添加索引使用 a b cimage 1 image 2 image 3 。以下示例展示了如何在 提示:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • 使用分辨率更高的图片;它们会带来更好的效果。
  • 在提示中添加一些示例。
  • 在将图片添加到 提示。
  • 避免使用模糊的图片。

图片:限制

虽然多模态 Gemini 模型在许多多模态应用场景中表现出强大功能,但了解模型的限制非常重要:

  • 内容审核:模型拒绝提供答案 。
  • 空间推理:模型在定位位置时 图片中的文字或对象它们可能只会返回 对象的操作。
  • 医疗用途:此类模型不适合用于解读 医学影像(例如 X 光片和 CT 扫描影像)或提供医疗数据 建议。
  • 人物识别:这些模型并不能用于 识别图片中的名人。
  • 准确率:模型可能会产生认知错误或出错 。 在以文本形式解读手写文本时,这些模型还可能会产生认知错误。 图片文档。



视频:要求、最佳做法和限制

视频:要求

在本部分中,您将了解支持的 MIME 类型和每个请求的 视频。

支持的 MIME 类型

多模态 Gemini 模型支持以下视频 MIME 类型:

视频 MIME 类型 Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
FLV - video/x-flv
MOV - video/mov
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

每个请求的限额

以下是提示请求中允许的视频文件数量上限:

  • Gemini 1.0 Pro Vision:1 个视频文件
  • Gemini 1.5 Flash 和 Gemini 1.5 Pro:10 个视频文件

视频:令牌化

视频广告词元的计算方式如下:

  • 所有多模态 Gemini 模型:视频采用 1 帧/秒 (fps) 进行采样。每个视频帧占 258 个词元。
  • Gemini 1.5 Flash 和 Gemini 1.5 Pro:音轨已经过编码 包含视频帧音轨还会拆分为时长 1 秒的主干,每个主干占 32 个词元。视频帧和音频词元与其时间戳交错在一起。时间戳表示为 7 个词元。

视频:最佳做法

使用视频时,请遵循以下最佳实践和信息以获得最佳结果:

  • 如果提示包含单个视频,请将该视频放在文本提示前面。
  • 如果需要对包含音频的视频进行时间戳本地化,请让模型生成 MM:SS 格式的时间戳,其中前两位数表示分钟,后两位数表示秒。对于询问时间戳的问题,请使用相同的格式。
  • 如果您使用的是 Gemini 1.0 Pro Vision,请注意以下几点:

    • 每个提示最多使用一个视频。
    • 模型仅在 视频。
    • 该模型将视频作为视频中的非连续图片帧处理。音频不包括音频。如果您发现该模型从视频中缺少某些内容,请尝试缩短视频,以便该模型捕获更多视频内容。
    • 该模型不会处理任何音频信息或时间戳元数据。因此,在需要音频输入(例如为音频添加字幕)或时间相关信息(例如速度或节奏)的用例中,模型可能表现不佳。

视频:限制

虽然多模态 Gemini 模型在许多多模态应用场景中表现出强大功能,但了解模型的限制非常重要:

  • 内容审核:模型拒绝对违反我们安全政策的视频提供回答。
  • 非语音声音识别:支持音频的模型可能会在识别非语音声音时犯错。
  • 高速运动:由于固定的 1 帧/秒 (fps) 采样率,因此模型在理解视频中的高速运动时可能会出错。
  • 转写标点符号(如果使用 Gemini 1.5 Flash)这些模型 返回不包含标点符号的转写内容。



音频:要求和限制

音频:要求

在本部分中,您将了解支持的 MIME 类型和每个请求的 音频。

支持的 MIME 类型

Gemini 多模态模型支持以下音频 MIME 类型:

音频 MIME 类型 Gemini 1.5 Flash Gemini 1.5 Pro
AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

每个请求的限额

一个提示请求最多可以包含 1 个音频文件

音频:限制

虽然多模态 Gemini 模型在许多多模态应用场景中表现出强大功能,但了解模型的限制非常重要:

  • 非语音声音识别:支持音频的模型可能会在识别非语音声音时犯错。
  • 纯音频时间戳:支持音频的模型 无法为包含音频文件的请求准确生成时间戳。这个 包含细分时间戳和时间本地化时间戳。时间戳 准确生成包含音频的视频的输入。
  • 转写标点符号(如果使用 Gemini 1.5 Flash)这些模型 返回不包含标点符号的转写内容。



文件(如 PDF):要求、最佳做法和限制

文档:要求

在本部分中,您将了解支持的 MIME 类型和每个请求的 文档(例如 PDF)。

支持的 MIME 类型

Gemini 多模态模型支持以下文档 MIME 类型:

文档 MIME 类型 Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PDF - application/pdf

每个请求的限额

PDF 被视为图片,因此 PDF 中的单个页面被视为一个 图片。提示中允许的页数受限于 模型可支持的图片数量:

  • Gemini 1.0 Pro Vision:16 页
  • Gemini 1.5 Pro 和 Gemini 1.5 Flash:1000 页

文档:标记化

PDF 被视为图片,因此 PDF 的每个页面都在同一 以图片的形式呈现

此外,PDF 的费用如下 Gemini 映像价格。 例如,如果您在 Gemini API 调用中添加了一个两页的 PDF 文件, 会产生处理两张图片的输入费用。

文档:最佳做法

使用 PDF 时,请遵循以下最佳做法和有关 最佳结果:

  • 如果提示包含一个 PDF,请将该 PDF 放在文本前面 。
  • 如果您的文档很长,请考虑将其拆分为多个 PDF 处理数据。
  • 使用以文本形式呈现的 PDF 文件,而不是 扫描图片。这种格式可确保文本是机器可读的, 与扫描模型相比, 图片 PDF。这种做法可在使用 例如合同等包含大量文本的文档。

文档:限制

虽然多模态 Gemini 模型在许多多模态应用场景中表现出强大功能,但了解模型的限制非常重要:

  • 空间推理:模型在定位位置时 PDF 文件中的文本或对象。它们可能只会返回 对象的操作。
  • 准确率:模型在解读时可能会出现幻觉 PDF 文档中的手写文本。