Tokens für Gemini-Modelle zählen

Gemini Modelle verarbeiten Eingaben und Ausgaben in Einheiten, die als Tokens bezeichnet werden.

Tokens können einzelne Zeichen wie z oder ganze Wörter wie cat sein. Lange Wörter werden in mehrere Tokens aufgeteilt. Die Menge aller vom Modell verwendeten Tokens wird als Vokabular bezeichnet und der Prozess der Aufteilung von Text in Tokens als Tokenisierung.

Bei Gemini Modellen entspricht ein Token etwa vier Zeichen. 100 Tokens entsprechen etwa 60–80 englischen Wörtern.

Jedes Modell hat eine maximale Anzahl von Tokens die in einem Prompt und einer Antwort verarbeitet werden können. Wenn Sie die Anzahl der Tokens in Ihrem Prompt kennen, wissen Sie, ob Sie dieses Limit überschritten haben. Außerdem werden die Kosten einer Anfrage teilweise durch die Anzahl der Eingabe- und Ausgabetokens bestimmt. Daher kann es hilfreich sein, zu wissen, wie Tokens gezählt werden.

Unterstützte Modelle

  • gemini-3.1-pro-preview
  • gemini-3-flash-preview
  • gemini-3.1-flash-lite
  • gemini-3-pro-image-preview
  • gemini-3.1-flash-image-preview
  • gemini-2.5-pro
  • gemini-2.5-flash
  • gemini-2.5-flash-lite

Optionen zum Zählen von Tokens

Alle Eingaben und Ausgaben für die Gemini API werden tokenisiert, einschließlich Text, Bild dateien und anderer nicht textbasierter Modalitäten. Hier sind die Optionen zum Zählen von Tokens:

Anzahl der Tokens nur für Ihre Anfragen prüfen (bevor Sie sie an das Modell senden).
Rufen Sie countTokens mit der Eingabe der Anfrage auf, bevor Sie sie an das Modell senden. Folgendes wird zurückgegeben:
  • total_tokens: Anzahl der Tokens nur für die Eingabe
Anzahl der Tokens für Anfragen und Antworten prüfen.
Greifen Sie auf das Attribut usageMetadata des Antwortobjekts zu. Dazu gehören:
  • prompt_token_count: Anzahl der Tokens nur für die Eingabe
  • candidates_token_count: Anzahl der Tokens nur für die Ausgabe (ohne Tokens für Denkprozesse)
  • thoughts_token_count: Anzahl der Tokens für Denkprozesse die zum Generieren der Antwort verwendet wurden
  • total_token_count: Gesamtzahl der Tokens für sowohl die Eingabe als auch die Ausgabe (einschließlich Tokens für Denkprozesse)

Bei der Streamingausgabe wird das usageMetadata Attribut nur im letzten Chunk des Streams angezeigt. Bei Zwischen-Chunks ist es nil für Zwischen-Chunks.

Beachten Sie die folgenden Punkte zu den oben genannten Optionen:

  • Die Anzahl der Eingabebilder oder die Anzahl der Sekunden in Video- oder Audioeingabedateien wird nicht gezählt. Die Anzahl der Tokens für jede dieser Modalitäten korreliert jedoch mit diesen Werten.
  • Die Anzahl der Eingabetokens umfasst den Prompt (Text und alle Eingabedateien) sowie alle Systemanweisungen und Tools.
  • Die Anzahl der Ausgabetokens enthält keine Tokens für Denkprozesse. Diese werden in einem separaten Feld angegeben.
  • Weitere Informationen zu den einzelnen Anfragetypen finden Sie weiter unten auf dieser Seite.
  • Gemini Live API Modelle unterstützen nicht countTokens. Außerdem wird das Attribut usageMetadata in der Antwort von Live API Modellen von Firebase AI Logic noch nicht unterstützt, aber das wird bald der Fall sein.

Preise für diese Optionen

  • countTokens aufrufen: Für den Aufruf von countTokens (der Count Tokens API) fallen keine Gebühren an. Das maximale Kontingent für die Count Tokens API beträgt 3.000 Anfragen pro Minute.

  • Attribut usageMetadata verwenden: Dieses Attribut wird immer als Teil der Antwort zurückgegeben und verursacht keine Tokens oder Gebühren.

Weitere Informationen

Hier finden Sie weitere Informationen zur Verwendung bestimmter Anfragetypen.

Tokens für Texteingaben zählen

Keine weiteren Informationen.

Tokens für Unterhaltungen mit mehreren Antworten (Chat) zählen

Beachten Sie Folgendes, wenn Sie countTokens bei der Verwendung des Chats aufrufen:

  • Wenn Sie countTokens mit dem Chatverlauf aufrufen, wird die Gesamtzahl der Tokens aus beiden Rollen im Chat zurückgegeben (total_tokens).
  • Wenn Sie wissen möchten, wie groß Ihre nächste Unterhaltung sein wird, müssen Sie sie beim Aufruf von countTokens an den Verlauf anhängen.

Tokens für multimodale Eingaben zählen

Beachten Sie beim Zählen von Tokens mit multimodalen Eingaben Folgendes:

  • Optional können Sie countTokens für den Text und die Datei separat aufrufen.
  • Bei beiden Optionen zum Zählen von Tokens erhalten Sie die gleiche Anzahl von Tokens, unabhängig davon, ob Sie die Datei als Inline-Daten oder über ihre URL angeben.

Bild-Eingabedateien

Bild-Eingabedateien werden anhand ihrer Abmessungen in Tokens umgewandelt:

  • Bildeingaben mit beiden Abmessungen kleiner oder gleich 384 Pixel: Jedes Bild wird als 258 Tokens gezählt.
  • Bildeingaben, die in einer oder beiden Abmessungen größer sind: Jedes Bild wird nach Bedarf in Kacheln mit 768 × 768 Pixel zugeschnitten und skaliert. Jede Kachel wird dann als 258 Tokens gezählt.

Video- und Audioeingabedateien

Video- und Audioeingabedateien werden zu den folgenden festen Raten in Tokens umgewandelt:

  • Video: 263 Tokens pro Sekunde
  • Audio: 32 Tokens pro Sekunde

Dokument-Eingabedateien (z. B. PDFs)

PDF-Eingabedateien werden als Bilder behandelt, sodass jede Seite einer PDF-Datei auf die gleiche Weise wie ein Bild tokenisiert wird.