Limity i kwoty

Vertex AI in Firebase wymaga 2 różnych interfejsów API (każdy z własnymi limitami szybkości i limitem): interfejs API Vertex AI i interfejs API Vertex AI in Firebase.

Każdy z tych interfejsów API ma limit (czasem nazywany też limitem szybkości), który jest mierzony jako liczba żądań na minutę (RPM) – w szczególności żądań „generowania treści” (zarówno strumieniowego, jak i bez strumieniowego). Interfejs API Vertex AI ma też limit tokenów wejściowych na minutę.

Na tej stronie znajdziesz informacje na te tematy:

Ogólne informacje o limitach i Google Cloud znajdziesz w dokumentacji dotyczącej limitów w Google Cloud.

Limity (limity stawek) dla każdego modelu i regionu

Szczegółowe limity (limity szybkości) dla poszczególnych modeli i regionów znajdziesz w dokumentacji Google Cloud.

Limity są ustalane dla poszczególnych modeli w poszczególnych regionach, dlatego warto ustawić lokalizację, w której będziesz korzystać z modelu, aby uniknąć nieoczekiwanego przekroczenia limitów szybkości.

Informacje o limitach poszczególnych interfejsów API

Limity poszczególnych interfejsów API są mierzone nieco inaczej, co oznacza, że można ich używać do różnych celów.

Informacje o limitach interfejsu API Vertex AI

Limity Vertex AI API są oparte na „żądaniach generowania treści” na podstawie modelu, regionu i minuty.

Oto kilka ważnych informacji o tych limitach (w szczególności o żądaniach na minutę i tokenach wejściowych na minutę):

  • Są one stosowane na poziomie projektu i udostępniane we wszystkich aplikacjach i adresach IP, które korzystają z tego projektu Firebase.

  • Dotyczą one każdego wywołania Vertex AI Gemini API, niezależnie od tego, czy jest ono wysyłane za pomocą pakietów SDK klienta Vertex AI in Firebase, pakietów SDK serwera Vertex AI, usługi Genkit, usługi Gemini Firebase Extensions, wywołań REST Vertex AI Studio czy innych klientów interfejsu API.

  • Dotyczą one modelu podstawowego oraz wszystkich wersji, identyfikatorów i wersji dostrojonych tego modelu. Oto przykłady:

    • Żądanie gemini-1.0-pro i żądanie gemini-1.0-pro-001 są liczone jako 2 żądania w ramach limitu RPM modelu podstawowego gemini-1.0 pro.

    • Żądanie do gemini-1.0-pro-001 i żądanie do dostrojonego modelu opartego na gemini-1.0-pro-001 są liczone jako 2 żądania w ramach limitu RPM modelu podstawowego gemini-1.0-pro.

  • Domyślne limity dla każdego modelu i każdego regionu znajdziesz w dokumentacji Google Cloud.

Te limity muszą być wystarczająco wysokie, aby uwzględnić łączną liczbę użytkowników w danym regionie, którzy mogą korzystać z funkcji AI korzystających z określonego modelu. Ponieważ są to limity na minutę, mało prawdopodobne jest, że wszyscy użytkownicy w danym regionie będą korzystać z tych samych funkcji w tym samym czasie i wyczerpią te limity. Pamiętaj jednak, że każda aplikacja jest inna, więc dostosuj te limity odpowiednio do jej potrzeb.

Informacje o limitach interfejsu API Vertex AI in Firebase

Limit Vertex AI in Firebase interfejsu API jest określany na podstawie „żądań generowania treści” na użytkownika i region na minutę.

Oto kilka ważnych informacji o tej kwocie (w szczególności o liczbach żądań na minutę):

  • Ma on zastosowanie na poziomie projektu i dotyczy wszystkich aplikacji oraz adresów IP, które korzystają z tego projektu Firebase.

  • Dotyczy to każdego wywołania, które przechodzi przez dowolny pakiet Vertex AI in Firebase SDK.

  • Domyślny limit to 100 RPM na użytkownika.
    Pamiętaj, że musisz też wziąć pod uwagę limity dotyczące ilości danych w interfejsie Vertex AI API, zwłaszcza jeśli są one niższe niż 100 RPM.

Ta kwota musi być wystarczająco wysoka, aby umożliwić jednemu użytkownikowi korzystanie z funkcji AI, które korzystają z Vertex AI in Firebase. Ponieważ ten interfejs API działa jako brama do interfejsu Vertex AI API, możesz używać limitu interfejsu Vertex AI API, aby zapewnić, że żaden użytkownik nie przekroczy limitu interfejsu Vertex AI API (który jest przeznaczony do współdzielenia przez wszystkich użytkowników).Vertex AI in Firebase

Wyświetlanie limitów dla każdego interfejsu API

Limity dotyczące poszczególnych interfejsów API możesz sprawdzić w konsoli Google Cloud.

  1. W konsoli Google Cloud otwórz stronę interesującego Cię interfejsu API: Vertex AI API lub Vertex AI in Firebase API.

  2. Kliknij Zarządzaj.

  3. Dalej na stronie kliknij kartę Limity przydziału i limity systemu.

  4. Przefiltruj tabelę, aby wyświetlić interesujące Cię limity.

    Pamiętaj, że aby utworzyć filtr Dimension, musisz użyć narzędzia do filtrowania, a nie po prostu skopiować i wklejć wartości z podanych niżej przykładów.

    • W przypadku interfejsu API Vertex AI: określ możliwości (żądania generowania treści), nazwę modelu i region.

      Aby na przykład wyświetlić limity generowania próśb o treści za pomocą Gemini 2.0 Flash w dowolnym obsługiwanym regionie UE, filtr powinien wyglądać tak:
      Generate content requests + Dimension:base_model:gemini-2.0-flash + Dimension:region:eu

    • W przypadku interfejsu API Vertex AI in Firebase: określ możliwości (żądania generowania treści) i region.

      Jeśli na przykład chcesz wyświetlić limity na użytkownika dotyczące generowania próśb o treści w dowolnym z obsługiwanych regionów azjatyckich, filtr będzie wyglądać tak:
      Generate content requests + Dimension:region:asia

      Pamiętaj, że limity interfejsu API Vertex AI in Firebase nie zależą od konkretnego modelu. Ponadto wiersz limitu (default) nie dotyczy Vertex AI in Firebase.

Edytowanie limitu lub prośba o jego zwiększenie

Zanim przejdziesz do wersji produkcyjnej lub jeśli widzisz błąd 429 z powodu przekroczenia limitu, możesz potrzebować zmodyfikować limit lub poprosić o jego zwiększenie. Dostosuj limity każdego interfejsu API (więcej informacji znajdziesz w sekcji Zrozumienie limitów poszczególnych interfejsów API na tej stronie).

Aby edytować limit, musisz mieć uprawnienie serviceusage.quotas.update, które jest domyślnie zawarte w roli Właściciel i Edytujący.

Aby edytować limit lub poprosić o jego zwiększenie:

  1. Aby wyświetlić limity poszczególnych interfejsów API, wykonaj instrukcje z poprzedniego podrozdziału.

  2. Zaznacz pole wyboru po lewej stronie każdego limitu, który Cię interesuje.

  3. Na końcu wiersza limitu kliknij menu z 3 kropkami, a potem wybierz Edytuj limit.

  4. W formularzu Zmiany limitów:

    1. W polu Nowa wartość wpisz zwiększony limit.

      Ta pula jest stosowana na poziomie projektu i jest współdzielona między wszystkimi aplikacjami oraz adresami IP, które korzystają z tego projektu Firebase.

    2. Wypełnij wszelkie dodatkowe pola w formularzu i kliknij Gotowe.

    3. Kliknij Prześlij wniosek.