Watch demos on how to build & run AI-powered apps with Firebase at Demo Day '24. Watch now.

Ta strona została przetłumaczona przez Cloud Translation API.

Więcej informacji o modelach Gemini

Modele z rodziny Gemini są uważane za multimodalne, ponieważ potrafią przetwarzać informacje z różnych modalności, w tym obrazów, filmów i tekstu. Możesz na przykład wysłać modelowi Gemini zdjęcie talerza z ciasteczkami i poprosić o przepis na te ciasteczka.

Prompt	Odpowiedź
`Give me a recipe for these cookies.`	`INGREDIENTS - 1 c. (2 sticks) unsalted butter, softened - 3/4 c. granulated sugar - 3/4 c. brown sugar, packed - 1 tsp . vanilla extract - 2 large eggs - 2 1/4 c. all-purpose flour - 1 tsp. baking soda - 1 tsp. salt ...`

Z modeli z rodziny Gemini możesz korzystać za pomocą Gemini API udostępnianego przez Vertex AI na Google Cloud. W przypadku aplikacji mobilnych i internetowych możesz używać pakietów SDKVertex AI in Firebase, aby wywoływać interfejs Gemini API i wchodzić w interakcje z modelami Gemini bezpośrednio z aplikacji.

Na tej stronie znajdziesz te informacje o modelach Gemini:

Porównanie przypadków użycia różnych modeli Gemini, w tym obsługiwanych przez nie typów danych wejściowych.
Porównanie szczegółów każdego modelu, np. maksymalnej liczby tokenów wejściowych lub maksymalnej długości filmu.
Opis sposobu wersyfikowania modeli Gemini, w szczególności ich wersji stabilnej, automatycznie aktualizowanej i w wersji podglądowej.
Listy dostępnych nazw modeli, które należy uwzględnić w kodzie podczas inicjalizacji.
Lista obsługiwanych języków w modelach Gemini.

Dostępne modele

Z Vertex AI in Firebase możesz korzystać z tych modeli Gemini:

Gemini 1.5 Flash
Model multimodalny, który obsługuje te same typy danych wejściowych i wyjściowych co model 1.5 Pro, ale z zaawansowanym rozumieniem długiego kontekstu obejmującym 1 mln tokenów. Model Gemini 1.5 Flash został zaprojektowany z myślą o wysokiej wydajności i niskich kosztach.
Gemini 1.5 Pro
Model multimodalny, który obsługuje dodawanie obrazów, plików audio, filmów i plików PDF w promptach tekstowych lub czatu w celu uzyskania odpowiedzi tekstowej lub w formie kodu. Obsługuje też zrozumienie długiego kontekstu z 2 milionami tokenów.
Gemini 1.0 Pro Vision
Model multimodalny przeznaczony do obsługi tekstu, obrazów i filmów w celu uzyskania odpowiedzi tekstowej lub w formie kodu. Nie można ich używać na czacie.
Gemini 1.0 Pro
Model do zadań związanych z językiem naturalnym, wieloetapowego czatu z tekstem i kodem oraz generowania kodu.

Przejdź do sekcji Nazwy modeli, aby dodać je do kodu

Zastosowania i możliwości poszczególnych modeli

Każdy model Gemini ma różne możliwości, aby obsługiwać różne przypadki użycia. Więcej informacji o poszczególnych modelach Gemini znajdziesz w dokumentacji Google Cloud.

Obsługiwane dane wejściowe i wyjściowe w przypadku poszczególnych modeli

	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 1.0 Pro Vision	Gemini 1.0 Pro
Typy danych wejściowych
Tekst
Kod
Obraz
PDF
Film (tylko klatki)
Wideo (ramki i dźwięk)
Audio
Typy danych wyjściowych
Tekst
uporządkowane dane wyjściowe (np. w formacie JSON) przy użyciu schematu odpowiedzi;
Kod

Informacje o obsługiwanych typach plików znajdziesz w artykule Obsługiwane pliki wejściowe i wymagania dotyczące usługi Vertex AI Gemini API.

Obsługiwane funkcje i ogólne funkcje poszczególnych modeli

		Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 1.0 Pro Vision	Gemini 1.0 Pro
Generowanie tekstu na podstawie danych wejściowych zawierających tylko tekst
Generowanie tekstu na podstawie danych multimodalnych
Uporządkowany format wyjściowy (np. JSON) z użyciem schematu odpowiedzi
Czat wieloetapowy
Wywoływanie funkcji
	Podstawowe wywoływanie funkcji
	Równoległe wywoływanie funkcji
	Tryb wywoływania funkcji
Liczenie tokenów i znaków podlegających rozliczeniu
Instrukcje dotyczące systemu

szczegółowe informacje o każdym modelu;

Usługa (na żądanie)	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 1.0 Pro Vision	Gemini 1.0 Pro
Łączny limit tokenów (łączny limit danych wejściowych i wyjściowych) *	1 048 576 tokenów	2 097 152 tokeny	16 384 tokenów	32 760 tokenów
Limit tokenów wyjściowych *	8192 tokenów	8192 tokenów	2048 tokenów	8192 tokenów
Maksymalna liczba obrazów wejściowych	3000 obrazów	3000 obrazów	16 obrazów	---
Maksymalny rozmiar obrazu zakodowanego w formacie Base64	7 MB	7 MB	7 MB	---
Maksymalna liczba plików PDF wejściowych **	3000 plików	3000 plików	16 plików	---
Maksymalna liczba stron w pliku PDF **	1000 stron	1000 stron	16 stron	---
Maksymalny rozmiar pliku PDF	50 MB	50 MB	50 MB	---
Maksymalna liczba plików wideo wejściowych	10 plików	10 plików	1 plik	---
Maksymalna długość wszystkich filmów wejściowych (tylko ramki)	60 minut	60 minut	2 minuty	---
Maksymalna długość wszystkich filmów wejściowych (ramki + dźwięk)	ok. 50 minut	ok. 50 minut	---	---
Maksymalna liczba wejściowych plików audio	1 plik	1 plik	---	---
Maksymalna długość wszystkich plików audio	ok.8,4 godziny	ok.8,4 godziny	---	---

^{* W przypadku wszystkich modeli Gemini token odpowiada około 4 znakom, a 100 tokenów to około 60–80 słów w języku angielskim. Łączną liczbę tokenów w żądaniach możesz określić za pomocą parametru countTokens.}

^{** Pliki PDF są traktowane jako obrazy, więc pojedyncza strona pliku PDF jest traktowana jako jeden obraz. Liczba stron dozwolonych w żądaniu jest ograniczona do liczby obrazów, które może obsługiwać model.}

Dowiedz się więcej o obsługiwanych typach plików, sposobie określania typu MIME oraz o tym, jak sprawdzić, czy pliki i żądania multimodalne spełniają wymagania i czy są zgodne ze sprawdzonymi metodami opisanymi w artykule Obsługiwane pliki wejściowe i wymagania dotyczące usługi Vertex AI Gemini API.

Wersje modeli

Modele Gemini są dostępne w wersjach stabilnej, z automatyczną aktualizacją i testowej.

Stabilne wersje są uważane za ogólnodostępne.
- Wersje stabilne mają nazwy modeli z dodatkowym 3-cyfrowym numerem wersji, np. gemini-1.5-pro-002.
Automatycznie aktualizowane wersje zawsze odwołują się do najnowszej stabilnej wersji danego modelu. Jeśli zostanie wydana nowa stabilna wersja, automatycznie aktualizowana wersja automatycznie zacznie odwoływać się do tej nowej stabilnej wersji.
- Wersje z automatyczną aktualizacją mają nazwy modeli bez żadnych dodatków, np. gemini-1.5-pro.
Wersje w obrębie wersji zapoznawczej mają nowe możliwości i są uważane za niestabilne. Pamiętaj, że wersje podglądu zawsze odwołują się do najnowszej wersji tego modelu. Jeśli zostanie wydana nowa wersja podglądu, wszystkie istniejące wersje podglądu automatycznie zaczną odwoływać się do tej nowej wersji.
- Wersje podglądowe mają nazwy modeli z dodatkiem -preview oraz daty pierwotnego wydania modelu (-MMDD), na przykład gemini-1.5-pro-preview-0409 (wydana 9 kwietnia 2024 r.).

Więcej informacji o dostępnych wersjach modelu Gemini i ich cyklu życia znajdziesz w dokumentacji Google Cloud.

Dostępne nazwy modeli

Nazwy modeli to jawne wartości, które uwzględniasz w kodzie podczas inicjalizacji modelu generatywnego (jest to wymagany krok do wywołania funkcji Gemini API). Przykłady inicjalizacji dla danego języka znajdziesz w przewodniku na temat inicjalizacji.

Nazwy modeli Gemini 1.5 Flash

Nazwa modelu	Opis	Etap udostępniania	Data pierwszego wydania	Data zaprzestania
Wersje stabilne
`gemini-1.5-flash-002`	najnowsza stabilna wersja Gemini 1.5 Flash,	Ogólna dostępność	2024-09-24	Nie wcześniej niż 2025-09-24
`gemini-1.5-flash-001`	Pierwsza stabilna wersja Gemini 1.5 Flash	Ogólna dostępność	2024-05-24	Nie wcześniej niż 2025-05-24
Wersja z automatyczną aktualizacją
`gemini-1.5-flash`	Wskazuje najnowszą stabilną wersję Flasha 1.5 (obecnie `gemini-1.5-flash-002`)	Ogólna dostępność	2024-09-24	---

Nazwy modeli Gemini 1.5 Pro

Nazwa modelu	Opis	Etap udostępniania	Data pierwszego wydania	Data zaprzestania
Wersje stabilne
`gemini-1.5-pro-002`	najnowsza stabilna wersja Gemini 1.5 Pro,	Ogólna dostępność	2024-09-24	Nie wcześniej niż 2025-09-24
`gemini-1.5-pro-001`	Pierwsza stabilna wersja Gemini 1.5 Pro	Ogólna dostępność	2024-05-24	Nie wcześniej niż 2025-05-24
Wersja z automatyczną aktualizacją
`gemini-1.5-pro`	wskazuje najnowszą stabilną wersję 1.5 Pro (obecnie `gemini-1.5-pro-002`).	Ogólna dostępność	2024-09-24	---

Nazwy modeli Gemini 1.0 Pro Vision

Nazwa modelu	Opis	Etap udostępniania	Data pierwszego wydania	Data zaprzestania
Wersje stabilne
`gemini-1.0-pro-vision-001`	najnowsza stabilna wersja Gemini 1.0 Pro Vision;	Ogólna dostępność	2024-02-15	Nie wcześniej niż 2025-02-15
Wersja z automatyczną aktualizacją
`gemini-1.0-pro-vision`	Wskazuje najnowszą stabilną wersję 1.5 Pro Vision (obecnie `gemini-1.5-pro-vision-001`).	Ogólna dostępność	2024-01-04	---

Nazwy modeli Gemini 1.0 Pro

Nazwa modelu	Opis	Etap udostępniania	Data pierwszego wydania	Data zaprzestania
Wersje stabilne
`gemini-1.0-pro-002`	najnowsza stabilna wersja Gemini 1.0 Pro,	Ogólna dostępność	2024-04-09	Nie wcześniej niż 9.04.2025
`gemini-1.0-pro-001`	Stabilna wersja Gemini 1.0 Pro	Ogólna dostępność	2024-02-15	Nie wcześniej niż 2025-02-15
Wersja z automatyczną aktualizacją
`gemini-1.0-pro`	Wskazuje najnowszą stabilną wersję 1.0 Pro (obecnie `gemini-1.0-pro-002`).	Ogólna dostępność	2024-02-15	---

Obsługiwane języki

Wszystkie modele Gemini rozumieją i odpowiadają w tych językach:

arabski (ar), bengalski (bn), bułgarski (bg), chiński uproszczony i tradycyjny (zh), chorwacki (hr), czeski (cs), duński (da), niderlandzki (nl), angielski (en), estoński (et), fiński (fi), francuski (fr), grecki (el), hebrajski (iw), hindi (hi), węgierski (hu), indonezyjski (id), hiszpański (es), japoński (ja), koreański (ko), łaciński (la), litewski (lt), norweski (no), polski (pl), portugalski (pt), rumuński (ro), rosyjski (ru), serbski (sr), słowacki (sk), słoweński (sl), szwedzki (sv), swahili (sw), tajski (th), turecki (tr), ukraiński (uk), wietnamski (vi)
Modele Gemini 1.5 Pro i Gemini 1.5 Flash mogą rozumieć i odpowiadać w tych dodatkowych językach:

Afrikaans (af), Amharic (am), Assamese (as), Azerbaijani (az), Belarusian (be), Bosnian (bs), Catalan (ca), Cebuano (ceb), Corsican (co), Welsh (cy), Dhivehi (dv), Esperanto (eo), Basque (eu), Persian (fa), Filipino (Tagalog) (fil), Frisian (fy), Irish (ga), Scots Gaelic (gd), Galician (gl), Gujarati (gu), Hausa (ha), Hawaiian (haw), Hmong (hmn), Haitian Creole (ht), Armenian (hy), Igbo (ig), Icelandic (is), Javanese (jv), Georgian (ka), Kazakh (kk), Khmer (km), Kannada (kn), Krio (kri), Kurdish (ku), Kyrgyz (ky), Latin (la), Luxembourgish (lb), Lao (lo), Malagasy (mg), Maori (mi), Macedonian (mk), Malayalam (ml), Mongolian (mn), Meiteilon (Manipuri) (mni-Mtei), Marathi (mr), Malay (ms), Maltese (mt), Myanmar (Burmese) (my), Nepali (ne), Nyanja (Chichewa) (ny), Odia (Oriya) (or), Punjabi (pa), Pashto (ps), Sindhi (sd), Sinhala (Sinhalese) (si), Samoan (sm), Shona (sn), Somali (so), Albanian (sq), Sesotho (st), Sundanese (su), Tamil (ta), Telugu (te), Tajik (tg), Uyghur (ug), Urdu (ur), Uzbek (uz), Xhosa (xh), Yiddish (yi), Yoruba (yo), Zulu (zu)

Dalsze kroki

Wypróbuj możliwości Gemini API

tworzyć rozmowy wieloetapowe (czat);
generować tekst na podstawie promptów tekstowych;
generować tekst na podstawie promptów multimodalnych (w tym tekstu, obrazów, plików PDF, filmów i plików audio);
generować dane wyjściowe w uporządkowanym formacie (np. JSON) na podstawie zarówno promptów tekstowych, jak i promptów multimodalnych;
Aby połączyć modele generatywne z zewnętrznymi systemami i informacjami, użyj wywołania funkcji.