Desteklenen giriş dosyaları ve gereksinimler

Firebase AI Logic SDK'sını kullanarak uygulamanızdan Gemini API işlevini çağırdığınızda, Gemini modelinden resim, video, ses ve doküman (ör. PDF) gibi çok formatlı bir girişe dayalı metin oluşturmasını isteyebilirsiniz.

Desteklenen dosya türlerini kullanmanız, desteklenen bir MIME türü belirtmeniz ve dosyalarınızın ve çok formatlı isteklerinizin şartları karşıladığından ve en iyi uygulamalara uygun olduğundan emin olmanız gerekir.

Bu sayfa, GenerativeModel kullanmaya özeldir ve aşağıdakileri açıklar:

Çok formatlı isteklerde dosya sağlama seçenekleri

Bu sayfada sağlayıcıya özel içerikleri görüntülemek için Gemini API sağlayıcınızı seçin

Her çok formatlı istekte her zaman aşağıdakileri sağlamanız gerekir:

İstekle birlikte sağlayabileceğiniz dosyaların boyutu ve sayısı; giriş dosyası türü, dosyayı sağlama şekliniz ve kullanılan modele göre belirlenir (ayrıntılar için bu sayfadaki her giriş dosyası türünün bölümüne bakın).

1. seçenek: Dosyayı satır içi veri olarak sağlama

Satır içi veri olarak sağlanan dosyalarla ilgili aşağıdaki bilgileri unutmayın:

  • Toplam istek boyutu sınırı 20 MB olduğundan yalnızca küçük dosyalar satır içi veri olarak gönderilebilir.

  • Dosya, aktarım sırasında base64 ile kodlanır (bu da dosya boyutunu artırır).

Bir dosyayı satır içi veri olarak eklemeyle ilgili örneği Metin ve dosya (çok formatlı) girişinden metin oluşturma başlıklı makalede bulabilirsiniz. Android ve Apple platformlarındaki SDK'ların, MIME türünü belirtmeye gerek kalmadan isteklerdeki satır içi resimleri işleyebileceğini unutmayın. Daha fazla bilgi edinin.

2. seçenek: Dosyayı URL kullanarak sağlama

Gemini Developer API kullanılırken kabul edilen URL türleri şunlardır:



Resimler: Koşullar, en iyi uygulamalar ve sınırlamalar

Resimler: Şartlar

Bu bölümde, desteklenen MIME türleri ve istek başına görüntü sınırları hakkında bilgi edinebilirsiniz.

Desteklenen MIME türleri

Gemini Çok formatlı modeller aşağıdaki resim MIME türlerini destekler:

Resim MIME türü Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
PNG - image/png
JPEG - image/jpeg
WebP - image/webp

İstek başına sınırlar

Bir resimdeki piksel sayısı için belirli bir sınır yoktur. Ancak daha büyük resimler, orijinal en boy oranları korunarak maksimum 3072 x 3072 çözünürlüğe sığacak şekilde küçültülür ve doldurulur.

İstem isteğinde izin verilen maksimum resim dosyası sayısı şöyledir:

  • Gemini 2.0 Flash ve Gemini 2.0 Flash‑Lite: 3.000 resim

Resimler: Belirtkeleme

Resimler için jetonların nasıl hesaplandığı aşağıda açıklanmıştır:

  • Gemini 2.0 Flash ve Gemini 2.0 Flash‑Lite:
    • Bir resmin her iki boyutu da 384 pikselden küçük veya 384 piksele eşitse 258 jeton kullanılır.
    • Bir resmin bir boyutu 384 pikselden büyükse resim döşemeler halinde kırpılır. Her kutu boyutu, varsayılan olarak en küçük boyutun (genişlik veya yükseklik) 1,5'a bölünmesiyle elde edilir. Gerekirse her döşeme, 256 pikselden küçük ve 768 pikselden büyük olmayacak şekilde ayarlanır. Daha sonra her kutucuk 768x768 boyutuna yeniden boyutlandırılır ve 258 jeton kullanılır.

Resimler: En iyi uygulamalar

Resim kullanırken en iyi sonuçları elde etmek için aşağıdaki en iyi uygulamalardan ve bilgilerden yararlanın:

  • Bir resimdeki metni algılamak istiyorsanız birden fazla resim içeren istemlere kıyasla daha iyi sonuçlar elde etmek için tek bir resim içeren istemler kullanın.
  • İsteminiz tek bir resim içeriyorsa isteğinizde resmi metin isteminden önce yerleştirin.
  • İsteminizde birden fazla resim varsa ve bunlara daha sonra isteminizde atıfta bulunmak veya modelin model yanıtında bunlara atıfta bulunmasını istiyorsanız her resme, resimden önce bir dizin vermek faydalı olabilir. Dizininiz için a b c veya image 1 image 2 image 3 kullanın. Aşağıda, istemde dizine eklenmiş resimlerin kullanımına dair bir örnek verilmiştir:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • Daha yüksek çözünürlüklü resimler kullanın. Bu resimler daha iyi sonuçlar verir.
  • İsteme birkaç örnek ekleyin.
  • Görüntüleri isteme eklemeden önce doğru yöne döndürün.
  • Bulanık resimlerden kaçının.

Resimler: Sınırlamalar

Gemini Çok formatlı modeller birçok çok formatlı kullanım alanında güçlü olsa da modellerin sınırlamalarını anlamak önemlidir:

  • İçerik denetimi: Modeller, güvenlik politikalarımızı ihlal eden resimlerle ilgili yanıt vermeyi reddediyor.
  • Uzamsal akıl yürütme: Modeller, resimlerdeki metinleri veya nesneleri bulma konusunda hassas değildir. Yalnızca nesnelerin yaklaşık sayılarını döndürebilirler.
  • Tıbbi kullanımlar: Modeller, tıbbi görüntüleri (ör. röntgen ve BT taramaları) yorumlamak veya tıbbi tavsiye vermek için uygun değildir.
  • Kişi tanıma: Modeller, görüntülerdeki ünlü olmayan kişileri tanımlamak için kullanılmamalıdır.
  • Doğruluk: Modeller, düşük kaliteli, döndürülmüş veya son derece düşük çözünürlüklü görüntüleri yorumlarken halüsinasyon görebilir ya da hata yapabilir. Modeller, resim belgelerindeki el yazısı metinleri yorumlarken de halüsinasyon üretebilir.



Video: Şartlar, en iyi uygulamalar ve sınırlamalar

Video: Şartlar

Bu bölümde, video için desteklenen MIME türleri ve istek başına sınırlar hakkında bilgi edinebilirsiniz.

Desteklenen MIME türleri

Gemini Çok formatlı modeller aşağıdaki video MIME türlerini destekler:

Video MIME türü Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

İstek başına sınırlar

İstem isteğinde izin verilen maksimum video dosyası sayısı şöyledir:

  • Gemini 2.0 Flash ve Gemini 2.0 Flash‑Lite: 10 video dosyası

Video: Belirtkeleme

Videolar için jetonların hesaplanma şekli aşağıda açıklanmıştır:

  • Gemini 2.5 Pro, Gemini 2.0 Flash ve Gemini 2.0 Flash‑Lite: Ses parçası video kareleriyle kodlanır. Ses parçası, her biri 32 jeton içeren 1 saniyelik parçalara da ayrılır. Video karesi ve ses jetonları, zaman damgalarıyla birlikte araya yerleştirilir. Zaman damgaları 5 jeton olarak gösterilir.
  • Tüm çok formatlı Gemini modelleri: Videolar saniyede 1 kare (fps) hızında örneklenir. Her video karesi 258 jeton olarak kabul edilir.

Video: En iyi uygulamalar

Video kullanırken en iyi sonuçları elde etmek için aşağıdaki en iyi uygulamalardan ve bilgilerden yararlanın:

  • İsteminiz tek bir video içeriyorsa videoyu metin isteminden önce yerleştirin.
  • Sesli bir videoda zaman damgası yerelleştirmesi yapmanız gerekiyorsa modelden, ilk iki rakamın dakikayı, son iki rakamın ise saniyeyi temsil ettiği MM:SS biçiminde zaman damgaları oluşturmasını isteyin. Zaman damgasıyla ilgili sorularda aynı biçimi kullanın.

Video: Sınırlamalar

Gemini Çok formatlı modeller birçok çok formatlı kullanım alanında güçlü olsa da modellerin sınırlamalarını anlamak önemlidir:

  • İçerik moderasyonu: Modeller, güvenlik politikalarımızı ihlal eden videolarla ilgili yanıt vermeyi reddediyor.
  • Konuşma dışı ses tanıma: Sesi destekleyen modeller, konuşma dışı sesleri tanımada hata yapabilir.
  • Yüksek hızlı hareket: Modeller, sabit saniyede 1 kare (fps) örnekleme hızı nedeniyle videodaki yüksek hızlı hareketi anlamada hata yapabilir.



Ses: Şartlar ve sınırlamalar

Ses: Şartlar

Bu bölümde, ses için desteklenen MIME türleri ve istek başına sınırlar hakkında bilgi edinebilirsiniz.

Desteklenen MIME türleri

Gemini Çok formatlı modeller aşağıdaki ses MIME türlerini destekler:

Ses MIME türü Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

İstek başına sınırlar

Bir istem isteğine en fazla 1 ses dosyası ekleyebilirsiniz.

Ses: Sınırlamalar

Gemini Çok formatlı modeller birçok çok formatlı kullanım alanında güçlü olsa da modellerin sınırlamalarını anlamak önemlidir:

  • Konuşma dışı ses tanıma: Sesi destekleyen modeller, konuşma dışı sesleri tanımada hata yapabilir.
  • Yalnızca ses içeren dosyalar için zaman damgaları: Yalnızca ses içeren dosyalar için doğru zaman damgaları oluşturmak istiyorsanız audio_timestamp parametresini generation_config içinde yapılandırmanız gerekir.



Dokümanlar (ör. PDF'ler): Şartlar, en iyi uygulamalar ve sınırlamalar

Belgeler: Şartlar

Bu bölümde, dokümanlar (ör. PDF'ler) için desteklenen MIME türleri ve istek başına sınırlar hakkında bilgi edinebilirsiniz.

Desteklenen MIME türleri

Gemini Çok formatlı modeller aşağıdaki doküman MIME türlerini destekler:

Belge MIME türü Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
PDF - application/pdf
Metin - text/plain

İstek başına sınırlar

PDF'ler resim olarak değerlendirilir. Bu nedenle, PDF'nin tek bir sayfası tek bir resim olarak değerlendirilir. Bir istemde izin verilen sayfa sayısı, modelin destekleyebileceği resim sayısı ile sınırlıdır:

  • Gemini 2.0 Flash ve Gemini 2.0 Flash‑Lite:
    • İstek başına maksimum dosya sayısı: 3.000
    • Dosya başına maksimum sayfa sayısı: 1.000
    • Dosya başına maksimum boyut: 50 MB

Belgeler: Belirtkeleme

PDF şifreleme

PDF'ler resim olarak değerlendirilir. Bu nedenle, PDF'lerin her sayfası resimlerle aynı şekilde belirteklere ayrılır.

Ayrıca, PDF'lerin maliyeti Gemini görüntü fiyatlandırmasına göre belirlenir. Örneğin, bir Gemini API çağrısına iki sayfalık bir PDF eklerseniz iki resmin işlenmesi için giriş ücreti ödersiniz.

Dokümanlar: En iyi uygulamalar

PDF'leri kullanırken en iyi sonuçları elde etmek için aşağıdaki en iyi uygulamalardan ve bilgilerden yararlanın:

  • İsteminize tek bir PDF eklediyseniz isteğinizde PDF'yi metin isteminden önce yerleştirin.
  • Uzun bir dokümanınız varsa işlemek için bunu birden fazla PDF'ye bölmeyi düşünebilirsiniz.
  • Taranmış resimlerdeki metinleri kullanmak yerine, metnin metin olarak oluşturulduğu PDF'leri kullanın. Bu biçim, metnin makine tarafından okunabilir olmasını sağlar. Böylece modelin, taranmış resim PDF'lerine kıyasla metni düzenlemesi, araması ve değiştirmesi daha kolay olur. Bu uygulama, sözleşmeler gibi metin ağırlıklı belgelerle çalışırken en iyi sonuçları verir.

Belgeler: Sınırlamalar

Gemini Çok formatlı modeller birçok çok formatlı kullanım alanında güçlü olsa da modellerin sınırlamalarını anlamak önemlidir:

  • Uzamsal akıl yürütme: Modeller, PDF'lerdeki metin veya nesneleri bulma konusunda hassas değildir. Yalnızca nesnelerin yaklaşık sayılarını döndürebilirler.
  • Doğruluk: Modeller, PDF belgelerindeki el yazısı metinleri yorumlarken halüsinasyon görebilir.