Saat memanggil Gemini API dari aplikasi Anda menggunakan Firebase AI Logic SDK, Anda dapat meminta model Gemini untuk membuat teks berdasarkan input multimodal seperti gambar, video, dan audio, serta dokumen (seperti PDF).
Anda harus menggunakan jenis file yang didukung, menentukan jenis MIME yang didukung, dan memastikan bahwa file dan permintaan multimodal Anda memenuhi persyaratan dan mengikuti praktik terbaik.
Halaman ini khusus untuk penggunaan GenerativeModel dan menjelaskan hal berikut:
Detail tentang jenis MIME yang didukung, praktik terbaik, dan batasan untuk input file berikut:
Gambar | Video | Audio | Dokumen (seperti PDF).
Opsi untuk menyediakan file dalam permintaan multimodal
|
Pilih penyedia Gemini API Anda untuk melihat konten khusus penyedia di halaman ini |
Dalam setiap permintaan multimodal, Anda harus selalu menyediakan hal berikut:
mimeTypefile. Lihat jenis MIME yang didukung setiap file input di bagian yang berlaku di halaman ini.File. Anda dapat menyediakan file sebagai data inline atau menyediakan file menggunakan URL-nya.
Ukuran dan jumlah file yang dapat Anda berikan dalam permintaan ditentukan oleh jenis file input, cara Anda menyediakan file, dan model yang digunakan (untuk mengetahui detailnya, lihat bagian setiap jenis file input di halaman ini).
Opsi 1: Menyediakan file sebagai data inline
Perhatikan hal berikut terkait file yang disediakan sebagai data inline:
Hanya file kecil yang dapat dikirim sebagai data inline karena batas ukuran permintaan total adalah 20 MB.
File dienkode ke base64 saat transit (yang meningkatkan ukuran file).
Untuk contoh yang menunjukkan cara menyertakan file sebagai data inline, lihat Membuat teks dari input teks dan file (multimodal). Perhatikan bahwa SDK untuk platform Android dan Apple dapat menangani gambar inline dalam permintaan tanpa perlu menentukan jenis MIME. Pelajari lebih lanjut.
Opsi 2: Menyediakan file menggunakan URL
Berikut adalah jenis URL yang dapat diterima saat menggunakan Gemini Developer API:
URL video YouTube: Video YouTube harus bersifat publik atau tidak publik.
Anda dapat menentukan satu URL video YouTube per permintaan.
Gambar: Persyaratan, praktik terbaik, dan batasan
Gambar: Persyaratan
Di bagian ini, pelajari jenis MIME yang didukung dan batas per permintaan untuk gambar.
Jenis MIME yang didukung
Gemini model multimodal mendukung jenis MIME gambar berikut:
- PNG -
image/png - JPEG -
image/jpeg - WebP -
image/webp
Batas per permintaan
Tidak ada batasan khusus untuk jumlah piksel dalam gambar. Namun, gambar yang lebih besar akan diperkecil dan diberi padding agar sesuai dengan resolusi maksimum 3072 x 3072 sambil mempertahankan rasio aspek aslinya.
Jumlah maksimum file per permintaan: 3.000 file gambar
Gambar: Tokenisasi
Berikut cara token dihitung untuk gambar:
- Jika kedua dimensi gambar kurang dari atau sama dengan 384 piksel, 258 token akan digunakan.
- Jika salah satu dimensi gambar lebih besar dari 384 piksel, maka gambar akan dipangkas menjadi petak. Ukuran setiap petak secara default adalah dimensi terkecil dimensi (lebar atau tinggi) dibagi 1,5. Jika perlu, setiap petak akan disesuaikan agar tidak lebih kecil dari 256 piksel dan tidak lebih besar dari 768 piksel. Setiap petak kemudian diubah ukurannya menjadi 768x768 dan menggunakan 258 token.
Gambar: Praktik terbaik
Saat menggunakan gambar, gunakan praktik terbaik dan informasi berikut untuk mendapatkan hasil terbaik:
- Jika Anda ingin mendeteksi teks dalam gambar, gunakan perintah dengan satu gambar untuk menghasilkan hasil yang lebih baik daripada perintah dengan beberapa gambar.
- Jika perintah Anda berisi satu gambar, tempatkan gambar sebelum perintah teks prompt dalam permintaan Anda.
- Jika perintah Anda berisi beberapa gambar, dan Anda ingin merujuknya
nanti dalam perintah atau meminta model merujuknya dalam respons model,
sebaiknya berikan indeks pada setiap gambar sebelum gambar. Gunakan
atauabc untuk indeks Anda. Berikut adalah contoh penggunaan gambar yang diindeks dalam perintah:image 1image 2image 3image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Gunakan gambar dengan resolusi yang lebih tinggi; gambar tersebut akan menghasilkan hasil yang lebih baik.
- Sertakan beberapa contoh dalam perintah.
- Putar gambar ke orientasi yang tepat sebelum menambahkannya ke the prompt.
- Hindari gambar buram.
Gambar: Batasan
Meskipun model multimodal Gemini sangat canggih dalam banyak kasus penggunaan multimodal, penting untuk memahami batasan model:
- Moderasi konten: Model menolak memberikan jawaban pada gambar yang melanggar kebijakan keamanan kami.
- Penalaran spasial: Model tidak akurat dalam menemukan teks atau objek dalam gambar. Model mungkin hanya menampilkan perkiraan jumlah objek.
- Penggunaan medis: Model tidak cocok untuk menafsirkan gambar medis (misalnya, sinar-X dan CT scan) atau memberikan saran medis.
- Pengenalan orang: Model tidak dimaksudkan untuk digunakan dalam mengidentifikasi orang yang bukan selebritas dalam gambar.
- Akurasi: Model mungkin berhalusinasi atau melakukan kesalahan saat menafsirkan gambar berkualitas rendah, diputar, atau beresolusi sangat rendah. Model juga mungkin berhalusinasi saat menafsirkan teks tulisan tangan dalam dokumen gambar.
Video: Persyaratan, praktik terbaik, dan batasan
Video: Persyaratan
Di bagian ini, pelajari jenis MIME yang didukung dan batas per permintaan untuk video.
Jenis MIME yang didukung
Gemini model multimodal mendukung jenis MIME video berikut:
- FLV -
video/x-flv - MOV -
video/quicktime - MPEG -
video/mpeg - MPEGPS -
video/mpegps - MPG -
video/mpg - MP4 -
video/mp4 - WEBM -
video/webm - WMV -
video/wmv - 3GPP -
video/3gpp
Batas per permintaan
Jumlah maksimum file per permintaan: 10 file video
Video: Tokenisasi
Berikut cara token dihitung untuk video:
-
Track audio dienkode dengan frame video. Track audio juga dipecah menjadi
trunk 1 detik yang masing-masing dihitung sebagai 32 token. Token frame video dan audio disisipkan bersama dengan stempel waktunya. Stempel waktu direpresentasikan sebagai 5 token. -
Untuk video yang diambil sampelnya pada atau di bawah
1 frame per detik (fps) , stempel waktu untuk jam pertama video direpresentasikan sebagai 5 token per frame video. Stempel waktu yang tersisa direpresentasikan sebagai 7 token per video frame. -
Untuk video yang diambil sampelnya di atas
1 frame per detik (fps) , stempel waktu untuk jam pertama video direpresentasikan sebagai 9 token per video frame. Stempel waktu yang tersisa direpresentasikan sebagai 11 token per video frame.
Video: Praktik terbaik
Saat menggunakan video, gunakan praktik terbaik dan informasi berikut untuk mendapatkan hasil terbaik:
- Jika perintah Anda berisi satu video, tempatkan video sebelum perintah teks prompt.
- Jika Anda memerlukan pelokalan stempel waktu dalam video dengan audio, minta model untuk membuat stempel waktu yang mengikuti format seperti yang dijelaskan dalam "Format stempel waktu".
Video: Batasan
Meskipun model multimodal Gemini sangat canggih dalam banyak kasus penggunaan multimodal, penting untuk memahami batasan model:
- Moderasi konten: Model menolak memberikan jawaban pada video yang melanggar kebijakan keamanan kami.
- Pengenalan suara non-ucapan: Model yang mendukung audio mungkin melakukan kesalahan dalam mengenali suara yang bukan ucapan.
Audio: Persyaratan dan batasan
Audio: Persyaratan
Di bagian ini, pelajari jenis MIME yang didukung dan batas per permintaan untuk audio.
Jenis MIME yang didukung
Gemini model multimodal mendukung jenis MIME audio berikut:
- AAC -
audio/aac - FLAC -
audio/flac - MP3 -
audio/mp3 - MPA -
audio/m4a - MPEG -
audio/mpeg - MPGA -
audio/mpga - MP4 -
audio/mp4 - OPUS -
audio/opus - PCM -
audio/pcm - WAV -
audio/wav - WEBM -
audio/webm
Batas per permintaan
Jumlah maksimum file per permintaan: 1 file audio
Audio: Batasan
Meskipun model multimodal Gemini sangat canggih dalam banyak kasus penggunaan multimodal, penting untuk memahami batasan model:
- Pengenalan suara non-ucapan: Model yang mendukung audio mungkin melakukan kesalahan dalam mengenali suara yang bukan ucapan.
- Stempel waktu khusus audio: Untuk membuat stempel waktu secara akurat untuk file khusus audio, Anda harus mengonfigurasi parameter
audio_timestampdigeneration_config.
Dokumen (seperti PDF): Persyaratan, praktik terbaik, dan batasan
Dokumen: Persyaratan
Di bagian ini, pelajari jenis MIME yang didukung dan batas per permintaan untuk dokumen (seperti PDF).
Jenis MIME yang didukung
Gemini model multimodal mendukung jenis MIME dokumen berikut:
- PDF -
application/pdf - Teks -
text/plain
Batas per permintaan
PDF diperlakukan sebagai gambar, sehingga satu halaman PDF diperlakukan sebagai satu gambar. Jumlah halaman yang diizinkan dalam perintah dibatasi oleh jumlah gambar yang Gemini dapat didukung oleh model multimodal.
- Jumlah maksimum file per permintaan: 3.000 file
- Jumlah maksimum halaman per file: 1.000 halaman per file
- Ukuran maksimum per file: 50 MB per file
Dokumen: Tokenisasi
Tokenisasi PDF
PDF diperlakukan sebagai gambar, sehingga setiap halaman PDF di-tokenisasi dengan cara yang sama seperti gambar.
Selain itu, biaya untuk PDF mengikuti Gemini harga gambar. Misalnya, jika Anda menyertakan PDF dua halaman dalam panggilan API Gemini, Anda dikenai biaya input untuk memproses dua gambar.
Dokumen: Praktik terbaik
Saat menggunakan PDF, gunakan praktik terbaik dan informasi berikut untuk mendapatkan hasil terbaik:
- Jika perintah Anda berisi satu PDF, tempatkan PDF sebelum teks perintah dalam permintaan Anda.
- Jika Anda memiliki dokumen yang panjang, sebaiknya bagi dokumen tersebut menjadi beberapa PDF untuk diproses.
- Gunakan PDF yang dibuat dengan teks yang dirender sebagai teks, bukan menggunakan teks dalam gambar yang dipindai. Format ini memastikan teks dapat dibaca oleh mesin sehingga model dapat mengedit, menelusuri, dan memanipulasinya dengan lebih mudah dibandingkan dengan PDF gambar yang dipindai. Praktik ini memberikan hasil yang optimal saat Anda menggunakan dokumen yang berisi banyak teks seperti kontrak.
Dokumen: Batasan
Meskipun model multimodal Gemini sangat canggih dalam banyak kasus penggunaan multimodal, penting untuk memahami batasan model:
- Penalaran spasial: Model tidak akurat dalam menemukan teks atau objek dalam PDF. Model mungkin hanya menampilkan perkiraan jumlah objek.
- Akurasi: Model mungkin berhalusinasi saat menafsirkan teks tulisan tangan dalam dokumen PDF.