Gemini API का इस्तेमाल करके, मल्टीमोडल प्रॉम्प्ट से टेक्स्ट जनरेट करें

Vertex AI in Firebase SDK टूल का इस्तेमाल करके, अपने ऐप्लिकेशन से Gemini API को कॉल करते समय, Gemini मॉडल को कई तरह के इनपुट के आधार पर टेक्स्ट जनरेट करने के लिए कहा जा सकता है. मल्टीमोडल प्रॉम्प्ट में कई मोड (या इनपुट के टाइप) शामिल हो सकते हैं. जैसे, इमेज के साथ टेक्स्ट, PDF, सादा टेक्स्ट फ़ाइलें, वीडियो, और ऑडियो.

हर मल्टीमोडल अनुरोध में, आपको हमेशा यह जानकारी देनी होगी:

फ़ाइल का mimeType. इनपुट फ़ाइल के काम करने वाले MIME टाइप के बारे में जानें.
फ़ाइल. फ़ाइल को इनलाइन डेटा के तौर पर (जैसा कि इस पेज पर दिखाया गया है) या उसके यूआरएल या यूआरआई का इस्तेमाल करके सबमिट किया जा सकता है.

हमारा सुझाव है कि कई मोड वाले प्रॉम्प्ट को टेस्ट करने और उनमें बदलाव करने के लिए, Vertex AI Studio का इस्तेमाल करें.

Gemini API के साथ काम करने के अन्य विकल्प

वैकल्पिक तौर पर, Gemini API के "Google AI" वर्शन के साथ एक्सपेरिमेंट करें
Google AI Studio और Google AI क्लाइंट SDK टूल का इस्तेमाल करके, सीमाओं के अंदर और जहां उपलब्ध हो वहां बिना किसी शुल्क के ऐक्सेस पाएं. इन SDK टूल का इस्तेमाल, मोबाइल और वेब ऐप्लिकेशन में सिर्फ़ प्रोटोटाइप बनाने के लिए किया जाना चाहिए.

Gemini API के काम करने के तरीके के बारे में जानने के बाद, हमारे Vertex AI in Firebase SDK टूल पर माइग्रेट करें (यह दस्तावेज़). इसमें मोबाइल और वेब ऐप्लिकेशन के लिए कई ज़रूरी सुविधाएं हैं. जैसे, Firebase App Check का इस्तेमाल करके एपीआई को गलत इस्तेमाल से बचाना और अनुरोधों में बड़ी मीडिया फ़ाइलों के लिए सहायता.

Gemini API in Vertex AI के सर्वर साइड को कॉल करें (जैसे, Python, Node.js या Go के साथ)
Gemini API के लिए, सर्वर साइड Vertex AI SDK टूल, Genkit या Firebase Extensions का इस्तेमाल करें.

शुरू करने से पहले

अगर आपने अब तक ऐसा नहीं किया है, तो शुरू करने से जुड़ी गाइड पढ़ें. इसमें, Firebase प्रोजेक्ट सेट अप करने, अपने ऐप्लिकेशन को Firebase से कनेक्ट करने, SDK टूल जोड़ने, Vertex AI सेवा को शुरू करने, और GenerativeModel इंस्टेंस बनाने का तरीका बताया गया है.

टेक्स्ट और एक इमेज से टेक्स्ट जनरेट करना टेक्स्ट और कई इमेज से टेक्स्ट जनरेट करना टेक्स्ट और वीडियो से टेक्स्ट जनरेट करना

अहम जानकारी: इस पेज पर दिए गए उदाहरणों से पता चलता है कि अनुरोधों में, छोटी फ़ाइलों को इनलाइन डेटा के तौर पर कैसे शामिल किया जा सकता है. हालांकि, अगर आपको ऐसी फ़ाइलें शामिल करनी हैं जिनसे आपके अनुरोध का कुल साइज़ 20 एमबी से ज़्यादा हो जाएगा, तो आपको यूआरएल का इस्तेमाल करके फ़ाइल उपलब्ध करानी होगी. उदाहरण के लिए, Cloud Storage for Firebase यूआरएल का इस्तेमाल करके.

मीडिया फ़ाइलों के सैंपल

अगर आपके पास पहले से मीडिया फ़ाइलें नहीं हैं, तो सार्वजनिक तौर पर उपलब्ध इन फ़ाइलों का इस्तेमाल किया जा सकता है. ये फ़ाइलें उन बकेट में सेव होती हैं जो आपके Firebase प्रोजेक्ट में नहीं होतीं. इसलिए, आपको यूआरएल के लिए https://storage.googleapis.com/BUCKET_NAME/PATH/TO/FILE फ़ॉर्मैट का इस्तेमाल करना होगा.

इमेज: https://storage.googleapis.com/cloud-samples-data/generative-ai/image/scones.jpg image/jpeg MIME टाइप वाली. इस इमेज को देखें या डाउनलोड करें.
PDF: https://storage.googleapis.com/cloud-samples-data/generative-ai/pdf/2403.05530.pdf application/pdf MIME टाइप वाला. यह PDF देखें या डाउनलोड करें.
वीडियो: https://storage.googleapis.com/cloud-samples-data/video/animals.mp4 video/mp4 MIME टाइप वाला. यह वीडियो देखें या डाउनलोड करें.
ऑडियो: https://storage.googleapis.com/cloud-samples-data/generative-ai/audio/pixel.mp3 audio/mp3 MIME टाइप वाला. इस ऑडियो को सुनें या डाउनलोड करें.

टेक्स्ट और एक इमेज से टेक्स्ट जनरेट करना

इस सैंपल को आज़माने से पहले, पक्का करें कि आपने इस गाइड का शुरू करने से पहले वाला सेक्शन पूरा कर लिया हो.

Gemini API को मल्टीमोडल प्रॉम्प्ट के साथ कॉल किया जा सकता है. इन प्रॉम्प्ट में टेक्स्ट और एक फ़ाइल, जैसे कि इमेज (जैसा कि इस उदाहरण में दिखाया गया है) शामिल होती है. इन कॉल के लिए, आपको ऐसे मॉडल का इस्तेमाल करना होगा जो प्रॉम्प्ट में मीडिया के साथ काम करता हो, जैसे कि Gemini 2.0 Flash.

इनपुट फ़ाइलों के लिए ज़रूरी शर्तों और सुझावों को ज़रूर पढ़ें.

चुनें कि आपको जवाब स्ट्रीम करना है (generateContentStream) या पूरा नतीजा जनरेट होने तक जवाब का इंतज़ार करना है (generateContent).

स्ट्रीमिंग

मॉडल जनरेशन के पूरे नतीजे का इंतज़ार किए बिना, तेज़ी से इंटरैक्शन हासिल किए जा सकते हैं. इसके बजाय, कुछ नतीजों को मैनेज करने के लिए स्ट्रीमिंग का इस्तेमाल करें.

स्ट्रीमिंग के बिना

इसके अलावा, स्ट्रीमिंग के बजाय पूरे नतीजे के दिखने का इंतज़ार किया जा सकता है. नतीजा, मॉडल के जनरेट करने की पूरी प्रोसेस पूरी होने के बाद ही दिखता है.

अपने इस्तेमाल के उदाहरण और ऐप्लिकेशन के हिसाब से सही मॉडल और जगह चुनने का तरीका जानें.

टेक्स्ट और कई इमेज से टेक्स्ट जनरेट करना

Gemini API को मल्टीमोडल प्रॉम्प्ट के साथ कॉल किया जा सकता है. इन प्रॉम्प्ट में टेक्स्ट और कई फ़ाइलें, जैसे कि इमेज (जैसा कि इस उदाहरण में दिखाया गया है) शामिल होती हैं. इन कॉल के लिए, आपको ऐसे मॉडल का इस्तेमाल करना होगा जो प्रॉम्प्ट में मीडिया के साथ काम करता हो, जैसे कि Gemini 2.0 Flash.

इनपुट फ़ाइलों के लिए ज़रूरी शर्तों और सुझावों को ज़रूर पढ़ें.

स्ट्रीमिंग

स्ट्रीमिंग के बिना

इसके अलावा, स्ट्रीमिंग के बजाय पूरे नतीजे के लिए इंतज़ार किया जा सकता है. नतीजा सिर्फ़ तब दिखता है, जब मॉडल पूरी जनरेशन प्रोसेस पूरी कर लेता है.

टेक्स्ट और वीडियो से टेक्स्ट जनरेट करना

Gemini API को ऐसे मल्टीमोडल प्रॉम्प्ट के साथ कॉल किया जा सकता है जिनमें टेक्स्ट और वीडियो फ़ाइल, दोनों शामिल हों (जैसा कि इस उदाहरण में दिखाया गया है). इन कॉल के लिए, आपको ऐसे मॉडल का इस्तेमाल करना होगा जो प्रॉम्प्ट में मीडिया के साथ काम करता हो, जैसे कि Gemini 2.0 Flash.

इनपुट फ़ाइलों के लिए ज़रूरी शर्तों और सुझावों को ज़रूर पढ़ें.

स्ट्रीमिंग

स्ट्रीमिंग के बिना

इनपुट फ़ाइलों के लिए ज़रूरी शर्तें और सुझाव

इनके बारे में जानने के लिए, Gemini API in Vertex AI के लिए इस्तेमाल की जा सकने वाली इनपुट फ़ाइलें और ज़रूरी शर्तें देखें:

अनुरोध में फ़ाइल देने के अलग-अलग विकल्प
समर्थित फ़ाइल प्रकार
इस्तेमाल किए जा सकने वाले MIME टाइप और उन्हें बताने का तरीका
फ़ाइलों और अलग-अलग तरीकों से किए जाने वाले अनुरोधों के लिए ज़रूरी शर्तें और सबसे सही तरीके

अहम जानकारी: Vertex AI in Firebase SDK टूल के लिए, अनुरोध का ज़्यादा से ज़्यादा साइज़ 20 एमबी हो सकता है. अगर अनुरोध बहुत बड़ा है, तो आपको एचटीटीपी 413 गड़बड़ी का मैसेज मिलता है.

अगर किसी फ़ाइल की वजह से अनुरोध का कुल साइज़ 20 एमबी से ज़्यादा हो जाता है, तो आपको फ़ाइल को यूआरएल का इस्तेमाल करके उपलब्ध कराना होगा. उदाहरण के लिए, Cloud Storage for Firebase यूआरएल का इस्तेमाल करके. हालांकि, अगर कोई फ़ाइल छोटी है, तो अक्सर उसे सीधे इनलाइन डेटा के तौर पर पास किया जा सकता है (जैसा कि ऊपर दिए गए उदाहरणों में दिखाया गया है). हालांकि, ध्यान दें कि इनलाइन डेटा के तौर पर दी गई फ़ाइल को ट्रांज़िट के दौरान base64 कोड में बदल दिया जाता है. इससे अनुरोध का साइज़ बढ़ जाता है.

तुम और क्या कर सकती हो?

मॉडल को लंबे प्रॉम्प्ट भेजने से पहले, टोकन की गिनती करने का तरीका जानें.
Cloud Storage for Firebase को सेट अप करें, ताकि आप अपने कई मोड वाले अनुरोधों में बड़ी फ़ाइलें शामिल कर सकें. साथ ही, प्रॉम्प्ट में फ़ाइलें उपलब्ध कराने के लिए, बेहतर तरीके से मैनेज किया जा सके. फ़ाइलों में इमेज, PDF, वीडियो, और ऑडियो शामिल हो सकते हैं.
प्रोडक्शन के लिए तैयारी करना शुरू करें. इसमें, Gemini API को बिना अनुमति वाले क्लाइंट के गलत इस्तेमाल से बचाने के लिए, Firebase App Check सेट अप करना भी शामिल है. साथ ही, प्रोडक्शन की चेकलिस्ट को ज़रूर देखें.

अन्य सुविधाएं आज़माएं

कई बार की गई बातचीत (चैट) बनाएं.
सिर्फ़ टेक्स्ट वाले प्रॉम्प्ट से टेक्स्ट जनरेट करें.
टेक्स्ट और मल्टीमोडल प्रॉम्प्ट, दोनों से स्ट्रक्चर्ड आउटपुट (जैसे कि JSON) जनरेट करें.
टेक्स्ट प्रॉम्प्ट से इमेज जनरेट करें.
जनरेटिव मॉडल को बाहरी सिस्टम और जानकारी से कनेक्ट करने के लिए, फ़ंक्शन कॉल का इस्तेमाल करें.

कॉन्टेंट जनरेशन को कंट्रोल करने का तरीका जानें

प्रॉम्प्ट के डिज़ाइन को समझना. इसमें सबसे सही तरीके, रणनीतियां, और प्रॉम्प्ट के उदाहरण शामिल हैं.
मॉडल पैरामीटर कॉन्फ़िगर करें. जैसे, तापमान और ज़्यादा से ज़्यादा आउटपुट टोकन (Gemini के लिए) या आसपेक्ट रेशियो और व्यक्ति जनरेशन (Imagen के लिए).
सुरक्षा सेटिंग का इस्तेमाल करें, ताकि आपको ऐसे जवाब न मिलें जो नुकसान पहुंचा सकते हैं.

Vertex AI Studio का इस्तेमाल करके, प्रॉम्प्ट और मॉडल कॉन्फ़िगरेशन के साथ भी एक्सपेरिमेंट किया जा सकता है.

इस्तेमाल किए जा सकने वाले मॉडल के बारे में ज़्यादा जानें

अलग-अलग कामों के लिए उपलब्ध मॉडल, उनके कोटे, और कीमत के बारे में जानें.

Vertex AI in Firebase के साथ अपने अनुभव के बारे में सुझाव/राय दें या शिकायत करें