Gemini API का इस्तेमाल करके, मल्टीमोडल प्रॉम्प्ट से टेक्स्ट जनरेट करें


Vertex AI in Firebase SDK टूल का इस्तेमाल करके, अपने ऐप्लिकेशन से Gemini API को कॉल करते समय, Gemini मॉडल को कई तरह के इनपुट के आधार पर टेक्स्ट जनरेट करने के लिए कहा जा सकता है. मल्टीमोडल प्रॉम्प्ट में कई मोड (या इनपुट के टाइप) शामिल हो सकते हैं. जैसे, इमेज के साथ टेक्स्ट, PDF, सादा टेक्स्ट फ़ाइलें, वीडियो, और ऑडियो.

हर मल्टीमोडल अनुरोध में, आपको हमेशा यह जानकारी देनी होगी:

  • फ़ाइल का mimeType. इनपुट फ़ाइल के काम करने वाले MIME टाइप के बारे में जानें.

  • फ़ाइल. फ़ाइल को इनलाइन डेटा के तौर पर (जैसा कि इस पेज पर दिखाया गया है) या उसके यूआरएल या यूआरआई का इस्तेमाल करके सबमिट किया जा सकता है.

हमारा सुझाव है कि कई मोड वाले प्रॉम्प्ट को टेस्ट करने और उनमें बदलाव करने के लिए, Vertex AI Studio का इस्तेमाल करें.

शुरू करने से पहले

अगर आपने अब तक ऐसा नहीं किया है, तो शुरू करने से जुड़ी गाइड पढ़ें. इसमें, Firebase प्रोजेक्ट सेट अप करने, अपने ऐप्लिकेशन को Firebase से कनेक्ट करने, SDK टूल जोड़ने, Vertex AI सेवा को शुरू करने, और GenerativeModel इंस्टेंस बनाने का तरीका बताया गया है.

टेक्स्ट और एक इमेज से टेक्स्ट जनरेट करना टेक्स्ट और कई इमेज से टेक्स्ट जनरेट करना टेक्स्ट और वीडियो से टेक्स्ट जनरेट करना

मीडिया फ़ाइलों के सैंपल

अगर आपके पास पहले से मीडिया फ़ाइलें नहीं हैं, तो सार्वजनिक तौर पर उपलब्ध इन फ़ाइलों का इस्तेमाल किया जा सकता है. ये फ़ाइलें उन बकेट में सेव होती हैं जो आपके Firebase प्रोजेक्ट में नहीं होतीं. इसलिए, आपको यूआरएल के लिए https://storage.googleapis.com/BUCKET_NAME/PATH/TO/FILE फ़ॉर्मैट का इस्तेमाल करना होगा.

टेक्स्ट और एक इमेज से टेक्स्ट जनरेट करना

इस सैंपल को आज़माने से पहले, पक्का करें कि आपने इस गाइड का शुरू करने से पहले वाला सेक्शन पूरा कर लिया हो.

Gemini API को मल्टीमोडल प्रॉम्प्ट के साथ कॉल किया जा सकता है. इन प्रॉम्प्ट में टेक्स्ट और एक फ़ाइल, जैसे कि इमेज (जैसा कि इस उदाहरण में दिखाया गया है) शामिल होती है. इन कॉल के लिए, आपको ऐसे मॉडल का इस्तेमाल करना होगा जो प्रॉम्प्ट में मीडिया के साथ काम करता हो, जैसे कि Gemini 2.0 Flash.

इनपुट फ़ाइलों के लिए ज़रूरी शर्तों और सुझावों को ज़रूर पढ़ें.

चुनें कि आपको जवाब स्ट्रीम करना है (generateContentStream) या पूरा नतीजा जनरेट होने तक जवाब का इंतज़ार करना है (generateContent).

स्ट्रीमिंग

मॉडल जनरेशन के पूरे नतीजे का इंतज़ार किए बिना, तेज़ी से इंटरैक्शन हासिल किए जा सकते हैं. इसके बजाय, कुछ नतीजों को मैनेज करने के लिए स्ट्रीमिंग का इस्तेमाल करें.

स्ट्रीमिंग के बिना

इसके अलावा, स्ट्रीमिंग के बजाय पूरे नतीजे के दिखने का इंतज़ार किया जा सकता है. नतीजा, मॉडल के जनरेट करने की पूरी प्रोसेस पूरी होने के बाद ही दिखता है.

अपने इस्तेमाल के उदाहरण और ऐप्लिकेशन के हिसाब से सही मॉडल और जगह चुनने का तरीका जानें.

टेक्स्ट और कई इमेज से टेक्स्ट जनरेट करना

इस सैंपल को आज़माने से पहले, पक्का करें कि आपने इस गाइड का शुरू करने से पहले वाला सेक्शन पूरा कर लिया हो.

Gemini API को मल्टीमोडल प्रॉम्प्ट के साथ कॉल किया जा सकता है. इन प्रॉम्प्ट में टेक्स्ट और कई फ़ाइलें, जैसे कि इमेज (जैसा कि इस उदाहरण में दिखाया गया है) शामिल होती हैं. इन कॉल के लिए, आपको ऐसे मॉडल का इस्तेमाल करना होगा जो प्रॉम्प्ट में मीडिया के साथ काम करता हो, जैसे कि Gemini 2.0 Flash.

इनपुट फ़ाइलों के लिए ज़रूरी शर्तों और सुझावों को ज़रूर पढ़ें.

चुनें कि आपको जवाब स्ट्रीम करना है (generateContentStream) या पूरा नतीजा जनरेट होने तक जवाब का इंतज़ार करना है (generateContent).

स्ट्रीमिंग

मॉडल जनरेशन के पूरे नतीजे का इंतज़ार किए बिना, तेज़ी से इंटरैक्शन हासिल किए जा सकते हैं. इसके बजाय, कुछ नतीजों को मैनेज करने के लिए स्ट्रीमिंग का इस्तेमाल करें.

स्ट्रीमिंग के बिना

इसके अलावा, स्ट्रीमिंग के बजाय पूरे नतीजे के लिए इंतज़ार किया जा सकता है. नतीजा सिर्फ़ तब दिखता है, जब मॉडल पूरी जनरेशन प्रोसेस पूरी कर लेता है.

अपने इस्तेमाल के उदाहरण और ऐप्लिकेशन के हिसाब से सही मॉडल और जगह चुनने का तरीका जानें.

टेक्स्ट और वीडियो से टेक्स्ट जनरेट करना

इस सैंपल को आज़माने से पहले, पक्का करें कि आपने इस गाइड का शुरू करने से पहले वाला सेक्शन पूरा कर लिया हो.

Gemini API को ऐसे मल्टीमोडल प्रॉम्प्ट के साथ कॉल किया जा सकता है जिनमें टेक्स्ट और वीडियो फ़ाइल, दोनों शामिल हों (जैसा कि इस उदाहरण में दिखाया गया है). इन कॉल के लिए, आपको ऐसे मॉडल का इस्तेमाल करना होगा जो प्रॉम्प्ट में मीडिया के साथ काम करता हो, जैसे कि Gemini 2.0 Flash.

इनपुट फ़ाइलों के लिए ज़रूरी शर्तों और सुझावों को ज़रूर पढ़ें.

चुनें कि आपको जवाब स्ट्रीम करना है (generateContentStream) या पूरा नतीजा जनरेट होने तक जवाब का इंतज़ार करना है (generateContent).

स्ट्रीमिंग

मॉडल जनरेशन के पूरे नतीजे का इंतज़ार किए बिना, तेज़ी से इंटरैक्शन हासिल किए जा सकते हैं. इसके बजाय, कुछ नतीजों को मैनेज करने के लिए स्ट्रीमिंग का इस्तेमाल करें.

स्ट्रीमिंग के बिना

इसके अलावा, स्ट्रीमिंग के बजाय पूरे नतीजे के दिखने का इंतज़ार किया जा सकता है. नतीजा, मॉडल के जनरेट करने की पूरी प्रोसेस पूरी होने के बाद ही दिखता है.

अपने इस्तेमाल के उदाहरण और ऐप्लिकेशन के हिसाब से सही मॉडल और जगह चुनने का तरीका जानें.

इनपुट फ़ाइलों के लिए ज़रूरी शर्तें और सुझाव

इनके बारे में जानने के लिए, Gemini API in Vertex AI के लिए इस्तेमाल की जा सकने वाली इनपुट फ़ाइलें और ज़रूरी शर्तें देखें:

  • अनुरोध में फ़ाइल देने के अलग-अलग विकल्प
  • समर्थित फ़ाइल प्रकार
  • इस्तेमाल किए जा सकने वाले MIME टाइप और उन्हें बताने का तरीका
  • फ़ाइलों और अलग-अलग तरीकों से किए जाने वाले अनुरोधों के लिए ज़रूरी शर्तें और सबसे सही तरीके

तुम और क्या कर सकती हो?

  • मॉडल को लंबे प्रॉम्प्ट भेजने से पहले, टोकन की गिनती करने का तरीका जानें.
  • Cloud Storage for Firebase को सेट अप करें, ताकि आप अपने कई मोड वाले अनुरोधों में बड़ी फ़ाइलें शामिल कर सकें. साथ ही, प्रॉम्प्ट में फ़ाइलें उपलब्ध कराने के लिए, बेहतर तरीके से मैनेज किया जा सके. फ़ाइलों में इमेज, PDF, वीडियो, और ऑडियो शामिल हो सकते हैं.
  • प्रोडक्शन के लिए तैयारी करना शुरू करें. इसमें, Gemini API को बिना अनुमति वाले क्लाइंट के गलत इस्तेमाल से बचाने के लिए, Firebase App Check सेट अप करना भी शामिल है. साथ ही, प्रोडक्शन की चेकलिस्ट को ज़रूर देखें.

अन्य सुविधाएं आज़माएं

कॉन्टेंट जनरेशन को कंट्रोल करने का तरीका जानें

Vertex AI Studio का इस्तेमाल करके, प्रॉम्प्ट और मॉडल कॉन्फ़िगरेशन के साथ भी एक्सपेरिमेंट किया जा सकता है.

इस्तेमाल किए जा सकने वाले मॉडल के बारे में ज़्यादा जानें

अलग-अलग कामों के लिए उपलब्ध मॉडल, उनके कोटे, और कीमत के बारे में जानें.


Vertex AI in Firebase के साथ अपने अनुभव के बारे में सुझाव/राय दें या शिकायत करें