गूगल ने कल अपने जेमिनी 2.5 फ्लैश एआई मॉडल को सार्वजनिक पूर्वावलोकन में डाल दिया, जिससे यह कई माध्यमों से सुलभ हो गया: उपभोक्ता-उन्मुख जेमिनी ऐप, और डेवलपर प्लेटफ़ॉर्म, जिनमें गूगल एआई स्टूडियो और वर्टेक्स एआई के माध्यम से जेमिनी एपीआई शामिल है।
गूगल की घोषणा में इसे अपना पहला “पूर्णतः हाइब्रिड रीजनिंग मॉडल” बताया गया है, 2.5 फ्लैश, डेवलपर्स को एआई की “सोचने” की प्रक्रिया पर स्पष्ट नियंत्रण प्रदान करता है, जिसका उद्देश्य उच्च-मात्रा वाले कार्यों के लिए प्रदर्शन, लागत और विलंबता को संतुलित करने वाला एक लचीला उपकरण प्रदान करना है। गूगल इसके प्रदर्शन-से-लागत अनुपात को “पारेटो सीमा” पर रखता है, जो कुछ कार्यभारों के लिए एक इष्टतम संतुलन का सुझाव देता है।
अंतिम उपयोगकर्ताओं के लिए, यह मॉडल जेमिनी ऐप और वेबसाइट पर केवल “2.5 फ्लैश (प्रायोगिक)” के रूप में दिखाई देता है, जो जेमिनी 2.0 फ्लैश थिंकिंग मॉडल का स्थान लेता है, जो दिसंबर 2024 में प्रयोगात्मक रूप से सामने आया था और उस चरण से कभी आगे नहीं बढ़ा।
इस 2.5 संस्करण को 2.0 फ़्लैश पीढ़ी की तुलना में काफ़ी बेहतर तर्क क्षमता प्रदान करने वाला बताया गया है, साथ ही इसे मार्च में घोषित उच्च-स्तरीय जेमिनी 2.5 प्रो की तुलना में तेज़ और सस्ता बनाया गया है। उपभोक्ता ऐप संस्करण वर्तमान में कोड और टेक्स्ट परिशोधन के लिए Google के कैनवास जैसी सुविधाओं का समर्थन करता है, हालाँकि Google ने संकेत दिया है कि डीप रिसर्च समर्थन बाद में उपलब्ध होगा।
AI तर्क और लागत के लिए डेवलपर लीवर
जेमिनी 2.5 फ़्लैश की विशिष्ट विशेषता इसकी हाइब्रिड तर्क प्रणाली है, जिसे जेमिनी API के माध्यम से नियंत्रित किया जा सकता है। डेवलपर्स अधिकतम गति के लिए “सोचने” की प्रक्रिया को पूरी तरह से बंद कर सकते हैं या जटिल प्रश्नों के लिए इसे सक्षम कर सकते हैं। आगे की बारीकियाँ समायोज्य “सोचने के बजट” के माध्यम से आती हैं, जो अनिवार्य रूप से प्रति प्रश्न तर्क के लिए उपयोग किए जाने वाले कम्प्यूटेशनल टोकन पर एक सीमा है।
इस तंत्र का उद्देश्य डेवलपर्स को कम-विलंबता वाले चैटबॉट से लेकर विश्लेषणात्मक कार्यों तक, विविध आवश्यकताओं को अनुकूलित करने में मदद करना है। नियंत्रण का यह स्तर प्रतिक्रिया गुणवत्ता, विलंबता और परिचालन लागत के बीच संतुलन के सटीक प्रबंधन की अनुमति देता है।
यह अनुकूलनशीलता पूर्वावलोकन API मूल्य निर्धारण में परिलक्षित होती है: $0.15 प्रति मिलियन इनपुट टोकन। सोच अक्षम होने पर आउटपुट लागत $0.60 प्रति मिलियन टोकन होती है, जो तर्क सक्रिय होने पर $3.50 प्रति मिलियन टोकन तक बढ़ जाती है। Google इस गैर-तर्कसंगत लागत संरचना को OpenAI के o4-mini जैसे मॉडलों के मुकाबले प्रतिस्पर्धी रूप से रखता है, हालाँकि o4-mini उच्च मूल्य बिंदु पर बेहतर प्रदर्शन मानक प्रदर्शित करता है।
यह मूल्य निर्धारण संरचना सारांशीकरण, चैट ऐप्स, कैप्शनिंग और डेटा निष्कर्षण जैसे उच्च-मात्रा, लागत-संवेदनशील उपयोगों के लिए Flash की उपयुक्तता को पुष्ट करती है, जिनके उदाहरण Google के डेवलपर ब्लॉग द्वारा उजागर किए गए हैं।
जेमिनी परिवार में फ़्लैश की स्थिति और उसका विकास
जेमिनी 2.5 फ़्लैश पर पहली बार 9 अप्रैल को सार्वजनिक रूप से चर्चा हुई थी, जिसे 2.5 प्रो की जटिल तर्क क्षमताओं से अलग एक मॉडल के रूप में पेश किया गया था। फ़्लैश के गति पर ध्यान केंद्रित करने के बावजूद, इसमें प्रो लाइन की विशेषता वाली बड़ी 1 मिलियन टोकन संदर्भ विंडो बरकरार है, जिससे यह व्यापक इनपुट को संभाल सकता है।
अंतर्निहित “सोच” अवधारणा स्वयं दिसंबर 2024 के प्रायोगिक जेमिनी 2.0 फ़्लैश थिंकिंग मॉडल से विकसित हुई है। उस पहले संस्करण का उद्देश्य तर्क पारदर्शिता प्रदान करना था, आंशिक रूप से ओपनएआई के o1 मॉडलों की प्रतिक्रिया के रूप में। उस प्रयोग के बारे में, Google DeepMind के मुख्य वैज्ञानिक, जेफ़ डीन ने X पर कहा, “2.0 फ़्लैश की गति और प्रदर्शन पर आधारित, इस मॉडल को अपने तर्क को मज़बूत करने के लिए विचारों का उपयोग करने के लिए प्रशिक्षित किया गया है। और जब हम अनुमान समय गणना बढ़ाते हैं, तो हमें आशाजनक परिणाम मिलते हैं।”
क्या आप जेमिनी 2.0 फ़्लैश थिंकिंग को क्रियान्वित होते देखना चाहते हैं? इस डेमो को देखें जहाँ मॉडल एक भौतिकी समस्या का समाधान करता है और उसके तर्क को समझाता है। pic.twitter.com/Nl0hYj7ZFS
— जेफ़ डीन (@JeffDean) 19 दिसंबर, 2024
हालाँकि “विचारों” को दर्शाने वाला स्पष्ट इंटरफ़ेस 2.5 फ़्लैश का हिस्सा नहीं है, API के माध्यम से नियंत्रणीय तर्क इस विचार के कार्यात्मक विकास का प्रतिनिधित्व करता है।
जांच के बीच व्यापक जेमिनी विस्तार का एक हिस्सा
2.5 फ़्लैश का रोलआउट Google की अपनी सेवाओं में AI के व्यापक और त्वरित परिनियोजन के अनुरूप है, जिसमें जेमिनी एडवांस्ड में Veo 2 वीडियो जनरेशन और Google Workspace में कई जेमिनी एकीकरण जैसे हालिया परिवर्धन शामिल हैं।
Google का लक्ष्य इस पूर्वावलोकन चरण का उपयोग डेवलपर फ़ीडबैक के आधार पर मॉडल की “डायनामिक थिंकिंग” को परिष्कृत करने के लिए करना है, विशेष रूप से उन मामलों के संबंध में, जहाँ यह कम या ज़्यादा सोचता है, जैसा कि दोशी ने उल्लेख किया है। अंतर यह है कि डेवलपर्स को विस्तृत API नियंत्रण मिलते हैं, जबकि वर्तमान उपभोक्ता ऐप फ़्लैश को एक एकल प्रयोगात्मक विकल्प के रूप में प्रदान करता है, संभवतः डिफ़ॉल्ट रूप से तर्क सक्षम होने के साथ।
हालांकि, जैसा कि 2.5 फ़्लैश की पहली घोषणा के समय बताया गया था, यह सार्वजनिक पूर्वावलोकन विस्तृत तकनीकी या सुरक्षा रिपोर्ट के साथ नहीं आ रहा है। पारदर्शिता की यह कमी कुछ हालिया एआई रिलीज़ में देखी गई प्रवृत्ति को जारी रखती है, जिससे विशेष रूप से व्यापक रूप से उपलब्ध कराए जा रहे मॉडलों की जाँच हो रही है। हालाँकि Google भविष्य में ऑन-प्रिमाइसेस उपलब्धता और नए TPU का लाभ उठाने जैसे विकास की योजना बना रहा है, लेकिन तत्काल कदम में 2.5 फ़्लैश को संभावित सामान्य रिलीज़ की दिशा में ले जाने के लिए वास्तविक दुनिया का डेटा एकत्र करना शामिल है।
स्रोत: Winbuzzer / Digpu NewsTex