ओपनएआई के नवीनतम एआई मॉडल, जिन्हें आधिकारिक तौर पर 16 अप्रैल को o3 और o4-मिनी के रूप में जारी किया गया है, तस्वीरों में दर्शाए गए वास्तविक स्थानों की पहचान करने की अद्भुत क्षमता प्रदर्शित कर रहे हैं, जो सरल छवि पहचान से आगे बढ़कर जटिल भौगोलिक अनुमान लगाने की क्षमता प्रदान करते हैं। नए मॉडलों का परीक्षण करने वाले उपयोगकर्ताओं द्वारा तुरंत देखी गई इस क्षमता ने व्यापक ऑनलाइन चर्चा को जन्म दिया है, जो मुख्य रूप से बाहरी प्रतीत होने वाली हानिरहित तस्वीरों को साझा करने से जुड़े संभावित गोपनीयता जोखिमों पर केंद्रित है।
नए o3 और o4-मिनी मॉडल को उन्नत दृश्य तर्क क्षमता का श्रेय दिया गया
समय इस बात का स्पष्ट संकेत देता है कि ये भौगोलिक स्थान निर्धारण क्षमताएँ सीधे o3 और o4-मिनी रिलीज़ से उत्पन्न हुई हैं। ओपनएआई की घोषणा में इस बात पर प्रकाश डाला गया है कि इन मॉडलों में दृश्य बोध में उल्लेखनीय सुधार हुआ है, जिससे वे “दृश्य इनपुट के बारे में गहराई से तर्क” कर सकते हैं और छवि विश्लेषण से जुड़े कार्यों में असाधारण रूप से अच्छा प्रदर्शन कर सकते हैं।
महत्वपूर्ण रूप से, कंपनी ने मॉडलों की विचार प्रक्रिया के दौरान छवियों के साथ अंतःक्रिया करने की क्षमता का विस्तृत विवरण दिया – ज़ूम करना, क्रॉप करना और घुमाना – ताकि बारीक विवरण निकाले जा सकें, जो भौगोलिक संकेतों की पहचान करने के लिए संभवतः एक महत्वपूर्ण तरीका है।
यह प्रगति OpenAI द्वारा ChatGPT के भीतर मल्टीमॉडल सुविधाओं के निरंतर विकास के बाद हुई है। जनवरी 2025 में GPT-4o के एक पूर्व अद्यतन में इसके छवि विश्लेषण और STEM तर्क को बेहतर बनाने पर ध्यान केंद्रित किया गया था। उस समय, OpenAI ने संकेत दिया था कि मॉडल छवियों में स्थानिक संबंधों की व्याख्या करने में बेहतर होता जा रहा है। बाद में, मार्च में, छवि निर्माण और इंटरैक्टिव संपादन उपकरणों को प्लेटफ़ॉर्म में एकीकृत किया गया, जिससे ChatGPT की भूमिका एक ऐसे उपकरण के रूप में और मजबूत हुई जो टेक्स्ट और दृश्य डेटा दोनों को संभालने में सक्षम है।
उपयोगकर्ता परीक्षण आशा और समस्याएँ दिखाते हैं
ऑनलाइन फ़ोरम, विशेष रूप से Fediverse पोस्ट द्वारा प्रेरित एक व्यापक रूप से प्रसारित हैकर न्यूज़ थ्रेड, नए मॉडलों का परीक्षण करने वाले उपयोगकर्ता प्रयोगों से जल्दी ही भर गया। “पाइगेम्स” द्वारा फेडिवर्स पर मूल पोस्ट में बड़े साहस के साथ दावा किया गया था, “जियोग्यूसर अब एक सुलझी हुई समस्या है।” हालाँकि, समुदाय द्वारा साझा किए गए परिणाम एक अधिक जटिल तस्वीर पेश करते हैं।
कुछ उपयोगकर्ताओं ने आश्चर्यजनक सटीकता हासिल की। एक ने चैटजीपीटी द्वारा ऑस्ट्रेलिया के केर्न्स में 200 मीटर के दायरे में एक स्ट्रीट व्यू दृश्य की पहचान का प्रदर्शन किया, और एआई ने एक विशिष्ट टिप्पणी भी जोड़ी, “मैंने केर्न्स के आस-पड़ोस की खोज करते समय Google स्ट्रीट व्यू पर पहले भी यही घर देखा है।”
अन्य लोगों ने उन निजी तस्वीरों से शहर की सही पहचान बताई जो पहले ऑनलाइन नहीं थीं। फिर भी, कई परीक्षणों में महत्वपूर्ण त्रुटियाँ सामने आईं: मॉडल महाद्वीपों को भ्रमित कर रहे थे, प्रमुख स्थलों की गलत पहचान कर रहे थे, तस्वीरों को हज़ारों किलोमीटर दूर रख रहे थे, या आत्मविश्वास से गलत विवरण गढ़ रहे थे। विश्वसनीयता असंगत प्रतीत होती है, जो “सुलझी हुई समस्या” के दावे से कम है, खासकर जब जियोग्यूसर चैंपियन रेनबोल्ट जैसे कुशल मानव खिलाड़ियों या विशिष्ट परिदृश्यों में अन्य एआई उपकरणों से तुलना की जाती है।
अपने स्वयं के परीक्षण करते समय, o3 अधिकांश मामलों में स्थानों की सटीक पहचान करने में सक्षम था। जहाँ यह विफल रहा, वहाँ इसने कुछ न्यूनतम विवरण मांगे और फिर दूसरे मोड़ पर सही स्थान ढूंढ लिया। यहाँ तक कि एक यादृच्छिक चट्टान संरचना की निम्नलिखित तस्वीर को भी इसने स्पेन के उस स्वायत्त क्षेत्र का संकेत देकर सही ढंग से पहचान लिया जहाँ यह स्थित है, और एक ग्रामीण सड़क पर सड़क का सटीक स्थान बताया।
बढ़ी हुई सुरक्षा चिंताओं के बीच जियोग्यूसर रणनीति की प्रतिध्वनि
एआई का स्पष्ट तरीका—वास्तुकला, साइनेज, वनस्पति जैसे दृश्य संकेतों का विश्लेषण करना, और संभवतः वेब खोज के माध्यम से स्थलों का क्रॉस-रेफ़रेंस करना—लोकप्रिय जियोग्यूसर गेम में मानव खिलाड़ियों द्वारा उपयोग की जाने वाली तकनीकों को प्रतिबिंबित करता है।
यह गेम खिलाड़ियों को केवल Google स्ट्रीट व्यू द्वारा प्रदान की गई दृश्य जानकारी का उपयोग करके वैश्विक स्तर पर स्थानों को सटीक रूप से निर्धारित करने की चुनौती देता है। हालाँकि AI द्वारा इस समस्या से निपटना कोई नई बात नहीं है – स्टैनफोर्ड के PIGEON मॉडल ने कथित तौर पर 2023 में रेनबोल्ट को पीछे छोड़ दिया था, इससे पहले कि इसके निर्माताओं ने सुरक्षा चिंताओं के कारण इसे रोक दिया था, और GeoLLM जैसे फ्रेमवर्क ने 2024 में इस अवधारणा का अन्वेषण किया – इसे ChatGPT जैसे व्यापक रूप से सुलभ प्लेटफ़ॉर्म में एकीकृत करने से समीकरण बदल जाता है।
मुख्य चिंता, जो उपयोगकर्ताओं द्वारा व्यक्त की गई है और चर्चाओं में प्रतिध्वनित हुई है, साझा की गई तस्वीरों के लिए “खतरे के मॉडल” में बदलाव है। जो पहले समर्पित प्रयास या विशेषज्ञता की आवश्यकता होती थी, वह अब लगभग कोई भी प्राप्त कर सकता है।
“PSA: कोई भी बाहरी तस्वीर पोस्ट करते समय, अपने खतरे के मॉडल को ‘कोई कुशल और समर्पित व्यक्ति सैद्धांतिक रूप से इसका पता लगा सकता है’ से ‘कोई भी स्टॉकर 20€/माह में ऐसा कर सकता है’ में अपडेट करें”, एक उपयोगकर्ता ने चेतावनी दी। यह चिंता पूरी तरह से नई नहीं है; गोपनीयता के पैरोकारों ने पहले भी तस्वीरों से जियोलोकेशन की AI की क्षमता के बारे में चिंता जताई है।
इन नई चिंताओं का जवाब देते हुए, OpenAI ने इस सुविधा के सकारात्मक अनुप्रयोगों और मौजूदा सुरक्षा उपायों पर ज़ोर दिया। मैशेबल की रिपोर्ट के अनुसार, ओपनएआई के एक प्रवक्ता ने कहा: “ओपनएआई o3 और o4-मिनी, चैटजीपीटी में दृश्य तर्क लाते हैं, जिससे यह पहुँच, शोध या आपातकालीन प्रतिक्रिया में स्थानों की पहचान जैसे क्षेत्रों में अधिक उपयोगी हो जाता है। हमने अपने मॉडलों को निजी या संवेदनशील जानकारी के अनुरोधों को अस्वीकार करने के लिए प्रशिक्षित किया है, मॉडल को छवियों में निजी व्यक्तियों की पहचान करने से रोकने के लिए सुरक्षा उपाय जोड़े हैं, और गोपनीयता पर हमारी उपयोग नीतियों के दुरुपयोग की सक्रिय रूप से निगरानी और उसके विरुद्ध कार्रवाई की है।”
इन उपायों के बावजूद, ऐसी शक्तिशाली, सुलभ एआई क्षमताओं का तेज़ी से उभरना यह सुनिश्चित करता है कि तकनीकी प्रगति और व्यक्तिगत सुरक्षा के बीच संतुलन बनाने पर बातचीत तेज़ होगी।
स्रोत: विनबज़र / डिग्पू न्यूज़टेक्स