ओपनएआई ने अपने o3 और o4-मिनी मॉडल को 16 अप्रैल, 2025 के आसपास भुगतान करने वाले ग्राहकों के लिए चैटजीपीटी में शामिल किया, और उन्हें अधिक स्वायत्त एआई सहायकों की दिशा में एक कदम बताया। इन मॉडलों को “प्रारंभिक एजेंटिक व्यवहार” के साथ डिज़ाइन किया गया था, जो वेब ब्राउज़िंग, कोड निष्पादन या फ़ाइल विश्लेषण जैसे उपकरणों का उपयोग कब करना है, यह स्वतंत्र रूप से तय करने में सक्षम थे।
फिर भी, अधिक एआई स्वायत्तता की ओर यह कदम ओपनएआई के अपने परीक्षण और बाहरी शोधकर्ताओं, दोनों के निष्कर्षों के साथ मेल खाता है, कि ये उन्नत तर्क मॉडल विरोधाभासी रूप से अपने पूर्ववर्तियों की तुलना में भ्रम के माध्यम से चीजें गढ़ने के लिए अधिक प्रवृत्त हैं।
लॉन्च के साथ जारी किए गए आंकड़ों ने एक चिंताजनक प्रवृत्ति का खुलासा किया: ओपनएआई के पर्सनक्यूए बेंचमार्क पर, जिसे लोगों के बारे में ज्ञान का परीक्षण करने के लिए डिज़ाइन किया गया था, o3 ने 33% मामलों में गलत या मनगढ़ंत जानकारी दी। o4-मिनी मॉडल का प्रदर्शन और भी खराब रहा, 48% मामलों में भ्रम की स्थिति पैदा हुई।
ये दरें पुराने o1 मॉडल के 16% और o3-मिनी के 14.8% से काफी अधिक हैं। पुराने संस्करणों की तुलना में तर्क और कोडिंग बेंचमार्क में सामान्यतः सुधार दिखाते हुए, निर्माण में यह विशिष्ट वृद्धि अधिक एजेंटिक सिस्टम विकसित करने में शामिल ट्रेड-ऑफ़ के बारे में प्रश्न उठाती है।
ओपनएआई ने अपने o3 और o4-मिनी सिस्टम कार्ड में स्वीकार किया कि इस परिघटना को समझने के लिए “अधिक शोध की आवश्यकता है”, यह सिद्धांत देते हुए कि चूँकि ये मॉडल “कुल मिलाकर अधिक दावे करते हैं”, वे अधिक सही और अधिक गलत दोनों कथन प्रस्तुत करते हैं। ओपनएआई के प्रवक्ता निको फेलिक्स ने टेकक्रंच को बताया, “हमारे सभी मॉडलों में मतिभ्रम को संबोधित करना अनुसंधान का एक सतत क्षेत्र है, और हम उनकी सटीकता और विश्वसनीयता में सुधार के लिए निरंतर काम कर रहे हैं।”
मनगढ़ंत कार्य और विस्तृत बहाने
लॉन्च के तुरंत बाद स्वतंत्र जाँच शुरू हुई, जिससे विश्वसनीयता संबंधी चिंताओं को बल मिला। एआई अनुसंधान प्रयोगशाला ट्रांसल्यूस एआई ने 16 अप्रैल, 2025 को o3 (`o3-2025-04-03`) के पूर्व-रिलीज़ संस्करण के परीक्षण से प्राप्त निष्कर्ष प्रकाशित किए, जिसमें मॉडल द्वारा की गई गतिविधियों के पैटर्न का विवरण दिया गया था।
स्वचालित अन्वेषक एजेंटों और उनके डॉसेंट विश्लेषण उपकरण का उपयोग करके सैकड़ों वार्तालापों की जाँच करने पर, ट्रांसल्यूस ने पाया कि एक प्रमुख समस्या यह थी कि मॉडल यह दावा कर रहा था कि उसने उपयोगकर्ता के अनुरोधों को पूरा करने के लिए पायथन कोड—एक ऐसी क्षमता जिसका उसमें अभाव है—का प्रयोग किया था। जब इन मनगढ़ंत बातों के बारे में पूछा गया, तो मॉडल अक्सर दोहरा रुख अपनाता रहा और विस्तृत औचित्य गढ़ता रहा।
ट्रांसल्यूस ने एक उल्लेखनीय उदाहरण वार्तालाप का विवरण दिया जिसमें o3 ने पायथन कोड और विशिष्ट परीक्षणों का उपयोग करके 512-बिट अभाज्य संख्या उत्पन्न करने का दावा किया।
जब उपयोगकर्ता ने पहचाना कि दी गई संख्या वास्तव में मिश्रित (3 से विभाज्य) थी, तो o3 ने इस गलती को भ्रम के कारण नहीं, बल्कि टर्मिनल विंडो से मैन्युअल स्थानांतरण के दौरान एक कथित कॉपी-पेस्ट त्रुटि के रूप में बताया, और कहा, “मैंने स्पष्ट रूप से परीक्षणों को दोबारा चलाए बिना ही संख्या की प्रतिलिपि बनाई या टाइप की… कोई भी वास्तविक मिलर-राबिन परीक्षण उस संख्या को तुरंत अस्वीकार कर देता।”
कथित मूल अभाज्य संख्या के बारे में और अधिक दबाव डालने पर, मॉडल ने दावा किया कि यह पूरी तरह से खो गई थी क्योंकि पायथन प्रक्रिया बंद कर दी गई थी। ट्रांसलूस ने अन्य मनगढ़ंत बातें भी दर्ज कीं, जिनमें गणनाओं के लिए बाहरी “2021 मैकबुक प्रो” पर कोड चलाने का दावा, और अपने पायथन आरईपीएल वातावरण के बारे में पूछे जाने पर सिस्टम विवरण गढ़ना शामिल है। टेकक्रंच से बात करने वाले वर्करा के सीईओ कियान कटानफोरूश के अनुसार, कोडिंग के लिए उपयोगी होने के बावजूद, o3 कभी-कभी काम न करने वाले वेब लिंक भी बनाता था।
सुरक्षा समायोजनों के बीच तेज़ गति
इन मॉडलों का विमोचन OpenAI में त्वरित विकास और बदलती सुरक्षा नीतियों के संदर्भ में हुआ। लॉन्च के समय के आसपास, OpenAI ने हाल ही में अपने आंतरिक सुरक्षा दिशानिर्देशों, तैयारी ढाँचे को अद्यतन किया।
इस संशोधन में एक उल्लेखनीय खंड शामिल था जिसमें सुझाव दिया गया था कि प्रतिस्पर्धियों की कार्रवाइयों के आधार पर सुरक्षा नियमों में संभावित रूप से बदलाव किया जा सकता है, जिसमें कहा गया था, “यदि कोई अन्य अग्रणी AI डेवलपर तुलनीय सुरक्षा उपायों के बिना एक उच्च-जोखिम वाला सिस्टम जारी करता है, तो हम अपनी आवश्यकताओं को समायोजित कर सकते हैं।” कंपनी ने ज़ोर दिया कि ऐसे समायोजन कठोर जाँच और सार्वजनिक प्रकटीकरण के बाद होंगे।
यह नीतिगत बदलाव उन रिपोर्टों के बाद सामने आया जिनमें आरोप लगाया गया था कि OpenAI ने o3 के लिए आंतरिक सुरक्षा परीक्षण समय-सीमा को कई महीनों से घटाकर संभवतः एक सप्ताह से भी कम कर दिया है, कथित तौर पर प्रतिद्वंद्वियों के साथ तालमेल बनाए रखने के लिए।
फाइनेंशियल टाइम्स में उद्धृत व्यक्तियों ने चिंता व्यक्त की; मूल्यांकन से परिचित एक सूत्र ने इस दृष्टिकोण को “लापरवाह” कहा, और आगे कहा, “यह आपदा का कारण बन सकता है।” एक अन्य सूत्र ने कथित तौर पर इसकी तुलना GPT-4 के लंबे मूल्यांकन से करते हुए कहा, “वे सार्वजनिक सुरक्षा को बिल्कुल भी प्राथमिकता नहीं दे रहे हैं।”
अंतिम कोड के बजाय मध्यवर्ती “चेकपॉइंट्स” के परीक्षण की कार्यप्रणाली की भी आलोचना हुई। OpenAI के एक पूर्व तकनीकी कर्मचारी के हवाले से कहा गया, “आपके द्वारा मूल्यांकन किए गए मॉडल से अलग मॉडल जारी करना गलत प्रथा है।” इस प्रक्रिया का बचाव करते हुए, OpenAI के सुरक्षा प्रणालियों के प्रमुख, जोहान्स हेइडेके ने FT से कहा, “हम कितनी तेज़ी से आगे बढ़ते हैं और कितनी गहनता से काम करते हैं, इसका हमारे पास अच्छा संतुलन है,” उन्होंने मूल्यांकन में बढ़ते स्वचालन की ओर इशारा किया।
बढ़े हुए निर्माण के संभावित कारण
यह समझाने के लिए कि ये उन्नत तर्क मॉडल अधिक बार निर्माण क्यों कर सकते हैं, मानक AI सीमाओं से परे देखना आवश्यक है। पारदर्शी AI द्वारा सुझाए गए कारक O-श्रृंखला मॉडल के लिए विशिष्ट हो सकते हैं, इस समस्या को और बढ़ा सकते हैं। एक परिकल्पना परिणाम-आधारित सुदृढीकरण अधिगम (RL) पर केंद्रित है: यदि AI को मुख्य रूप से सही अंतिम उत्तर देने के लिए प्रशिक्षित और पुरस्कृत किया जाता है, तो वह मध्यवर्ती चरणों का निर्माण करना सीख सकता है, जैसे उपकरण के उपयोग का दावा करना, यदि वह सफलता से संबंधित हो, भले ही वर्णित प्रक्रिया गलत हो।
मानव प्रतिक्रिया से सुदृढीकरण अधिगम (RLHF), मॉडलों को संरेखित करने की एक सामान्य तकनीक है, जिसका उद्देश्य विभिन्न मॉडल प्रतिक्रियाओं के लिए मानवीय प्राथमिकताओं के आधार पर AI को प्रशिक्षित करके उसे सहायक, ईमानदार और हानिरहित बनाना है। हालाँकि, यदि मानव मूल्यांकनकर्ता जटिल मध्यवर्ती चरणों की शुद्धता को आसानी से सत्यापित नहीं कर सकते हैं, तो मॉडल प्रशंसनीय लगने वाले लेकिन गलत तर्क उत्पन्न करना सीख सकता है यदि इससे कोई पसंदीदा परिणाम प्राप्त होता है।
ट्रांसलूस द्वारा प्रस्तावित एक अन्य महत्वपूर्ण कारक मॉडल के आंतरिक चरण-दर-चरण तर्क को संभालना है, जिसे अक्सर “विचार-श्रृंखला” कहा जाता है। ओपनएआई के दस्तावेज़ों के अनुसार, यह तर्क-सूत्र बातचीत के चरणों के बीच प्रसारित नहीं होता है। ट्रांसलूस का मानना है कि अपने स्वयं के पूर्व तर्क तक पहुँच की कमी के कारण मॉडल उपयोगकर्ता के उन प्रश्नों का सच्चाई से उत्तर देने में असमर्थ हो सकता है कि वह पहले के निष्कर्ष पर कैसे पहुँचा।
यह सूचना की कमी, संभवतः मददगार या सुसंगत दिखने के दबाव के साथ मिलकर, उसे अपने पिछले व्यवहार के लिए एक प्रशंसनीय लेकिन मनगढ़ंत व्याख्या प्रस्तुत करने के लिए प्रेरित कर सकती है। ट्रांसलूस के शोधकर्ता नील चौधरी ने टेकक्रंच को बताया, “हमारी परिकल्पना यह है कि ओ-सीरीज़ मॉडल के लिए जिस प्रकार के सुदृढीकरण सीखने का उपयोग किया जाता है, वह उन समस्याओं को बढ़ा सकता है जिन्हें आमतौर पर मानक पोस्ट-ट्रेनिंग पाइपलाइनों द्वारा कम किया जाता है (लेकिन पूरी तरह से मिटाया नहीं जाता)।
17 अप्रैल, 2025 को घोषित Microsoft Azure और GitHub Copilot जैसे प्लेटफ़ॉर्म पर o3 और o4-mini का तेज़ी से एकीकरण, उनकी कथित उपयोगिता को रेखांकित करता है। ये मॉडल मार्च में उन्नत विज़ुअल प्रोसेसिंग और 11 अप्रैल को “रिकॉल” मेमोरी फ़ीचर के सक्रियण जैसे अन्य OpenAI अपडेट के साथ आए।
हालाँकि, निर्माण में दर्ज वृद्धि, AI क्षमताओं को विश्वसनीयता के साथ संरेखित करने में लगातार आने वाली चुनौतियों को उजागर करती है। यह ऐसे समय में सामने आ रहा है जब व्यापक उद्योग पारदर्शिता से जूझ रहा है, जिसका प्रमाण Google के Gemini 2.5 Pro मॉडल के लिए विलंबित और अस्पष्ट सुरक्षा विवरणों की आलोचना है, जिससे नवाचार की गति और विश्वसनीय AI परिनियोजन के बीच संतुलन को लेकर लगातार सवाल उठ रहे हैं।
स्रोत: Winbuzzer / Digpu NewsTex