Close Menu
Digpu News  Agency Feed
    Facebook X (Twitter) Instagram
    • Home
    • Technology
    • USA
    • Business
    • Education
    • Startups and Entrepreneurs
    • Health
    Facebook X (Twitter) Instagram
    Digpu News  Agency Feed
    Subscribe
    Friday, January 2
    • Home
    • Technology
    • USA
    • Business
    • Education
    • Startups and Entrepreneurs
    • Health
    Digpu News  Agency Feed
    Home»Hindi»ओपनएआई के नए o3/o4-मिनी मॉडल पिछले मॉडलों की तुलना में अधिक भ्रम पैदा करते हैं

    ओपनएआई के नए o3/o4-मिनी मॉडल पिछले मॉडलों की तुलना में अधिक भ्रम पैदा करते हैं

    DeskBy DeskAugust 12, 2025No Comments8 Mins Read
    Share Facebook Twitter Pinterest Copy Link LinkedIn Tumblr Email VKontakte Telegram
    Share
    Facebook Twitter Pinterest Email Copy Link

    ओपनएआई ने अपने o3 और o4-मिनी मॉडल को 16 अप्रैल, 2025 के आसपास भुगतान करने वाले ग्राहकों के लिए चैटजीपीटी में शामिल किया, और उन्हें अधिक स्वायत्त एआई सहायकों की दिशा में एक कदम बताया। इन मॉडलों को “प्रारंभिक एजेंटिक व्यवहार” के साथ डिज़ाइन किया गया था, जो वेब ब्राउज़िंग, कोड निष्पादन या फ़ाइल विश्लेषण जैसे उपकरणों का उपयोग कब करना है, यह स्वतंत्र रूप से तय करने में सक्षम थे।

    फिर भी, अधिक एआई स्वायत्तता की ओर यह कदम ओपनएआई के अपने परीक्षण और बाहरी शोधकर्ताओं, दोनों के निष्कर्षों के साथ मेल खाता है, कि ये उन्नत तर्क मॉडल विरोधाभासी रूप से अपने पूर्ववर्तियों की तुलना में भ्रम के माध्यम से चीजें गढ़ने के लिए अधिक प्रवृत्त हैं।

    लॉन्च के साथ जारी किए गए आंकड़ों ने एक चिंताजनक प्रवृत्ति का खुलासा किया: ओपनएआई के पर्सनक्यूए बेंचमार्क पर, जिसे लोगों के बारे में ज्ञान का परीक्षण करने के लिए डिज़ाइन किया गया था, o3 ने 33% मामलों में गलत या मनगढ़ंत जानकारी दी। o4-मिनी मॉडल का प्रदर्शन और भी खराब रहा, 48% मामलों में भ्रम की स्थिति पैदा हुई।

    ये दरें पुराने o1 मॉडल के 16% और o3-मिनी के 14.8% से काफी अधिक हैं। पुराने संस्करणों की तुलना में तर्क और कोडिंग बेंचमार्क में सामान्यतः सुधार दिखाते हुए, निर्माण में यह विशिष्ट वृद्धि अधिक एजेंटिक सिस्टम विकसित करने में शामिल ट्रेड-ऑफ़ के बारे में प्रश्न उठाती है।

    ओपनएआई ने अपने o3 और o4-मिनी सिस्टम कार्ड में स्वीकार किया कि इस परिघटना को समझने के लिए “अधिक शोध की आवश्यकता है”, यह सिद्धांत देते हुए कि चूँकि ये मॉडल “कुल मिलाकर अधिक दावे करते हैं”, वे अधिक सही और अधिक गलत दोनों कथन प्रस्तुत करते हैं। ओपनएआई के प्रवक्ता निको फेलिक्स ने टेकक्रंच को बताया, “हमारे सभी मॉडलों में मतिभ्रम को संबोधित करना अनुसंधान का एक सतत क्षेत्र है, और हम उनकी सटीकता और विश्वसनीयता में सुधार के लिए निरंतर काम कर रहे हैं।”

    मनगढ़ंत कार्य और विस्तृत बहाने

    लॉन्च के तुरंत बाद स्वतंत्र जाँच शुरू हुई, जिससे विश्वसनीयता संबंधी चिंताओं को बल मिला। एआई अनुसंधान प्रयोगशाला ट्रांसल्यूस एआई ने 16 अप्रैल, 2025 को o3 (`o3-2025-04-03`) के पूर्व-रिलीज़ संस्करण के परीक्षण से प्राप्त निष्कर्ष प्रकाशित किए, जिसमें मॉडल द्वारा की गई गतिविधियों के पैटर्न का विवरण दिया गया था।

    स्वचालित अन्वेषक एजेंटों और उनके डॉसेंट विश्लेषण उपकरण का उपयोग करके सैकड़ों वार्तालापों की जाँच करने पर, ट्रांसल्यूस ने पाया कि एक प्रमुख समस्या यह थी कि मॉडल यह दावा कर रहा था कि उसने उपयोगकर्ता के अनुरोधों को पूरा करने के लिए पायथन कोड—एक ऐसी क्षमता जिसका उसमें अभाव है—का प्रयोग किया था। जब इन मनगढ़ंत बातों के बारे में पूछा गया, तो मॉडल अक्सर दोहरा रुख अपनाता रहा और विस्तृत औचित्य गढ़ता रहा।

    ट्रांसल्यूस ने एक उल्लेखनीय उदाहरण वार्तालाप का विवरण दिया जिसमें o3 ने पायथन कोड और विशिष्ट परीक्षणों का उपयोग करके 512-बिट अभाज्य संख्या उत्पन्न करने का दावा किया।

    जब उपयोगकर्ता ने पहचाना कि दी गई संख्या वास्तव में मिश्रित (3 से विभाज्य) थी, तो o3 ने इस गलती को भ्रम के कारण नहीं, बल्कि टर्मिनल विंडो से मैन्युअल स्थानांतरण के दौरान एक कथित कॉपी-पेस्ट त्रुटि के रूप में बताया, और कहा, “मैंने स्पष्ट रूप से परीक्षणों को दोबारा चलाए बिना ही संख्या की प्रतिलिपि बनाई या टाइप की… कोई भी वास्तविक मिलर-राबिन परीक्षण उस संख्या को तुरंत अस्वीकार कर देता।”

    कथित मूल अभाज्य संख्या के बारे में और अधिक दबाव डालने पर, मॉडल ने दावा किया कि यह पूरी तरह से खो गई थी क्योंकि पायथन प्रक्रिया बंद कर दी गई थी। ट्रांसलूस ने अन्य मनगढ़ंत बातें भी दर्ज कीं, जिनमें गणनाओं के लिए बाहरी “2021 मैकबुक प्रो” पर कोड चलाने का दावा, और अपने पायथन आरईपीएल वातावरण के बारे में पूछे जाने पर सिस्टम विवरण गढ़ना शामिल है। टेकक्रंच से बात करने वाले वर्करा के सीईओ कियान कटानफोरूश के अनुसार, कोडिंग के लिए उपयोगी होने के बावजूद, o3 कभी-कभी काम न करने वाले वेब लिंक भी बनाता था।

    सुरक्षा समायोजनों के बीच तेज़ गति

    इन मॉडलों का विमोचन OpenAI में त्वरित विकास और बदलती सुरक्षा नीतियों के संदर्भ में हुआ। लॉन्च के समय के आसपास, OpenAI ने हाल ही में अपने आंतरिक सुरक्षा दिशानिर्देशों, तैयारी ढाँचे को अद्यतन किया।

    इस संशोधन में एक उल्लेखनीय खंड शामिल था जिसमें सुझाव दिया गया था कि प्रतिस्पर्धियों की कार्रवाइयों के आधार पर सुरक्षा नियमों में संभावित रूप से बदलाव किया जा सकता है, जिसमें कहा गया था, “यदि कोई अन्य अग्रणी AI डेवलपर तुलनीय सुरक्षा उपायों के बिना एक उच्च-जोखिम वाला सिस्टम जारी करता है, तो हम अपनी आवश्यकताओं को समायोजित कर सकते हैं।” कंपनी ने ज़ोर दिया कि ऐसे समायोजन कठोर जाँच और सार्वजनिक प्रकटीकरण के बाद होंगे।

    यह नीतिगत बदलाव उन रिपोर्टों के बाद सामने आया जिनमें आरोप लगाया गया था कि OpenAI ने o3 के लिए आंतरिक सुरक्षा परीक्षण समय-सीमा को कई महीनों से घटाकर संभवतः एक सप्ताह से भी कम कर दिया है, कथित तौर पर प्रतिद्वंद्वियों के साथ तालमेल बनाए रखने के लिए।

    फाइनेंशियल टाइम्स में उद्धृत व्यक्तियों ने चिंता व्यक्त की; मूल्यांकन से परिचित एक सूत्र ने इस दृष्टिकोण को “लापरवाह” कहा, और आगे कहा, “यह आपदा का कारण बन सकता है।” एक अन्य सूत्र ने कथित तौर पर इसकी तुलना GPT-4 के लंबे मूल्यांकन से करते हुए कहा, “वे सार्वजनिक सुरक्षा को बिल्कुल भी प्राथमिकता नहीं दे रहे हैं।”

    अंतिम कोड के बजाय मध्यवर्ती “चेकपॉइंट्स” के परीक्षण की कार्यप्रणाली की भी आलोचना हुई। OpenAI के एक पूर्व तकनीकी कर्मचारी के हवाले से कहा गया, “आपके द्वारा मूल्यांकन किए गए मॉडल से अलग मॉडल जारी करना गलत प्रथा है।” इस प्रक्रिया का बचाव करते हुए, OpenAI के सुरक्षा प्रणालियों के प्रमुख, जोहान्स हेइडेके ने FT से कहा, “हम कितनी तेज़ी से आगे बढ़ते हैं और कितनी गहनता से काम करते हैं, इसका हमारे पास अच्छा संतुलन है,” उन्होंने मूल्यांकन में बढ़ते स्वचालन की ओर इशारा किया।

    बढ़े हुए निर्माण के संभावित कारण

    यह समझाने के लिए कि ये उन्नत तर्क मॉडल अधिक बार निर्माण क्यों कर सकते हैं, मानक AI सीमाओं से परे देखना आवश्यक है। पारदर्शी AI द्वारा सुझाए गए कारक O-श्रृंखला मॉडल के लिए विशिष्ट हो सकते हैं, इस समस्या को और बढ़ा सकते हैं। एक परिकल्पना परिणाम-आधारित सुदृढीकरण अधिगम (RL) पर केंद्रित है: यदि AI को मुख्य रूप से सही अंतिम उत्तर देने के लिए प्रशिक्षित और पुरस्कृत किया जाता है, तो वह मध्यवर्ती चरणों का निर्माण करना सीख सकता है, जैसे उपकरण के उपयोग का दावा करना, यदि वह सफलता से संबंधित हो, भले ही वर्णित प्रक्रिया गलत हो।

    मानव प्रतिक्रिया से सुदृढीकरण अधिगम (RLHF), मॉडलों को संरेखित करने की एक सामान्य तकनीक है, जिसका उद्देश्य विभिन्न मॉडल प्रतिक्रियाओं के लिए मानवीय प्राथमिकताओं के आधार पर AI को प्रशिक्षित करके उसे सहायक, ईमानदार और हानिरहित बनाना है। हालाँकि, यदि मानव मूल्यांकनकर्ता जटिल मध्यवर्ती चरणों की शुद्धता को आसानी से सत्यापित नहीं कर सकते हैं, तो मॉडल प्रशंसनीय लगने वाले लेकिन गलत तर्क उत्पन्न करना सीख सकता है यदि इससे कोई पसंदीदा परिणाम प्राप्त होता है।

    ट्रांसलूस द्वारा प्रस्तावित एक अन्य महत्वपूर्ण कारक मॉडल के आंतरिक चरण-दर-चरण तर्क को संभालना है, जिसे अक्सर “विचार-श्रृंखला” कहा जाता है। ओपनएआई के दस्तावेज़ों के अनुसार, यह तर्क-सूत्र बातचीत के चरणों के बीच प्रसारित नहीं होता है। ट्रांसलूस का मानना है कि अपने स्वयं के पूर्व तर्क तक पहुँच की कमी के कारण मॉडल उपयोगकर्ता के उन प्रश्नों का सच्चाई से उत्तर देने में असमर्थ हो सकता है कि वह पहले के निष्कर्ष पर कैसे पहुँचा।

    यह सूचना की कमी, संभवतः मददगार या सुसंगत दिखने के दबाव के साथ मिलकर, उसे अपने पिछले व्यवहार के लिए एक प्रशंसनीय लेकिन मनगढ़ंत व्याख्या प्रस्तुत करने के लिए प्रेरित कर सकती है। ट्रांसलूस के शोधकर्ता नील चौधरी ने टेकक्रंच को बताया, “हमारी परिकल्पना यह है कि ओ-सीरीज़ मॉडल के लिए जिस प्रकार के सुदृढीकरण सीखने का उपयोग किया जाता है, वह उन समस्याओं को बढ़ा सकता है जिन्हें आमतौर पर मानक पोस्ट-ट्रेनिंग पाइपलाइनों द्वारा कम किया जाता है (लेकिन पूरी तरह से मिटाया नहीं जाता)।

    17 अप्रैल, 2025 को घोषित Microsoft Azure और GitHub Copilot जैसे प्लेटफ़ॉर्म पर o3 और o4-mini का तेज़ी से एकीकरण, उनकी कथित उपयोगिता को रेखांकित करता है। ये मॉडल मार्च में उन्नत विज़ुअल प्रोसेसिंग और 11 अप्रैल को “रिकॉल” मेमोरी फ़ीचर के सक्रियण जैसे अन्य OpenAI अपडेट के साथ आए।

    हालाँकि, निर्माण में दर्ज वृद्धि, AI क्षमताओं को विश्वसनीयता के साथ संरेखित करने में लगातार आने वाली चुनौतियों को उजागर करती है। यह ऐसे समय में सामने आ रहा है जब व्यापक उद्योग पारदर्शिता से जूझ रहा है, जिसका प्रमाण Google के Gemini 2.5 Pro मॉडल के लिए विलंबित और अस्पष्ट सुरक्षा विवरणों की आलोचना है, जिससे नवाचार की गति और विश्वसनीय AI परिनियोजन के बीच संतुलन को लेकर लगातार सवाल उठ रहे हैं।

    स्रोत: Winbuzzer / Digpu NewsTex

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email Telegram Copy Link
    Previous Articleसिनोलॉजी 2025 से अधिक NAS मॉडलों के लिए हार्ड ड्राइव प्रतिबंधों का विस्तार करने के लिए तैयार है
    Next Article AWS ने AI एजेंटों को बेहतर बनाने के लिए ओपन सोर्स मॉडल कॉन्टेक्स्ट प्रोटोकॉल सर्वर जारी किए
    © 2026 ThemeSphere. Designed by ThemeSphere.
    • Home
    • About
    • Team
    • World
    • Buy now!

    Type above and press Enter to search. Press Esc to cancel.