Close Menu
Digpu News  Agency Feed
    Facebook X (Twitter) Instagram
    • Home
    • Technology
    • USA
    • Business
    • Education
    • Startups and Entrepreneurs
    • Health
    Facebook X (Twitter) Instagram
    Digpu News  Agency Feed
    Subscribe
    Tuesday, March 3
    • Home
    • Technology
    • USA
    • Business
    • Education
    • Startups and Entrepreneurs
    • Health
    Digpu News  Agency Feed
    Home»Hindi»विशेषज्ञ LMArena (चैटबॉट एरिना) जैसे क्राउडसोर्स्ड AI बेंचमार्क की वैधता और नैतिकता को चुनौती देते हैं

    विशेषज्ञ LMArena (चैटबॉट एरिना) जैसे क्राउडसोर्स्ड AI बेंचमार्क की वैधता और नैतिकता को चुनौती देते हैं

    DeskBy DeskAugust 12, 2025No Comments7 Mins Read
    Share Facebook Twitter Pinterest Copy Link LinkedIn Tumblr Email VKontakte Telegram
    Share
    Facebook Twitter Pinterest Email Copy Link

    शिक्षाविदों और एआई नैतिकता विशेषज्ञों का एक बढ़ता हुआ समूह, कृत्रिम बुद्धिमत्ता मॉडलों की रैंकिंग के लिए उपयोग किए जाने वाले लोकप्रिय क्राउडसोर्स्ड प्लेटफ़ॉर्म की विश्वसनीयता और निष्पक्षता पर संदेह व्यक्त कर रहा है, जो ओपनएआई, गूगल और मेटा जैसी तकनीकी दिग्गजों द्वारा तेज़ी से पसंद की जा रही एक पद्धति को सीधे तौर पर चुनौती दे रहा है।

    इस बहस के केंद्र में LMArena है, जो पहले चैटबॉट एरिना के नाम से जाना जाने वाला प्लेटफ़ॉर्म था, जिसकी आमने-सामने की तुलना प्रणाली प्रभावशाली हो गई है, फिर भी इसके वैज्ञानिक आधार और इसे संचालित करने वाले अवैतनिक श्रम को लेकर तीखे सवालों का सामना करना पड़ रहा है, जिससे एआई अनुसंधान समुदाय में चर्चा छिड़ गई है।

    पृष्ठभूमि: अनुसंधान परियोजना से वित्तपोषित स्टार्टअप तक

    LMArena के दृष्टिकोण में उपयोगकर्ता दो अनाम एआई मॉडलों के साथ बातचीत करते हैं और पसंदीदा आउटपुट का चयन करते हैं। ये वोट एलो रेटिंग प्रणाली का उपयोग करके रैंकिंग तैयार करते हैं, जो शतरंज में सापेक्ष कौशल स्तरों का अनुमान लगाने के लिए आमतौर पर इस्तेमाल की जाने वाली एक विधि है।

    यूसी बर्कले की स्काई कंप्यूटिंग लैब से जुड़े शोधकर्ताओं द्वारा 2023 की शुरुआत में लॉन्च किए जाने के बाद, यह सार्वजनिक लीडरबोर्ड तेज़ी से एक लोकप्रिय संसाधन बन गया। यह हर महीने दस लाख आगंतुकों को आकर्षित करता है और कभी-कभी अप्रकाशित मॉडलों के लिए भी परीक्षण स्थल के रूप में कार्य करता है।

    संसाधनों की आवश्यकता को समझते हुए, अकादमिक टीम—जिसका नेतृत्व हाल ही में यूसी बर्कले के पोस्टडॉक्टरल शोधकर्ता अनास्तासियोस एंजेलोपोलोस और वेई-लिन चियांग ने किया, साथ ही यूसी बर्कले के प्रोफेसर और जाने-माने तकनीकी उद्यमी आयन स्टोइका (डेटाब्रिक्स और एनीस्केल के सह-संस्थापक) ने 18 अप्रैल को एरिना इंटेलिजेंस इंक. की स्थापना की।

    एलएमअरेना ब्रांड के तहत काम करते हुए, नई कंपनी का लक्ष्य विस्तार के लिए धन जुटाना है। कंपनी का कहना है कि “एक कंपनी बनने से हमें एलएमअरेना को आज की तुलना में बेहतर बनाने के लिए संसाधन मिलेंगे।” इसके बाद गूगल के कागल प्लेटफॉर्म, वेंचर कैपिटल फर्म आंद्रेसेन होरोविट्ज़ और एआई इंफ्रास्ट्रक्चर कंपनी टुगेदर एआई सहित संगठनों से अनुदान और दान के रूप में शुरुआती समर्थन मिला। इस विलय के साथ ही, beta.lmarena.ai पर एक नई बीटा वेबसाइट लॉन्च की गई, जिसका उद्देश्य गति और उपयोगकर्ता अनुभव को बेहतर बनाना था।

    क्या मापना महत्वपूर्ण है? वैधता जाँच के दायरे में

    एक प्रमुख आलोचना यह है कि क्या LMArena का क्राउडसोर्स्ड वोटिंग वास्तव में सार्थक मॉडल गुणों का आकलन करता है या वास्तविक उपयोगकर्ता वरीयता को मज़बूती से दर्शाता है। वाशिंगटन विश्वविद्यालय की भाषा विज्ञान की प्रोफ़ेसर एमिली बेंडर ने टेकक्रंच को दिए एक बयान में बेंचमार्क की अंतर्निहित कार्यप्रणाली के बारे में चिंताओं पर प्रकाश डाला।

    “वैध होने के लिए, एक बेंचमार्क को किसी विशिष्ट चीज़ को मापने की आवश्यकता होती है, और इसमें संरचनागत वैधता होनी चाहिए – अर्थात, इस बात का प्रमाण होना चाहिए कि रुचि का निर्माण अच्छी तरह से परिभाषित है और माप वास्तव में निर्माण से संबंधित हैं,” बेंडर ने ज़ोर देकर कहा।

    उन्होंने ऐसे सबूतों की कमी की ओर इशारा किया जो दर्शाते हैं कि LMArena का तरीका प्रभावी रूप से वरीयता को दर्शाता है, और कहा, “चैटबॉट एरिना ने यह नहीं दिखाया है कि एक आउटपुट के बजाय दूसरे आउटपुट के लिए वोटिंग वास्तव में वरीयताओं से संबंधित है, चाहे उन्हें किसी भी तरह से परिभाषित किया जाए।” ये मौजूदा आलोचनाएँ उस मौजूदा जाँच पर आधारित हैं जिसका सामना प्लेटफ़ॉर्म को वोटों की व्यक्तिपरकता, इसके उपयोगकर्ता आधार में संभावित जनसांख्यिकीय पूर्वाग्रहों, डेटासेट पारदर्शिता और विभिन्न मॉडल प्रकारों के लिए अलग-अलग मूल्यांकन स्थितियों के संबंध में करना पड़ा था।

    चिंताएँ इस बात तक फैली हुई हैं कि परिणामों की व्याख्या कैसे की जा सकती है या संभावित रूप से गलत तरीके से प्रस्तुत की जा सकती है। एआई फर्म लेसन के सह-संस्थापक असमेलाश टेका हडगू ने सुझाव दिया कि प्रयोगशालाओं को LMArena जैसे प्लेटफ़ॉर्म का उपयोग करने के लिए “अतिरंजित दावों को बढ़ावा देने” के लिए “सह-चुना” जा सकता है। उन्होंने मेटा के लामा 4 मेवरिक मॉडल को लेकर हुए विवाद का हवाला दिया, जहाँ कंपनी की एक विशेष रूप से ट्यून किए गए संस्करण की बेंचमार्किंग के लिए आलोचना की गई थी, जिसने कथित तौर पर अंततः जनता के लिए जारी किए गए मानक संस्करण से बेहतर प्रदर्शन किया था। हैडगू विशिष्ट व्यावसायिक क्षेत्रों के लिए अनुकूलित, गतिशील, स्वतंत्र रूप से प्रबंधित बेंचमार्क की वकालत करते हैं, जिसमें भुगतान किए गए विशेषज्ञों का उपयोग किया जाता है।

    स्वयंसेवी मूल्यांकन की नैतिकता

    इस प्लेटफ़ॉर्म की अवैतनिक उपयोगकर्ता योगदान पर निर्भरता भी नैतिक परीक्षण का विषय है। एस्पेन इंस्टीट्यूट की पूर्व सदस्य क्रिस्टीन ग्लोरिया ने अक्सर शोषणकारी डेटा लेबलिंग उद्योग के साथ तुलना की, एक ऐसा मुद्दा जिस पर ओपनएआई जैसी कुछ प्रयोगशालाओं को पहले भी सवालों का सामना करना पड़ा है। विविध दृष्टिकोणों में मूल्य देखते हुए, ग्लोरिया का मानना है कि क्राउडसोर्स्ड बेंचमार्क “मूल्यांकन के लिए कभी भी एकमात्र मानदंड नहीं होने चाहिए” और इनके अविश्वसनीय होने का जोखिम है।

    ग्रे स्वान एआई के सीईओ मैट फ्रेडरिकसन, जो एआई रेड टीमिंग के लिए क्राउडसोर्सिंग का उपयोग करते हैं, ने स्वीकार किया कि सार्वजनिक बेंचमार्क आंतरिक परीक्षण और भुगतान किए गए विशेषज्ञ विश्लेषण का “विकल्प नहीं हैं”। “मॉडल डेवलपर्स और बेंचमार्क क्रिएटर्स, चाहे क्राउडसोर्स्ड हों या अन्य, दोनों के लिए यह ज़रूरी है कि वे फ़ॉलोअर्स को परिणामों के बारे में स्पष्ट रूप से बताएँ और जब उनसे कोई सवाल पूछा जाए तो तुरंत जवाब दें,” फ्रेडरिकसन ने सलाह दी।

    LMArena अपनी भूमिका का बचाव करता है और आगे की ओर देखता है

    LMArena के सह-संस्थापक वेई-लिन चियांग कुछ विशेषताओं का विरोध करते हैं और प्लेटफ़ॉर्म के उद्देश्य को अलग तरह से प्रस्तुत करते हैं। “हमारा समुदाय यहाँ स्वयंसेवक या मॉडल परीक्षक के रूप में नहीं है,” चियांग ने टेकक्रंच को बताया।

    “लोग एलएम एरिना का इस्तेमाल इसलिए करते हैं क्योंकि हम उन्हें एआई से जुड़ने और सामूहिक प्रतिक्रिया देने के लिए एक खुला, पारदर्शी मंच प्रदान करते हैं। जब तक लीडरबोर्ड समुदाय की आवाज़ को ईमानदारी से दर्शाता है, हम इसे साझा किए जाने का स्वागत करते हैं।”

    उन्होंने बेंचमार्क विवादों के लिए प्रयोगशालाओं द्वारा नियमों की गलत व्याख्या को ज़िम्मेदार ठहराया, न कि अंतर्निहित डिज़ाइन दोषों को। उन्होंने कहा कि एलएम एरिना ने निष्पक्षता के लिए नीतियों को अपडेट किया है। सह-संस्थापक अनास्तासियोस एंजेलोपोलोस ने अपने लक्ष्यों को और विस्तार से बताते हुए कहा, “हमारा दृष्टिकोण यह है कि यह एक ऐसी जगह बनी रहे जहाँ इंटरनेट पर हर कोई आकर चैट कर सके और एआई का उपयोग कर सके, विभिन्न प्रदाताओं की तुलना कर सके, इत्यादि।”

    यह कंपनी की सार्वजनिक घोषणा के अनुरूप है: “हमारा लीडरबोर्ड कभी भी किसी प्रदाता के पक्ष में (या उसके विरुद्ध) पक्षपाती नहीं होगा, और डिज़ाइन द्वारा हमारे समुदाय की प्राथमिकताओं को पूरी ईमानदारी से प्रतिबिंबित करेगा। यह विज्ञान-संचालित होगा।”

    एरिना इंटेलिजेंस इंक. जैसे-जैसे फंडिंग की तलाश कर रहा है और अपने व्यवसाय मॉडल को परिभाषित कर रहा है—संभवतः मूल्यांकन के लिए कंपनियों से शुल्क ले रहा है—यह बड़े भाषा मॉडल तुलनाओं से परे एक व्यापक विस्तार की भी योजना बना रहा है। उल्लिखित विशिष्ट पहलों में वेबडेव एरिना, रेपोचैट एरिना और सर्च एरिना शामिल हैं, जिनकी भविष्य की योजनाएँ विज़न मॉडल, एआई एजेंट और समर्पित एआई रेड-टीमिंग वातावरण को लक्षित करती हैं। यह विस्तार मूल्यांकन विधियों पर उद्योग जगत में व्यापक चर्चा के बीच आया है, और ओपनराउटर के सीईओ एलेक्स अताल्लाह जैसे लोगों ने भी इस बात को स्वीकार किया है, जिन्होंने माना कि केवल खुला परीक्षण “पर्याप्त नहीं है।”

    स्रोत: विनबज़र / डिग्पू न्यूज़टेक्स

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email Telegram Copy Link
    Previous Articleमाइक्रोसॉफ्ट ने सख्त प्रदर्शन नीतियां लागू कीं, जिसमें 2 साल का पुनर्नियुक्ति प्रतिबंध भी शामिल है
    Next Article ओपनएआई और वाशिंगटन पोस्ट ने चैटजीपीटी कंटेंट साझेदारी पर हस्ताक्षर किए
    © 2026 ThemeSphere. Designed by ThemeSphere.
    • Home
    • About
    • Team
    • World
    • Buy now!

    Type above and press Enter to search. Press Esc to cancel.