विशेषज्ञ LMArena (चैटबॉट एरिना) जैसे क्राउडसोर्स्ड AI बेंचमार्क की वैधता और नैतिकता को चुनौती देते हैं

शिक्षाविदों और एआई नैतिकता विशेषज्ञों का एक बढ़ता हुआ समूह, कृत्रिम बुद्धिमत्ता मॉडलों की रैंकिंग के लिए उपयोग किए जाने वाले लोकप्रिय क्राउडसोर्स्ड प्लेटफ़ॉर्म की विश्वसनीयता और निष्पक्षता पर संदेह व्यक्त कर रहा है, जो ओपनएआई, गूगल और मेटा जैसी तकनीकी दिग्गजों द्वारा तेज़ी से पसंद की जा रही एक पद्धति को सीधे तौर पर चुनौती दे रहा है।

इस बहस के केंद्र में LMArena है, जो पहले चैटबॉट एरिना के नाम से जाना जाने वाला प्लेटफ़ॉर्म था, जिसकी आमने-सामने की तुलना प्रणाली प्रभावशाली हो गई है, फिर भी इसके वैज्ञानिक आधार और इसे संचालित करने वाले अवैतनिक श्रम को लेकर तीखे सवालों का सामना करना पड़ रहा है, जिससे एआई अनुसंधान समुदाय में चर्चा छिड़ गई है।

पृष्ठभूमि: अनुसंधान परियोजना से वित्तपोषित स्टार्टअप तक

LMArena के दृष्टिकोण में उपयोगकर्ता दो अनाम एआई मॉडलों के साथ बातचीत करते हैं और पसंदीदा आउटपुट का चयन करते हैं। ये वोट एलो रेटिंग प्रणाली का उपयोग करके रैंकिंग तैयार करते हैं, जो शतरंज में सापेक्ष कौशल स्तरों का अनुमान लगाने के लिए आमतौर पर इस्तेमाल की जाने वाली एक विधि है।

यूसी बर्कले की स्काई कंप्यूटिंग लैब से जुड़े शोधकर्ताओं द्वारा 2023 की शुरुआत में लॉन्च किए जाने के बाद, यह सार्वजनिक लीडरबोर्ड तेज़ी से एक लोकप्रिय संसाधन बन गया। यह हर महीने दस लाख आगंतुकों को आकर्षित करता है और कभी-कभी अप्रकाशित मॉडलों के लिए भी परीक्षण स्थल के रूप में कार्य करता है।

संसाधनों की आवश्यकता को समझते हुए, अकादमिक टीम—जिसका नेतृत्व हाल ही में यूसी बर्कले के पोस्टडॉक्टरल शोधकर्ता अनास्तासियोस एंजेलोपोलोस और वेई-लिन चियांग ने किया, साथ ही यूसी बर्कले के प्रोफेसर और जाने-माने तकनीकी उद्यमी आयन स्टोइका (डेटाब्रिक्स और एनीस्केल के सह-संस्थापक) ने 18 अप्रैल को एरिना इंटेलिजेंस इंक. की स्थापना की।

एलएमअरेना ब्रांड के तहत काम करते हुए, नई कंपनी का लक्ष्य विस्तार के लिए धन जुटाना है। कंपनी का कहना है कि “एक कंपनी बनने से हमें एलएमअरेना को आज की तुलना में बेहतर बनाने के लिए संसाधन मिलेंगे।” इसके बाद गूगल के कागल प्लेटफॉर्म, वेंचर कैपिटल फर्म आंद्रेसेन होरोविट्ज़ और एआई इंफ्रास्ट्रक्चर कंपनी टुगेदर एआई सहित संगठनों से अनुदान और दान के रूप में शुरुआती समर्थन मिला। इस विलय के साथ ही, beta.lmarena.ai पर एक नई बीटा वेबसाइट लॉन्च की गई, जिसका उद्देश्य गति और उपयोगकर्ता अनुभव को बेहतर बनाना था।

क्या मापना महत्वपूर्ण है? वैधता जाँच के दायरे में

एक प्रमुख आलोचना यह है कि क्या LMArena का क्राउडसोर्स्ड वोटिंग वास्तव में सार्थक मॉडल गुणों का आकलन करता है या वास्तविक उपयोगकर्ता वरीयता को मज़बूती से दर्शाता है। वाशिंगटन विश्वविद्यालय की भाषा विज्ञान की प्रोफ़ेसर एमिली बेंडर ने टेकक्रंच को दिए एक बयान में बेंचमार्क की अंतर्निहित कार्यप्रणाली के बारे में चिंताओं पर प्रकाश डाला।

“वैध होने के लिए, एक बेंचमार्क को किसी विशिष्ट चीज़ को मापने की आवश्यकता होती है, और इसमें संरचनागत वैधता होनी चाहिए – अर्थात, इस बात का प्रमाण होना चाहिए कि रुचि का निर्माण अच्छी तरह से परिभाषित है और माप वास्तव में निर्माण से संबंधित हैं,” बेंडर ने ज़ोर देकर कहा।

उन्होंने ऐसे सबूतों की कमी की ओर इशारा किया जो दर्शाते हैं कि LMArena का तरीका प्रभावी रूप से वरीयता को दर्शाता है, और कहा, “चैटबॉट एरिना ने यह नहीं दिखाया है कि एक आउटपुट के बजाय दूसरे आउटपुट के लिए वोटिंग वास्तव में वरीयताओं से संबंधित है, चाहे उन्हें किसी भी तरह से परिभाषित किया जाए।” ये मौजूदा आलोचनाएँ उस मौजूदा जाँच पर आधारित हैं जिसका सामना प्लेटफ़ॉर्म को वोटों की व्यक्तिपरकता, इसके उपयोगकर्ता आधार में संभावित जनसांख्यिकीय पूर्वाग्रहों, डेटासेट पारदर्शिता और विभिन्न मॉडल प्रकारों के लिए अलग-अलग मूल्यांकन स्थितियों के संबंध में करना पड़ा था।

चिंताएँ इस बात तक फैली हुई हैं कि परिणामों की व्याख्या कैसे की जा सकती है या संभावित रूप से गलत तरीके से प्रस्तुत की जा सकती है। एआई फर्म लेसन के सह-संस्थापक असमेलाश टेका हडगू ने सुझाव दिया कि प्रयोगशालाओं को LMArena जैसे प्लेटफ़ॉर्म का उपयोग करने के लिए “अतिरंजित दावों को बढ़ावा देने” के लिए “सह-चुना” जा सकता है। उन्होंने मेटा के लामा 4 मेवरिक मॉडल को लेकर हुए विवाद का हवाला दिया, जहाँ कंपनी की एक विशेष रूप से ट्यून किए गए संस्करण की बेंचमार्किंग के लिए आलोचना की गई थी, जिसने कथित तौर पर अंततः जनता के लिए जारी किए गए मानक संस्करण से बेहतर प्रदर्शन किया था। हैडगू विशिष्ट व्यावसायिक क्षेत्रों के लिए अनुकूलित, गतिशील, स्वतंत्र रूप से प्रबंधित बेंचमार्क की वकालत करते हैं, जिसमें भुगतान किए गए विशेषज्ञों का उपयोग किया जाता है।

स्वयंसेवी मूल्यांकन की नैतिकता

इस प्लेटफ़ॉर्म की अवैतनिक उपयोगकर्ता योगदान पर निर्भरता भी नैतिक परीक्षण का विषय है। एस्पेन इंस्टीट्यूट की पूर्व सदस्य क्रिस्टीन ग्लोरिया ने अक्सर शोषणकारी डेटा लेबलिंग उद्योग के साथ तुलना की, एक ऐसा मुद्दा जिस पर ओपनएआई जैसी कुछ प्रयोगशालाओं को पहले भी सवालों का सामना करना पड़ा है। विविध दृष्टिकोणों में मूल्य देखते हुए, ग्लोरिया का मानना है कि क्राउडसोर्स्ड बेंचमार्क “मूल्यांकन के लिए कभी भी एकमात्र मानदंड नहीं होने चाहिए” और इनके अविश्वसनीय होने का जोखिम है।

ग्रे स्वान एआई के सीईओ मैट फ्रेडरिकसन, जो एआई रेड टीमिंग के लिए क्राउडसोर्सिंग का उपयोग करते हैं, ने स्वीकार किया कि सार्वजनिक बेंचमार्क आंतरिक परीक्षण और भुगतान किए गए विशेषज्ञ विश्लेषण का “विकल्प नहीं हैं”। “मॉडल डेवलपर्स और बेंचमार्क क्रिएटर्स, चाहे क्राउडसोर्स्ड हों या अन्य, दोनों के लिए यह ज़रूरी है कि वे फ़ॉलोअर्स को परिणामों के बारे में स्पष्ट रूप से बताएँ और जब उनसे कोई सवाल पूछा जाए तो तुरंत जवाब दें,” फ्रेडरिकसन ने सलाह दी।

LMArena अपनी भूमिका का बचाव करता है और आगे की ओर देखता है

LMArena के सह-संस्थापक वेई-लिन चियांग कुछ विशेषताओं का विरोध करते हैं और प्लेटफ़ॉर्म के उद्देश्य को अलग तरह से प्रस्तुत करते हैं। “हमारा समुदाय यहाँ स्वयंसेवक या मॉडल परीक्षक के रूप में नहीं है,” चियांग ने टेकक्रंच को बताया।

“लोग एलएम एरिना का इस्तेमाल इसलिए करते हैं क्योंकि हम उन्हें एआई से जुड़ने और सामूहिक प्रतिक्रिया देने के लिए एक खुला, पारदर्शी मंच प्रदान करते हैं। जब तक लीडरबोर्ड समुदाय की आवाज़ को ईमानदारी से दर्शाता है, हम इसे साझा किए जाने का स्वागत करते हैं।”

उन्होंने बेंचमार्क विवादों के लिए प्रयोगशालाओं द्वारा नियमों की गलत व्याख्या को ज़िम्मेदार ठहराया, न कि अंतर्निहित डिज़ाइन दोषों को। उन्होंने कहा कि एलएम एरिना ने निष्पक्षता के लिए नीतियों को अपडेट किया है। सह-संस्थापक अनास्तासियोस एंजेलोपोलोस ने अपने लक्ष्यों को और विस्तार से बताते हुए कहा, “हमारा दृष्टिकोण यह है कि यह एक ऐसी जगह बनी रहे जहाँ इंटरनेट पर हर कोई आकर चैट कर सके और एआई का उपयोग कर सके, विभिन्न प्रदाताओं की तुलना कर सके, इत्यादि।”

यह कंपनी की सार्वजनिक घोषणा के अनुरूप है: “हमारा लीडरबोर्ड कभी भी किसी प्रदाता के पक्ष में (या उसके विरुद्ध) पक्षपाती नहीं होगा, और डिज़ाइन द्वारा हमारे समुदाय की प्राथमिकताओं को पूरी ईमानदारी से प्रतिबिंबित करेगा। यह विज्ञान-संचालित होगा।”

एरिना इंटेलिजेंस इंक. जैसे-जैसे फंडिंग की तलाश कर रहा है और अपने व्यवसाय मॉडल को परिभाषित कर रहा है—संभवतः मूल्यांकन के लिए कंपनियों से शुल्क ले रहा है—यह बड़े भाषा मॉडल तुलनाओं से परे एक व्यापक विस्तार की भी योजना बना रहा है। उल्लिखित विशिष्ट पहलों में वेबडेव एरिना, रेपोचैट एरिना और सर्च एरिना शामिल हैं, जिनकी भविष्य की योजनाएँ विज़न मॉडल, एआई एजेंट और समर्पित एआई रेड-टीमिंग वातावरण को लक्षित करती हैं। यह विस्तार मूल्यांकन विधियों पर उद्योग जगत में व्यापक चर्चा के बीच आया है, और ओपनराउटर के सीईओ एलेक्स अताल्लाह जैसे लोगों ने भी इस बात को स्वीकार किया है, जिन्होंने माना कि केवल खुला परीक्षण “पर्याप्त नहीं है।”

स्रोत: विनबज़र / डिग्पू न्यूज़टेक्स