2023 और 2024 में, जैसे-जैसे AI टेक्स्ट जनरेटर मुख्यधारा में आने लगे, एक अजीबोगरीब चलन सामने आया: “डेल्व” शब्द संदिग्ध रूप से कई विज्ञान पत्रों में दिखाई देने लगा। यह AI-जनित सामग्री के लिए एक तरह का पहचान-पत्र बन गया – लेकिन यह सबसे अजीब नहीं है।
आइए हम आपको “वनस्पति इलेक्ट्रॉन माइक्रोस्कोपी” से परिचित कराते हैं।
वनस्पति क्या?
अगर आप बुनियादी विज्ञान जानते हैं, तो आप पहले से ही हैरान हैं। “वनस्पति इलेक्ट्रॉन माइक्रोस्कोपी” का कोई मतलब नहीं है – और ऐसा इसलिए है क्योंकि यह कोई वास्तविक चीज़ नहीं है। इसे शोधकर्ता “डिजिटल जीवाश्म” कहते हैं – एक अजीब, गलत शब्द जो ऑप्टिकल स्कैनिंग त्रुटियों और AI प्रशिक्षण की विचित्रताओं के मिश्रण से पैदा हुआ है। उल्लेखनीय रूप से, यह बेतुका वाक्यांश एक बार नहीं, बल्कि दो बार पूरी तरह से अलग-अलग संदर्भों में सामने आया।
1950 के दशक में, बैक्टीरियोलॉजिकल रिव्यूज़ पत्रिका में दो शोधपत्रों को स्कैन करके डिजिटल किया गया था। उनमें से एक में, एक कॉलम में “वेजिटेटिव” शब्द और दूसरे कॉलम में “इलेक्ट्रॉन माइक्रोस्कोपी” शब्द दिखाई दिया। OCR सॉफ़्टवेयर ने गलती से दोनों को मिला दिया – और इस तरह, जीवाश्म का जन्म हुआ।
फिर, 2017 और 2019 में, दो शोधपत्रों में इस शब्द का फिर से इस्तेमाल किया गया। यहाँ, यह एक अनुवाद त्रुटि प्रतीत होती है। फ़ारसी में, “वेजिटेटिव” और “स्कैनिंग” शब्दों में केवल एक बिंदु का अंतर है। इसलिए स्कैनिंग इलेक्ट्रॉन माइक्रोस्कोपी की जगह, आपको वेजिटेटिव इलेक्ट्रॉन माइक्रोस्कोपी मिल गया।
यह सब फरवरी में रिट्रैक्शन वॉच द्वारा की गई एक विस्तृत जाँच के कारण सामने आया। लेकिन कहानी यहीं खत्म नहीं हुई।
यह क्यों मायने रखता है
आपको लगता होगा कि यह अजीबोगरीब गड़बड़ी कोई मायने नहीं रखती—लेकिन पता चला कि यह कुछ हद तक मायने रखती है।
यह शब्द अब कम से कम 22 अलग-अलग शोधपत्रों में छप चुका है। कुछ को सुधारा गया या वापस ले लिया गया, लेकिन तब तक नुकसान हो चुका था। यहाँ तक कि स्पेन के प्रमुख अखबारों में से एक, एल पैइस ने भी 2023 में एक लेख में इसका हवाला दिया था।
क्यों? दोष एआई का।
आधुनिक एआई सिस्टम विशाल डेटा भंडार पर प्रशिक्षित होते हैं—अनिवार्य रूप से हर उस चीज़ पर जिसे वे खंगाल सकते हैं। जब “वेजिटेटिव इलेक्ट्रॉन माइक्रोस्कोपी” कई प्रकाशित स्रोतों में दिखाई दिया, तो एआई मॉडल ने इसे एक वैध शब्द की तरह इस्तेमाल किया। इसलिए जब शोधकर्ताओं ने इन सिस्टम से शोधपत्र लिखने या ड्राफ्ट करने में मदद मांगी, तो मॉडल कभी-कभी इसे उगल देते थे, इस बात से अनजान कि यह बकवास है।
आरोन जे. स्नोसवेल और उनके सहयोगियों, जिन्होंने द कन्वर्सेशन पर एक गहन शोध प्रकाशित किया था, के अनुसार, इस शब्द ने 2020 के बाद से — उन दो समस्याग्रस्त फ़ारसी अनुवादों के बाद — एआई ज्ञान भंडार को प्रदूषित करना शुरू कर दिया। और यह कोई एक बार की घटना नहीं है: यह त्रुटि GPT-4o और क्लाउड 3.5 जैसे बड़े मॉडलों में भी बनी रहती है।
समूह ने द कन्वर्सेशन पर एक पोस्ट में लिखा, “हमने पाया कि यह त्रुटि GPT-4o और एंथ्रोपिक के क्लाउड 3.5 सहित बाद के मॉडलों में भी बनी रहती है। इससे पता चलता है कि यह बेतुका शब्द अब एआई ज्ञानकोषों में स्थायी रूप से समाहित हो सकता है।”
एआई-जनरेटेड सामग्री पहले से ही प्रदूषण फैला रही है
यह विचित्र उदाहरण एक मज़ेदार किस्से से कहीं बढ़कर है — यह वास्तविक जोखिमों को उजागर करता है।
शोधकर्ताओं का कहना है, “जैसे-जैसे एआई-सहायता प्राप्त शोध और लेखन आम होता जा रहा है, यह डिजिटल जीवाश्म ज्ञान की अखंडता पर भी गंभीर सवाल खड़े करता है।”
शोधकर्ता इससे निपटने और इस तरह की समस्याओं का पता लगाने की कोशिश कर रहे हैं। उदाहरण के लिए, प्रॉब्लमैटिक पेपर स्क्रीनर एक स्वचालित उपकरण है जो हर हफ़्ते 13 करोड़ लेखों की जाँच करता है। यह नौ डिटेक्टरों का उपयोग करके ज्ञात फ़िंगरप्रिंट या एआई के अनुचित उपयोग के नए उदाहरणों की खोज करता है। उन्हें अकेले स्प्रिंगर नेचर के पर्यावरण विज्ञान और प्रदूषण अनुसंधान में 78 शोधपत्र मिले।
लेकिन यह एक कठिन लड़ाई है।
हर जगह पहले से ही इतनी एआई सामग्री मौजूद है कि उसका पता लगाना लगभग असंभव होता जा रहा है; और यह समस्या का केवल एक पहलू है। वैज्ञानिक पत्रिकाएँ एक और समस्या हैं।
पत्रिकाओं के पास अपनी प्रतिष्ठा की रक्षा करने और वापसी से बचने के लिए हर संभव प्रयास होता है, भले ही इसका मतलब संदिग्ध सामग्री का बचाव करना ही क्यों न हो। उदाहरण के लिए: एल्सेवियर ने शुरुआत में “वनस्पति इलेक्ट्रॉन माइक्रोस्कोपी” के इस्तेमाल को सही ठहराने की कोशिश की, लेकिन अंततः एक सुधार जारी किया। उन्होंने अंततः एक सुधार जारी किया, लेकिन प्रतिक्रिया बहुत कुछ कहती है।
समस्या यह है कि जब तक तकनीकी कंपनियाँ अपने प्रशिक्षण डेटा और विधियों के बारे में पारदर्शी नहीं होंगी, शोधकर्ताओं को जासूसी करनी होगी और प्रकाशन के ढेर में एआई की सुइयों की तलाश करनी होगी। एक अनुमान के अनुसार, प्रति वर्ष लगभग 30 लाख शोधपत्र प्रकाशित होते हैं, और लेखन में एआई का उपयोग तेज़ी से आम होता जा रहा है।
असली ख़तरा यह है कि इस प्रकार की आकस्मिक त्रुटियाँ हमारे वैज्ञानिक रिकॉर्ड में गहराई तक समा सकती हैं – और एक बार अंतर्निहित हो जाने के बाद, एआई प्रणालियाँ उन्हें दोहराती रहेंगी। ज्ञान क्रमिक होता है, और यदि हम गलत नींव पर निर्माण करते हैं, तो परिणाम गंभीर हो सकते हैं।
अंततः, ऐसा लगता है कि बकवास भी, एक बार डिजिटल और प्रकाशित हो जाने पर, अमर हो सकती है।
स्रोत: ZME विज्ञान एवं प्रौद्योगिकी / Digpu NewsTex