২০২৩ এবং ২০২৪ সালে, যখন AI টেক্সট জেনারেটরগুলি মূলধারায় পরিণত হতে শুরু করে, তখন একটি অদ্ভুত প্রবণতা দেখা দেয়: সন্দেহজনক সংখ্যক বিজ্ঞানের গবেষণাপত্রে “delve” শব্দটি উপস্থিত হতে শুরু করে। এটি AI-উত্পাদিত বিষয়বস্তুর জন্য এক ধরণের কলিং কার্ড হয়ে ওঠে – তবে এটি সবচেয়ে অদ্ভুত নয়।
আসুন আমরা আপনাকে পরিচয় করিয়ে দেই: “vegetative electron microscopy”।
vegetative what?
আপনি যদি মৌলিক বিজ্ঞান জানেন, তাহলে আপনি ইতিমধ্যেই ভ্রু তুলছেন। “vegetative electron microscopy” অর্থহীন – এবং এর কারণ এটি একটি বাস্তব জিনিস নয়। গবেষকরা এটিকে “ডিজিটাল ফসিল” বলে থাকেন – অপটিক্যাল স্ক্যানিং ত্রুটি এবং AI প্রশিক্ষণের অদ্ভুততার মিশ্রণ থেকে উদ্ভূত একটি অদ্ভুত, ভুল শব্দ। উল্লেখযোগ্যভাবে, এই অর্থহীন বাক্যাংশটি একবার নয় বরং সম্পূর্ণ ভিন্ন প্রসঙ্গে দুবার উপস্থিত হয়েছিল।
১৯৫০-এর দশকে, ব্যাকটেরিওলজিক্যাল রিভিউ জার্নালে দুটি গবেষণাপত্র স্ক্যান করে ডিজিটাইজ করা হয়েছিল। এর মধ্যে একটিতে, “উদ্ভিদ” শব্দটি একটি কলামে এবং “ইলেকট্রন মাইক্রোস্কোপি” শব্দটি পাশের কলামে উপস্থিত হয়েছিল। OCR সফ্টওয়্যার ভুল করে দুটি কলামে একত্রিত হয়েছিল – এবং তাই, জীবাশ্মের জন্ম হয়েছিল।
তারপর, ২০১৭ এবং ২০১৯ সালে, দুটি গবেষণাপত্র আবার এই শব্দটি ব্যবহার করেছিল। এখানে, এটি একটি অনুবাদ ত্রুটি বলে মনে হচ্ছে। ফারসি ভাষায়, “উদ্ভিদ” এবং “স্ক্যানিং” শব্দগুলির মধ্যে কেবল একটি বিন্দুর পার্থক্য রয়েছে। তাই ইলেকট্রন মাইক্রোস্কোপি স্ক্যান করার পরিবর্তে, আপনি উদ্ভিজ্জ ইলেকট্রন মাইক্রোস্কোপি পেয়েছেন।
ফেব্রুয়ারিতে রিট্র্যাকশন ওয়াচের একটি বিশদ তদন্তের মাধ্যমে এই সমস্ত কিছু প্রকাশ পেয়েছে। কিন্তু এটি গল্পের শেষ ছিল না।
Why this matters
আপনি ভাববেন যে এই অদ্ভুত ত্রুটিটি গুরুত্বপূর্ণ হবে না – কিন্তু দেখা যাচ্ছে, এটি একরকম গুরুত্বপূর্ণ।
এই শব্দটি এখন কমপক্ষে ২২টি ভিন্ন পত্রিকায় প্রকাশিত হয়েছে। কিছু সংশোধন করা হয়েছে অথবা প্রত্যাহার করা হয়েছে, কিন্তু ততক্ষণে ক্ষতি হয়ে গেছে। এমনকি স্পেনের অন্যতম শীর্ষস্থানীয় সংবাদপত্র এল পাইসও ২০২৩ সালে একটি প্রতিবেদনে এটি উদ্ধৃত করেছিল।
কেন? AI-কে দোষারোপ করুন।
আধুনিক AI সিস্টেমগুলি বিশাল তথ্যের ভাণ্ডার – মূলত তারা যা কিছু স্ক্র্যাপ করতে পারে তার উপর প্রশিক্ষিত। একবার “উদ্ভিদ ইলেকট্রন মাইক্রোস্কোপি” বেশ কয়েকটি প্রকাশিত উৎসে প্রকাশিত হওয়ার পরে, AI মডেলগুলি এটিকে একটি বৈধ শব্দ হিসাবে বিবেচনা করেছিল। তাই যখন গবেষকরা এই সিস্টেমগুলিকে কাগজপত্র লিখতে বা খসড়া করতে সাহায্য করতে বলেছিলেন, তখন মডেলগুলি মাঝে মাঝে এটিকে উড়িয়ে দিয়েছিল, আনন্দের সাথে অজান্তেই যে এটি অর্থহীন।
দ্য কনভার্সেশন-এর উপর গভীরভাবে অনুসন্ধানকারী অ্যারন জে. স্নোসওয়েল এবং তার সহকর্মীদের মতে, এই শব্দটি ২০২০ সালের পর থেকে AI জ্ঞান পুলকে দূষিত করতে শুরু করে – সেই দুটি সমস্যাযুক্ত ফার্সি অনুবাদের পরে। এবং এটি কেবল একবারের ঘটনা নয়: GPT-4o এবং Claude 3.5-এর মতো বৃহৎ মডেলগুলিতে ত্রুটিটি রয়ে গেছে।
“আমরা GPT-4o এবং Anthropic’s Claude 3.5 সহ পরবর্তী মডেলগুলিতেও ত্রুটিটি রয়ে গেছে বলে মনে করি,” গ্রুপটি The Conversation-এ একটি পোস্টে লিখেছে। “এটি ইঙ্গিত দেয় যে অর্থহীন শব্দটি এখন স্থায়ীভাবে AI জ্ঞানের ভিত্তিগুলিতে এম্বেড করা হতে পারে।”
AI-উত্পাদিত সামগ্রী ইতিমধ্যেই দূষণকারী
এই অদ্ভুত উদাহরণটি কেবল একটি মজার উপাখ্যানের চেয়েও বেশি – এটি বাস্তব ঝুঁকিগুলিকে তুলে ধরে।
“এই ডিজিটাল জীবাশ্মটি জ্ঞানের অখণ্ডতা সম্পর্কেও গুরুত্বপূর্ণ প্রশ্ন উত্থাপন করে কারণ AI-সহায়তাপ্রাপ্ত গবেষণা এবং লেখা আরও সাধারণ হয়ে উঠছে,” গবেষকরা উল্লেখ করেছেন।
গবেষকরা এটির বিরুদ্ধে লড়াই করার এবং এই ধরণের সমস্যা সনাক্ত করার চেষ্টা করছেন। উদাহরণস্বরূপ, সমস্যাযুক্ত কাগজ স্ক্রিনার একটি স্বয়ংক্রিয় হাতিয়ার যা প্রতি সপ্তাহে 130 মিলিয়ন নিবন্ধের মাধ্যমে অনুসন্ধান করে। এটি পরিচিত আঙুলের ছাপ বা AI-এর অনুপযুক্ত ব্যবহারের নতুন উদাহরণ অনুসন্ধান করার জন্য নয়টি ডিটেক্টর ব্যবহার করে। তারা শুধুমাত্র Springer Nature’s Environmental Science and Pollution Research-তে 78টি গবেষণাপত্র খুঁজে পেয়েছে।
কিন্তু এটা একটা কঠিন লড়াই।
সর্বত্র ইতিমধ্যেই এত বেশি AI কন্টেন্ট রয়েছে যে এটি সনাক্ত করা প্রায় অসম্ভব হয়ে উঠছে; এবং এটি সমস্যার একটি অংশ মাত্র। বৈজ্ঞানিক জার্নাল আরেকটি সমস্যা।
জার্নালগুলিতে তাদের খ্যাতি রক্ষা করার এবং প্রত্যাহার এড়াতে সমস্ত প্রণোদনা রয়েছে, এমনকি যদি এর জন্য সন্দেহজনক বিষয়বস্তু রক্ষা করা হয়। উদাহরণস্বরূপ: এলসেভিয়ার প্রথমে “উদ্ভিজ্জ ইলেকট্রন মাইক্রোস্কোপি” ব্যবহারকে ন্যায্যতা দেওয়ার চেষ্টা করেছিল শেষ পর্যন্ত একটি সংশোধন জারি করার আগে। তারা শেষ পর্যন্ত একটি সংশোধন জারি করেছিল কিন্তু প্রতিক্রিয়াটি স্পষ্ট।
সমস্যা হল যে যতক্ষণ পর্যন্ত প্রযুক্তি সংস্থাগুলি তাদের প্রশিক্ষণের তথ্য এবং পদ্ধতি সম্পর্কে স্বচ্ছ না হয়, ততক্ষণ পর্যন্ত গবেষকদের গোয়েন্দা ভূমিকা পালন করতে হয় এবং প্রকাশনার খড়ের গাদায় AI সূঁচ খুঁজতে হয়। একটি অনুমান অনুসারে, বছরে প্রায় 3 মিলিয়ন গবেষণাপত্র প্রকাশিত হয় এবং লেখায় AI এর ব্যবহার ক্রমশ সাধারণ হয়ে উঠছে।
আসল বিপদ হল এই ধরণের দুর্ঘটনাজনিত ত্রুটি আমাদের বৈজ্ঞানিক রেকর্ডে প্রতিষ্ঠিত হতে পারে – এবং একবার এম্বেড করা হলে, AI সিস্টেমগুলি সেগুলি পুনরাবৃত্তি করতে থাকবে। জ্ঞান ক্রমবর্ধমান, এবং যদি আমরা ভুল ভিত্তির উপর ভিত্তি করে গড়ে তুলি, তাহলে পরিণতি গুরুতর হতে পারে।
অবশেষে, মনে হচ্ছে এমনকি অর্থহীন জিনিসও, একবার ডিজিটাইজড এবং প্রকাশিত হলে, অমর হয়ে যেতে পারে।
সূত্র: ZME বিজ্ঞান ও প্রযুক্তি / Digpu NewsTex