ক্রমবর্ধমান সংখ্যক শিক্ষাবিদ এবং এআই নীতিশাস্ত্র বিশেষজ্ঞ কৃত্রিম বুদ্ধিমত্তা মডেলগুলিকে র্যাঙ্ক করার জন্য ব্যবহৃত জনপ্রিয় ক্রাউডসোর্সড প্ল্যাটফর্মগুলির নির্ভরযোগ্যতা এবং ন্যায্যতা নিয়ে সন্দেহ প্রকাশ করছেন, যা ওপেনএআই, গুগল এবং মেটার মতো প্রযুক্তি জায়ান্টদের দ্বারা ক্রমবর্ধমানভাবে পছন্দের একটি পদ্ধতিকে সরাসরি চ্যালেঞ্জ করছে।
এই বিতর্কের কেন্দ্রবিন্দুতে রয়েছে LMArena, পূর্বে চ্যাটবট এরিনা নামে পরিচিত প্ল্যাটফর্ম, যার হেড-টু-হেড তুলনা ব্যবস্থা প্রভাবশালী হয়ে উঠেছে, তবুও এর বৈজ্ঞানিক ভিত্তি এবং এটিকে চালনাকারী অবৈতনিক শ্রম সম্পর্কে স্পষ্ট প্রশ্নের মুখোমুখি হচ্ছে, যা এআই গবেষণা সম্প্রদায় জুড়ে আলোচনার জন্ম দিয়েছে।
পটভূমি: গবেষণা প্রকল্প থেকে অর্থায়িত স্টার্টআপ পর্যন্ত
LMArena-এর পদ্ধতিতে ব্যবহারকারীরা দুটি নামহীন এআই মডেলের সাথে যোগাযোগ করে এবং পছন্দের আউটপুট নির্বাচন করে। এই ভোটগুলি একটি Elo রেটিং সিস্টেম ব্যবহার করে র্যাঙ্কিং তৈরি করে, যা সাধারণত দাবা খেলায় আপেক্ষিক দক্ষতার স্তর অনুমান করার জন্য ব্যবহৃত একটি পদ্ধতি।
২০২৩ সালের গোড়ার দিকে UC বার্কলে’র স্কাই কম্পিউটিং ল্যাবের সাথে যুক্ত গবেষকদের দ্বারা এই পাবলিক লিডারবোর্ডটি চালু হওয়ার পর দ্রুত একটি জনপ্রিয় রিসোর্সে পরিণত হয়, যা প্রতি মাসে দশ লক্ষ দর্শনার্থীকে আকর্ষণ করে এবং পরীক্ষার ক্ষেত্র হিসেবে কাজ করে, কখনও কখনও অপ্রকাশিত মডেলগুলির জন্যও।
সম্পদের প্রয়োজনীয়তা স্বীকার করে, সাম্প্রতিক UC বার্কলে পোস্টডক্টরাল গবেষক আনাস্তাসিওস অ্যাঞ্জেলোপোলোস এবং ওয়েই-লিন চিয়াং-এর নেতৃত্বে, UC বার্কলে অধ্যাপক এবং উল্লেখযোগ্য প্রযুক্তি উদ্যোক্তা আয়ন স্টোইকা (ডেটাব্রিক্স এবং অ্যানিস্কেলের সহ-প্রতিষ্ঠাতা) – এর সাথে একাডেমিক দল ১৮ এপ্রিল Arena Intelligence Inc. প্রতিষ্ঠা করে।
LMArena ব্র্যান্ডের অধীনে পরিচালিত, নতুন কোম্পানিটি সম্প্রসারণের জন্য তহবিল নিশ্চিত করার লক্ষ্যে কাজ করে, বলে “একটি কোম্পানি হয়ে ওঠা আমাদের আজকের তুলনায় LMArena-কে উল্লেখযোগ্যভাবে উন্নত করার জন্য সংস্থান দেবে।” এটি Google এর Kaggle প্ল্যাটফর্ম, ভেঞ্চার ক্যাপিটাল ফার্ম Andreessen Horowitz এবং AI অবকাঠামো কোম্পানি Together AI সহ সংস্থাগুলির অনুদান এবং অনুদান থেকে প্রাথমিক সহায়তার পরে। এই নিগমের সাথে সামঞ্জস্য রেখে, beta.lmarena.ai-তে একটি নতুন বিটা ওয়েবসাইট চালু করা হয়েছে, যা গতি এবং ব্যবহারকারীর অভিজ্ঞতা উন্নত করার উপর দৃষ্টি নিবদ্ধ করে।
কী গুরুত্বপূর্ণ তা পরিমাপ করা? যাচাই-বাছাইয়ের অধীনে বৈধতা
একটি কেন্দ্রীয় সমালোচনা তদন্ত করে যে LMArena-এর ক্রাউডসোর্সড ভোটিং সত্যিই অর্থপূর্ণ মডেল গুণাবলী মূল্যায়ন করে নাকি প্রকৃত ব্যবহারকারীর পছন্দকে দৃঢ়ভাবে প্রতিফলিত করে। ওয়াশিংটন বিশ্ববিদ্যালয়ের ভাষাতত্ত্বের অধ্যাপক এমিলি বেন্ডার, TechCrunch-কে দেওয়া এক বিবৃতিতে বেঞ্চমার্কের অন্তর্নিহিত পদ্ধতি সম্পর্কে উদ্বেগ তুলে ধরেছেন।
“বৈধ হতে হলে, একটি বেঞ্চমার্ককে নির্দিষ্ট কিছু পরিমাপ করতে হবে এবং এর গঠনগত বৈধতা থাকতে হবে – অর্থাৎ, এমন প্রমাণ থাকতে হবে যে আগ্রহের গঠনটি সুনির্দিষ্ট এবং পরিমাপগুলি আসলে গঠনের সাথে সম্পর্কিত,” বেন্ডার জোর দিয়ে বলেছেন।
তিনি উল্লেখ করেছেন যে LMArena-এর পদ্ধতি কার্যকরভাবে পছন্দকে ধরে রাখে এমন প্রমাণের অভাব রয়েছে, তিনি বলেন, “চ্যাটবট এরিনা দেখায়নি যে একটি আউটপুটের উপর অন্য আউটপুটের জন্য ভোট দেওয়া আসলে পছন্দের সাথে সম্পর্কযুক্ত, তবে সেগুলি সংজ্ঞায়িত করা যেতে পারে।” এই বর্তমান সমালোচনাগুলি প্ল্যাটফর্মটি ভোটের বিষয়গততা, এর ব্যবহারকারীর ভিত্তিতে সম্ভাব্য জনসংখ্যাগত পক্ষপাত, ডেটাসেট স্বচ্ছতা এবং বিভিন্ন ধরণের মডেলের জন্য বিভিন্ন মূল্যায়ন শর্ত সম্পর্কিত বিদ্যমান যাচাই-বাছাইয়ের উপর ভিত্তি করে তৈরি।
ফলাফল কীভাবে ব্যাখ্যা করা যেতে পারে বা সম্ভাব্যভাবে ভুলভাবে উপস্থাপন করা যেতে পারে তা নিয়ে উদ্বেগ রয়েছে। AI ফার্ম Lesan-এর সহ-প্রতিষ্ঠাতা আসমেলাশ টেকা হাডগু পরামর্শ দিয়েছেন যে ল্যাবগুলিকে LMArena-এর মতো প্ল্যাটফর্ম ব্যবহার করে “অতিরিক্ত দাবি প্রচার” করার জন্য “সহ-অপ্ট” করা যেতে পারে। তিনি মেটার লামা 4 ম্যাভেরিক মডেলের বিতর্কের কথা উল্লেখ করেছেন, যেখানে কোম্পানিটিকে একটি বিশেষভাবে সুরক্ষিত সংস্করণের বেঞ্চমার্কিং করার জন্য সমালোচনা করা হয়েছিল যা অবশেষে জনসাধারণের কাছে প্রকাশিত স্ট্যান্ডার্ড সংস্করণকে ছাড়িয়ে গেছে বলে জানা গেছে। হাডগু নির্দিষ্ট পেশাদার ডোমেনের জন্য তৈরি গতিশীল, স্বাধীনভাবে পরিচালিত বেঞ্চমার্কের পক্ষে, অর্থপ্রদানকারী বিশেষজ্ঞদের ব্যবহার করে।
স্বেচ্ছাসেবক মূল্যায়নের নীতিশাস্ত্র
প্ল্যাটফর্মটির অবৈতনিক ব্যবহারকারীর অবদানের উপর নির্ভরতাও নীতিগত পরীক্ষা-নিরীক্ষার সম্মুখীন হয়। অ্যাস্পেন ইনস্টিটিউটের প্রাক্তন ক্রিস্টিন গ্লোরিয়া প্রায়শই শোষণমূলক ডেটা লেবেলিং শিল্পের সাথে সমান্তরালভাবে তুলনা করেছেন, যা OpenAI-এর মতো কিছু ল্যাব পূর্বে প্রশ্নের মুখোমুখি হয়েছে। বিভিন্ন দৃষ্টিকোণ থেকে মূল্য দেখার সময়, গ্লোরিয়া বজায় রেখেছেন যে ক্রাউডসোর্সড বেঞ্চমার্কগুলি “মূল্যায়নের জন্য কখনই একমাত্র মেট্রিক হওয়া উচিত নয়” এবং অবিশ্বস্ত হওয়ার ঝুঁকি রয়েছে।
গ্রে সোয়ান এআই-এর সিইও ম্যাট ফ্রেডেরিকসন, যা এআই রেড টিমিংয়ের জন্য ক্রাউডসোর্সিং ব্যবহার করে, স্বীকার করেছেন যে পাবলিক বেঞ্চমার্কগুলি অভ্যন্তরীণ পরীক্ষা এবং অর্থপ্রদানকারী বিশেষজ্ঞ বিশ্লেষণের জন্য “একটি বিকল্প নয়”। “মডেল ডেভেলপার এবং বেঞ্চমার্ক নির্মাতা উভয়ের জন্যই গুরুত্বপূর্ণ, যারা অনুসরণ করেন তাদের কাছে স্পষ্টভাবে ফলাফল জানানো এবং যখন তাদের প্রশ্ন করা হয় তখন প্রতিক্রিয়াশীল হওয়া,” ফ্রেডেরিকসন পরামর্শ দিয়েছেন।
LMArena তার ভূমিকা রক্ষা করে এবং সামনের দিকে তাকায়
LMArena-এর সহ-প্রতিষ্ঠাতা ওয়েই-লিন চিয়াং কিছু চরিত্রায়নের বিরুদ্ধে দাঁড়িয়ে প্ল্যাটফর্মের উদ্দেশ্যকে ভিন্নভাবে উপস্থাপন করেছেন। “আমাদের সম্প্রদায় এখানে স্বেচ্ছাসেবক বা মডেল পরীক্ষক হিসেবে নেই,” চিয়াং টেকক্রাঞ্চকে বলেছেন।
“মানুষ LM এরিনা ব্যবহার করে কারণ আমরা তাদের AI-এর সাথে যুক্ত হওয়ার এবং সম্মিলিত প্রতিক্রিয়া জানানোর জন্য একটি উন্মুক্ত, স্বচ্ছ জায়গা দিই। যতক্ষণ পর্যন্ত লিডারবোর্ড বিশ্বস্ততার সাথে সম্প্রদায়ের কণ্ঠস্বর প্রতিফলিত করে, আমরা এটি ভাগ করে নেওয়াকে স্বাগত জানাই।”
তিনি বেঞ্চমার্ক বিতর্কের জন্য ল্যাবগুলির ভুল ব্যাখ্যার জন্য দায়ী করেছেন, অন্তর্নিহিত নকশা ত্রুটি নয়, উল্লেখ করেছেন যে LMArena ন্যায্যতার জন্য নীতি আপডেট করেছে। সহ-প্রতিষ্ঠাতা আনাস্তাসিওস অ্যাঞ্জেলোপোলোস তাদের লক্ষ্যে প্রেক্ষাপট যোগ করে বলেন, “আমাদের দৃষ্টিভঙ্গি হল এটি এমন একটি জায়গা যেখানে ইন্টারনেটে সবাই এসে চ্যাট করতে এবং AI ব্যবহার করতে, বিভিন্ন প্রদানকারীর তুলনা করতে ইত্যাদি চেষ্টা করতে পারবে।”
এটি কোম্পানির জনসাধারণের ঘোষণার সাথে সামঞ্জস্যপূর্ণ: “আমাদের লিডারবোর্ড কখনই কোনও প্রদানকারীর প্রতি পক্ষপাতদুষ্ট হবে না (অথবা বিরুদ্ধে) এবং বিশ্বস্ততার সাথে ডিজাইনের মাধ্যমে আমাদের সম্প্রদায়ের পছন্দগুলি প্রতিফলিত করবে। এটি বিজ্ঞান-চালিত হবে।”
যেহেতু Arena Intelligence Inc. তহবিল খোঁজে এবং তার ব্যবসায়িক মডেল সংজ্ঞায়িত করে—সম্ভাব্যভাবে মূল্যায়নের জন্য কোম্পানিগুলিকে চার্জ করে—এটি বৃহৎ ভাষা মডেল তুলনার বাইরেও একটি বিস্তৃত সম্প্রসারণের পরিকল্পনা করে। উল্লেখিত নির্দিষ্ট উদ্যোগগুলির মধ্যে রয়েছে WebDev Arena, RepoChat Arena এবং Search Arena, যার ভবিষ্যতের পরিকল্পনাগুলি দৃষ্টি মডেল, AI এজেন্ট এবং নিবেদিতপ্রাণ AI লাল-দলীয় পরিবেশকে লক্ষ্য করে। মূল্যায়ন পদ্ধতি সম্পর্কে শিল্পের বিস্তৃত আলোচনার মধ্যে এই সম্প্রসারণটি এসেছে, ওপেনরাউটারের সিইও অ্যালেক্স আতাল্লাহর মতো ব্যক্তিত্বরা এই বিষয়টি স্বীকার করেছেন, যিনি একমত হয়েছেন যে শুধুমাত্র উন্মুক্ত পরীক্ষা “যথেষ্ট নয়।”
সূত্র: Winbuzzer / Digpu NewsTex