Close Menu
Digpu News  Agency Feed
    Facebook X (Twitter) Instagram
    • Home
    • Technology
    • USA
    • Business
    • Education
    • Startups and Entrepreneurs
    • Health
    Facebook X (Twitter) Instagram
    Digpu News  Agency Feed
    Subscribe
    Friday, January 2
    • Home
    • Technology
    • USA
    • Business
    • Education
    • Startups and Entrepreneurs
    • Health
    Digpu News  Agency Feed
    Home»Bengali»বিশেষজ্ঞরা LMArena (চ্যাটবট এরিনা) এর মতো ক্রাউডসোর্সড এআই বেঞ্চমার্কের বৈধতা এবং নীতিশাস্ত্রকে চ্যালেঞ্জ জানিয়েছেন

    বিশেষজ্ঞরা LMArena (চ্যাটবট এরিনা) এর মতো ক্রাউডসোর্সড এআই বেঞ্চমার্কের বৈধতা এবং নীতিশাস্ত্রকে চ্যালেঞ্জ জানিয়েছেন

    DeskBy DeskAugust 15, 2025No Comments5 Mins Read
    Share Facebook Twitter Pinterest Copy Link LinkedIn Tumblr Email VKontakte Telegram
    Share
    Facebook Twitter Pinterest Email Copy Link

    ক্রমবর্ধমান সংখ্যক শিক্ষাবিদ এবং এআই নীতিশাস্ত্র বিশেষজ্ঞ কৃত্রিম বুদ্ধিমত্তা মডেলগুলিকে র‍্যাঙ্ক করার জন্য ব্যবহৃত জনপ্রিয় ক্রাউডসোর্সড প্ল্যাটফর্মগুলির নির্ভরযোগ্যতা এবং ন্যায্যতা নিয়ে সন্দেহ প্রকাশ করছেন, যা ওপেনএআই, গুগল এবং মেটার মতো প্রযুক্তি জায়ান্টদের দ্বারা ক্রমবর্ধমানভাবে পছন্দের একটি পদ্ধতিকে সরাসরি চ্যালেঞ্জ করছে।

    এই বিতর্কের কেন্দ্রবিন্দুতে রয়েছে LMArena, পূর্বে চ্যাটবট এরিনা নামে পরিচিত প্ল্যাটফর্ম, যার হেড-টু-হেড তুলনা ব্যবস্থা প্রভাবশালী হয়ে উঠেছে, তবুও এর বৈজ্ঞানিক ভিত্তি এবং এটিকে চালনাকারী অবৈতনিক শ্রম সম্পর্কে স্পষ্ট প্রশ্নের মুখোমুখি হচ্ছে, যা এআই গবেষণা সম্প্রদায় জুড়ে আলোচনার জন্ম দিয়েছে।

    পটভূমি: গবেষণা প্রকল্প থেকে অর্থায়িত স্টার্টআপ পর্যন্ত

    LMArena-এর পদ্ধতিতে ব্যবহারকারীরা দুটি নামহীন এআই মডেলের সাথে যোগাযোগ করে এবং পছন্দের আউটপুট নির্বাচন করে। এই ভোটগুলি একটি Elo রেটিং সিস্টেম ব্যবহার করে র‍্যাঙ্কিং তৈরি করে, যা সাধারণত দাবা খেলায় আপেক্ষিক দক্ষতার স্তর অনুমান করার জন্য ব্যবহৃত একটি পদ্ধতি।

    ২০২৩ সালের গোড়ার দিকে UC বার্কলে’র স্কাই কম্পিউটিং ল্যাবের সাথে যুক্ত গবেষকদের দ্বারা এই পাবলিক লিডারবোর্ডটি চালু হওয়ার পর দ্রুত একটি জনপ্রিয় রিসোর্সে পরিণত হয়, যা প্রতি মাসে দশ লক্ষ দর্শনার্থীকে আকর্ষণ করে এবং পরীক্ষার ক্ষেত্র হিসেবে কাজ করে, কখনও কখনও অপ্রকাশিত মডেলগুলির জন্যও।

    সম্পদের প্রয়োজনীয়তা স্বীকার করে, সাম্প্রতিক UC বার্কলে পোস্টডক্টরাল গবেষক আনাস্তাসিওস অ্যাঞ্জেলোপোলোস এবং ওয়েই-লিন চিয়াং-এর নেতৃত্বে, UC বার্কলে অধ্যাপক এবং উল্লেখযোগ্য প্রযুক্তি উদ্যোক্তা আয়ন স্টোইকা (ডেটাব্রিক্স এবং অ্যানিস্কেলের সহ-প্রতিষ্ঠাতা) – এর সাথে একাডেমিক দল ১৮ এপ্রিল Arena Intelligence Inc. প্রতিষ্ঠা করে।

    LMArena ব্র্যান্ডের অধীনে পরিচালিত, নতুন কোম্পানিটি সম্প্রসারণের জন্য তহবিল নিশ্চিত করার লক্ষ্যে কাজ করে, বলে “একটি কোম্পানি হয়ে ওঠা আমাদের আজকের তুলনায় LMArena-কে উল্লেখযোগ্যভাবে উন্নত করার জন্য সংস্থান দেবে।” এটি Google এর Kaggle প্ল্যাটফর্ম, ভেঞ্চার ক্যাপিটাল ফার্ম Andreessen Horowitz এবং AI অবকাঠামো কোম্পানি Together AI সহ সংস্থাগুলির অনুদান এবং অনুদান থেকে প্রাথমিক সহায়তার পরে। এই নিগমের সাথে সামঞ্জস্য রেখে, beta.lmarena.ai-তে একটি নতুন বিটা ওয়েবসাইট চালু করা হয়েছে, যা গতি এবং ব্যবহারকারীর অভিজ্ঞতা উন্নত করার উপর দৃষ্টি নিবদ্ধ করে।

    কী গুরুত্বপূর্ণ তা পরিমাপ করা? যাচাই-বাছাইয়ের অধীনে বৈধতা

    একটি কেন্দ্রীয় সমালোচনা তদন্ত করে যে LMArena-এর ক্রাউডসোর্সড ভোটিং সত্যিই অর্থপূর্ণ মডেল গুণাবলী মূল্যায়ন করে নাকি প্রকৃত ব্যবহারকারীর পছন্দকে দৃঢ়ভাবে প্রতিফলিত করে। ওয়াশিংটন বিশ্ববিদ্যালয়ের ভাষাতত্ত্বের অধ্যাপক এমিলি বেন্ডার, TechCrunch-কে দেওয়া এক বিবৃতিতে বেঞ্চমার্কের অন্তর্নিহিত পদ্ধতি সম্পর্কে উদ্বেগ তুলে ধরেছেন।

    “বৈধ হতে হলে, একটি বেঞ্চমার্ককে নির্দিষ্ট কিছু পরিমাপ করতে হবে এবং এর গঠনগত বৈধতা থাকতে হবে – অর্থাৎ, এমন প্রমাণ থাকতে হবে যে আগ্রহের গঠনটি সুনির্দিষ্ট এবং পরিমাপগুলি আসলে গঠনের সাথে সম্পর্কিত,” বেন্ডার জোর দিয়ে বলেছেন।

    তিনি উল্লেখ করেছেন যে LMArena-এর পদ্ধতি কার্যকরভাবে পছন্দকে ধরে রাখে এমন প্রমাণের অভাব রয়েছে, তিনি বলেন, “চ্যাটবট এরিনা দেখায়নি যে একটি আউটপুটের উপর অন্য আউটপুটের জন্য ভোট দেওয়া আসলে পছন্দের সাথে সম্পর্কযুক্ত, তবে সেগুলি সংজ্ঞায়িত করা যেতে পারে।” এই বর্তমান সমালোচনাগুলি প্ল্যাটফর্মটি ভোটের বিষয়গততা, এর ব্যবহারকারীর ভিত্তিতে সম্ভাব্য জনসংখ্যাগত পক্ষপাত, ডেটাসেট স্বচ্ছতা এবং বিভিন্ন ধরণের মডেলের জন্য বিভিন্ন মূল্যায়ন শর্ত সম্পর্কিত বিদ্যমান যাচাই-বাছাইয়ের উপর ভিত্তি করে তৈরি।

    ফলাফল কীভাবে ব্যাখ্যা করা যেতে পারে বা সম্ভাব্যভাবে ভুলভাবে উপস্থাপন করা যেতে পারে তা নিয়ে উদ্বেগ রয়েছে। AI ফার্ম Lesan-এর সহ-প্রতিষ্ঠাতা আসমেলাশ টেকা হাডগু পরামর্শ দিয়েছেন যে ল্যাবগুলিকে LMArena-এর মতো প্ল্যাটফর্ম ব্যবহার করে “অতিরিক্ত দাবি প্রচার” করার জন্য “সহ-অপ্ট” করা যেতে পারে। তিনি মেটার লামা 4 ম্যাভেরিক মডেলের বিতর্কের কথা উল্লেখ করেছেন, যেখানে কোম্পানিটিকে একটি বিশেষভাবে সুরক্ষিত সংস্করণের বেঞ্চমার্কিং করার জন্য সমালোচনা করা হয়েছিল যা অবশেষে জনসাধারণের কাছে প্রকাশিত স্ট্যান্ডার্ড সংস্করণকে ছাড়িয়ে গেছে বলে জানা গেছে। হাডগু নির্দিষ্ট পেশাদার ডোমেনের জন্য তৈরি গতিশীল, স্বাধীনভাবে পরিচালিত বেঞ্চমার্কের পক্ষে, অর্থপ্রদানকারী বিশেষজ্ঞদের ব্যবহার করে।

    স্বেচ্ছাসেবক মূল্যায়নের নীতিশাস্ত্র

    প্ল্যাটফর্মটির অবৈতনিক ব্যবহারকারীর অবদানের উপর নির্ভরতাও নীতিগত পরীক্ষা-নিরীক্ষার সম্মুখীন হয়। অ্যাস্পেন ইনস্টিটিউটের প্রাক্তন ক্রিস্টিন গ্লোরিয়া প্রায়শই শোষণমূলক ডেটা লেবেলিং শিল্পের সাথে সমান্তরালভাবে তুলনা করেছেন, যা OpenAI-এর মতো কিছু ল্যাব পূর্বে প্রশ্নের মুখোমুখি হয়েছে। বিভিন্ন দৃষ্টিকোণ থেকে মূল্য দেখার সময়, গ্লোরিয়া বজায় রেখেছেন যে ক্রাউডসোর্সড বেঞ্চমার্কগুলি “মূল্যায়নের জন্য কখনই একমাত্র মেট্রিক হওয়া উচিত নয়” এবং অবিশ্বস্ত হওয়ার ঝুঁকি রয়েছে।

    গ্রে সোয়ান এআই-এর সিইও ম্যাট ফ্রেডেরিকসন, যা এআই রেড টিমিংয়ের জন্য ক্রাউডসোর্সিং ব্যবহার করে, স্বীকার করেছেন যে পাবলিক বেঞ্চমার্কগুলি অভ্যন্তরীণ পরীক্ষা এবং অর্থপ্রদানকারী বিশেষজ্ঞ বিশ্লেষণের জন্য “একটি বিকল্প নয়”। “মডেল ডেভেলপার এবং বেঞ্চমার্ক নির্মাতা উভয়ের জন্যই গুরুত্বপূর্ণ, যারা অনুসরণ করেন তাদের কাছে স্পষ্টভাবে ফলাফল জানানো এবং যখন তাদের প্রশ্ন করা হয় তখন প্রতিক্রিয়াশীল হওয়া,” ফ্রেডেরিকসন পরামর্শ দিয়েছেন।

    LMArena তার ভূমিকা রক্ষা করে এবং সামনের দিকে তাকায়

    LMArena-এর সহ-প্রতিষ্ঠাতা ওয়েই-লিন চিয়াং কিছু চরিত্রায়নের বিরুদ্ধে দাঁড়িয়ে প্ল্যাটফর্মের উদ্দেশ্যকে ভিন্নভাবে উপস্থাপন করেছেন। “আমাদের সম্প্রদায় এখানে স্বেচ্ছাসেবক বা মডেল পরীক্ষক হিসেবে নেই,” চিয়াং টেকক্রাঞ্চকে বলেছেন।

    “মানুষ LM এরিনা ব্যবহার করে কারণ আমরা তাদের AI-এর সাথে যুক্ত হওয়ার এবং সম্মিলিত প্রতিক্রিয়া জানানোর জন্য একটি উন্মুক্ত, স্বচ্ছ জায়গা দিই। যতক্ষণ পর্যন্ত লিডারবোর্ড বিশ্বস্ততার সাথে সম্প্রদায়ের কণ্ঠস্বর প্রতিফলিত করে, আমরা এটি ভাগ করে নেওয়াকে স্বাগত জানাই।”

    তিনি বেঞ্চমার্ক বিতর্কের জন্য ল্যাবগুলির ভুল ব্যাখ্যার জন্য দায়ী করেছেন, অন্তর্নিহিত নকশা ত্রুটি নয়, উল্লেখ করেছেন যে LMArena ন্যায্যতার জন্য নীতি আপডেট করেছে। সহ-প্রতিষ্ঠাতা আনাস্তাসিওস অ্যাঞ্জেলোপোলোস তাদের লক্ষ্যে প্রেক্ষাপট যোগ করে বলেন, “আমাদের দৃষ্টিভঙ্গি হল এটি এমন একটি জায়গা যেখানে ইন্টারনেটে সবাই এসে চ্যাট করতে এবং AI ব্যবহার করতে, বিভিন্ন প্রদানকারীর তুলনা করতে ইত্যাদি চেষ্টা করতে পারবে।”

    এটি কোম্পানির জনসাধারণের ঘোষণার সাথে সামঞ্জস্যপূর্ণ: “আমাদের লিডারবোর্ড কখনই কোনও প্রদানকারীর প্রতি পক্ষপাতদুষ্ট হবে না (অথবা বিরুদ্ধে) এবং বিশ্বস্ততার সাথে ডিজাইনের মাধ্যমে আমাদের সম্প্রদায়ের পছন্দগুলি প্রতিফলিত করবে। এটি বিজ্ঞান-চালিত হবে।”

    যেহেতু Arena Intelligence Inc. তহবিল খোঁজে এবং তার ব্যবসায়িক মডেল সংজ্ঞায়িত করে—সম্ভাব্যভাবে মূল্যায়নের জন্য কোম্পানিগুলিকে চার্জ করে—এটি বৃহৎ ভাষা মডেল তুলনার বাইরেও একটি বিস্তৃত সম্প্রসারণের পরিকল্পনা করে। উল্লেখিত নির্দিষ্ট উদ্যোগগুলির মধ্যে রয়েছে WebDev Arena, RepoChat Arena এবং Search Arena, যার ভবিষ্যতের পরিকল্পনাগুলি দৃষ্টি মডেল, AI এজেন্ট এবং নিবেদিতপ্রাণ AI লাল-দলীয় পরিবেশকে লক্ষ্য করে। মূল্যায়ন পদ্ধতি সম্পর্কে শিল্পের বিস্তৃত আলোচনার মধ্যে এই সম্প্রসারণটি এসেছে, ওপেনরাউটারের সিইও অ্যালেক্স আতাল্লাহর মতো ব্যক্তিত্বরা এই বিষয়টি স্বীকার করেছেন, যিনি একমত হয়েছেন যে শুধুমাত্র উন্মুক্ত পরীক্ষা “যথেষ্ট নয়।”

    সূত্র: Winbuzzer / Digpu NewsTex

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email Telegram Copy Link
    Previous Articleমাইক্রোসফট আরও কঠোর কর্মক্ষমতা নীতি বাস্তবায়ন করছে, যার মধ্যে রয়েছে ২ বছরের পুনর্নিয়োগ নিষেধাজ্ঞা
    Next Article ওপেনএআই এবং ওয়াশিংটন পোস্ট ইঙ্ক চ্যাটজিপিটি কন্টেন্ট পার্টনারশিপ
    © 2026 ThemeSphere. Designed by ThemeSphere.
    • Home
    • About
    • Team
    • World
    • Buy now!

    Type above and press Enter to search. Press Esc to cancel.