OpenAI-এর নতুন o3/o4-মিনি মডেলগুলি আগের মডেলগুলির চেয়ে বেশি হ্যালুসিনেট করে

OpenAI ১৬ এপ্রিল, ২০২৫ সালের দিকে গ্রাহকদের অর্থপ্রদানের জন্য ChatGPT-তে তাদের o3 এবং o4-মিনি মডেলগুলিকে আরও স্বায়ত্তশাসিত AI সহকারীর দিকে একটি পদক্ষেপ হিসেবে তুলে ধরে। এই মডেলগুলি “প্রাথমিক এজেন্টিক আচরণ” দিয়ে ডিজাইন করা হয়েছিল, যা ওয়েব ব্রাউজিং, কোড এক্সিকিউশন বা ফাইল বিশ্লেষণের মতো সরঞ্জামগুলি কখন ব্যবহার করতে হবে তা স্বাধীনভাবে সিদ্ধান্ত নিতে সক্ষম।

তবুও, বৃহত্তর AI স্বায়ত্তশাসনের দিকে এই পদক্ষেপ OpenAI-এর নিজস্ব পরীক্ষা এবং বহিরাগত গবেষক উভয়ের কাছ থেকে প্রাপ্ত ফলাফলের সাথে মিলে যায় যে এই উন্নত যুক্তি মডেলগুলি তাদের পূর্বসূরীদের তুলনায় হ্যালুসিনেশনের মাধ্যমে জিনিস তৈরি করার প্রবণতা বিপরীতভাবে বেশি।

লঞ্চের পাশাপাশি প্রকাশিত তথ্য একটি উদ্বেগজনক প্রবণতা প্রকাশ করেছে: OpenAI-এর PersonQA বেঞ্চমার্কে, যা মানুষের সম্পর্কে জ্ঞান পরীক্ষা করার জন্য ডিজাইন করা হয়েছে, o3 33% সময় ভুল বা বানোয়াট তথ্য তৈরি করেছে। o4-মিনি মডেলটি আরও খারাপ ফলাফল করেছে, 48% ক্ষেত্রে হ্যালুসিনেশন করেছে।

এই হারগুলি পুরানো o1 মডেলের জন্য 16% এবং o3-মিনির জন্য 14.8% এর চেয়ে উল্লেখযোগ্যভাবে বেশি। যদিও পুরোনো সংস্করণের তুলনায় যুক্তি এবং কোডিং বেঞ্চমার্কে সাধারণত উন্নতি দেখা যায়, তবুও তৈরির এই নির্দিষ্ট বৃদ্ধি আরও এজেন্টিক সিস্টেম তৈরিতে জড়িত ট্রেড-অফ সম্পর্কে প্রশ্ন উত্থাপন করে।

OpenAI তার o3 এবং o4-মিনি সিস্টেম কার্ডে স্বীকার করেছে যে এই ঘটনাটি বোঝার জন্য “আরও গবেষণা প্রয়োজন” , কারণ মডেলগুলি “সামগ্রিকভাবে আরও দাবি করে” তারা আরও সঠিক এবং আরও ভুল বিবৃতি উভয়ই তৈরি করে। OpenAI মুখপাত্র নিকো ফেলিক্স TechCrunch কে বলেন, “আমাদের সমস্ত মডেল জুড়ে হ্যালুসিনেশন মোকাবেলা করা গবেষণার একটি চলমান ক্ষেত্র, এবং আমরা তাদের নির্ভুলতা এবং নির্ভরযোগ্যতা উন্নত করার জন্য ক্রমাগত কাজ করছি।”

বানোয়াট ক্রিয়া এবং বিস্তৃত অজুহাত

উদ্ভাবনের পরে দ্রুত স্বাধীন তদন্ত শুরু হয়, যা নির্ভরযোগ্যতার উদ্বেগগুলিকে আরও বাড়িয়ে তোলে। এআই গবেষণা ল্যাব ট্রান্সলুস এআই ১৬ এপ্রিল, ২০২৫ তারিখে o3 (`o3-2025-04-03`) এর একটি প্রাক-প্রকাশিত সংস্করণ পরীক্ষা করে ফলাফল প্রকাশ করে, যেখানে মডেলটি যে ধরণের বানোয়াট ক্রিয়া সম্পাদন করেছে বলে দাবি করা হয়েছে তার একটি প্যাটার্নের বিবরণ দেওয়া হয়েছিল।

শত শত কথোপকথন পরীক্ষা করার জন্য স্বয়ংক্রিয় তদন্তকারী এজেন্ট এবং তাদের ডোসেন্ট বিশ্লেষণ সরঞ্জাম ব্যবহার করে, ট্রান্সলুস একটি মূল সমস্যা খুঁজে পেয়েছিল যে মডেলটি দাবি করেছিল যে এটি পাইথন কোড কার্যকর করেছে – এমন একটি ক্ষমতা যা এর অভাব রয়েছে – ব্যবহারকারীর অনুরোধ পূরণ করার জন্য। এই বানোয়াটগুলির মুখোমুখি হওয়ার সময়, মডেলটি প্রায়শই দ্বিগুণ হয়ে যায়, বিস্তৃত যুক্তি আবিষ্কার করে।

ট্রান্সলুস একটি আকর্ষণীয় উদাহরণ কথোপকথনের বিশদ বিবরণ দেয় যেখানে o3 পাইথন কোড এবং নির্দিষ্ট পরীক্ষা ব্যবহার করে একটি 512-বিট প্রাইম নম্বর তৈরি করার দাবি করেছে।

যখন ব্যবহারকারী শনাক্ত করেন যে প্রদত্ত সংখ্যাটি আসলে যৌগিক (৩ দ্বারা বিভাজ্য) ছিল, তখন o3 ভুলটিকে হ্যালুসিনেশনের জন্য নয়, বরং টার্মিনাল উইন্ডো থেকে ম্যানুয়াল ট্রান্সফারের সময় একটি কথিত কপি-পেস্ট ত্রুটির জন্য দায়ী করে, বলে, “আমি স্পষ্টতই পরীক্ষাগুলি পুনরায় না চালিয়ে নম্বরটি অনুলিপি বা টাইপ করেছি… যেকোনো প্রকৃত মিলার-র‍্যাবিন রান তাৎক্ষণিকভাবে নম্বরটি প্রত্যাখ্যান করত।”

অনুমিত মূল প্রাইম সম্পর্কে আরও চাপ দেওয়ার পরে, মডেলটি দাবি করে যে পাইথন প্রক্রিয়াটি বন্ধ হয়ে যাওয়ার কারণে এটি অপূরণীয়ভাবে হারিয়ে গেছে। ট্রান্সলুস অন্যান্য জালিয়াতি নথিভুক্ত করেছে, যার মধ্যে গণনার জন্য একটি বহিরাগত “2021 MacBook Pro” কোড চালানোর দাবি এবং পাইথন REPL পরিবেশ সম্পর্কে জিজ্ঞাসা করা হলে সিস্টেমের বিবরণ তৈরি করা অন্তর্ভুক্ত। ওয়ার্কেরা সিইও কিয়ান কাতানফোরুশের মতে, কোডিংয়ের জন্য কার্যকর হলেও, o3 কখনও কখনও অকার্যকর ওয়েব লিঙ্ক তৈরি করে।

নিরাপত্তা সমন্বয়ের মধ্যে দ্রুত গতি

ওপেনএআই-তে ত্বরান্বিত উন্নয়ন এবং পরিবর্তনশীল নিরাপত্তা নীতির প্রেক্ষাপটে এই মডেলগুলি প্রকাশ করা হয়েছে। লঞ্চের সময়, ওপেনএআই সম্প্রতি তার অভ্যন্তরীণ নিরাপত্তা নির্দেশিকা, প্রস্তুতি কাঠামো আপডেট করেছে।

এই সংশোধনীতে একটি উল্লেখযোগ্য ধারা অন্তর্ভুক্ত ছিল যা প্রতিযোগীদের পদক্ষেপের উপর ভিত্তি করে নিরাপত্তা নিয়মগুলি সম্ভাব্যভাবে পরিবর্তন করা যেতে পারে বলে পরামর্শ দিয়েছিল, যেখানে বলা হয়েছে, “যদি অন্য কোনও সীমান্তবর্তী এআই বিকাশকারী তুলনামূলক সুরক্ষা ব্যবস্থা ছাড়াই একটি উচ্চ-ঝুঁকিপূর্ণ সিস্টেম প্রকাশ করে, তবে আমরা আমাদের প্রয়োজনীয়তাগুলি সামঞ্জস্য করতে পারি।” কোম্পানি জোর দিয়েছিল যে এই ধরনের সমন্বয় কঠোর চেক এবং জনসাধারণের প্রকাশ অনুসরণ করবে।

প্রতিদ্বন্দ্বীদের সাথে তাল মিলিয়ে চলার জন্য ওপেনএআই o3-এর জন্য অভ্যন্তরীণ নিরাপত্তা পরীক্ষার সময়সীমা তীব্রভাবে হ্রাস করেছে, সম্ভাব্যভাবে কয়েক মাস থেকে এক সপ্তাহেরও কম সময়ে, অভিযোগ করার পরে এই নীতি পরিবর্তনটি সামনে এসেছে।

ফাইন্যান্সিয়াল টাইমসে উদ্ধৃত ব্যক্তিরা উদ্বেগ প্রকাশ করেছেন; মূল্যায়নের সাথে পরিচিত একটি সূত্র “বেপরোয়া” নামক পদ্ধতিটি যোগ করে, “এটি বিপর্যয়ের একটি রেসিপি।” অন্য একজন GPT-4 এর দীর্ঘ মূল্যায়নের সাথে এর তুলনা করেছেন, বলেছেন, “তারা জননিরাপত্তাকে মোটেও অগ্রাধিকার দিচ্ছে না।”

চূড়ান্ত কোডের পরিবর্তে মধ্যবর্তী “চেকপয়েন্ট” পরীক্ষা করার পদ্ধতিটিও আলোড়ন তুলেছে। OpenAI-এর একজন প্রাক্তন টেকনিক্যাল স্টাফ সদস্যকে উদ্ধৃত করে বলা হয়েছে, “আপনার মূল্যায়ন করা মডেল থেকে ভিন্ন মডেল প্রকাশ করা খারাপ অভ্যাস।” প্রক্রিয়াটি রক্ষা করে, OpenAI-এর নিরাপত্তা ব্যবস্থার প্রধান, জোহানেস হাইডেক, FT-কে জোর দিয়ে বলেছেন, “আমরা কত দ্রুত এগিয়ে যাই এবং কতটা পুঙ্খানুপুঙ্খ, তার একটি ভাল ভারসাম্য আমাদের আছে,” মূল্যায়নে বর্ধিত অটোমেশনের দিকে ইঙ্গিত করে।

বর্ধিত ফ্যাব্রিকেশনের সম্ভাব্য কারণ

এই উন্নত যুক্তি মডেলগুলি কেন প্রায়শই তৈরি করতে পারে তা ব্যাখ্যা করার জন্য স্ট্যান্ডার্ড AI সীমাবদ্ধতার বাইরে তাকানো জড়িত। ট্রান্সলুস এআই প্রস্তাব করেছে যে ও-সিরিজ মডেলগুলির জন্য নির্দিষ্ট কারণগুলি সমস্যাটিকে আরও বাড়িয়ে তুলতে পারে। একটি অনুমান ফলাফল-ভিত্তিক শক্তিবৃদ্ধি শিক্ষা (RL) এর উপর কেন্দ্রীভূত: যদি AI প্রাথমিকভাবে প্রশিক্ষিত হয় এবং সঠিক চূড়ান্ত উত্তর তৈরি করার জন্য পুরস্কৃত হয়, তবে এটি মধ্যবর্তী পদক্ষেপগুলি তৈরি করতে শিখতে পারে, যেমন টুল ব্যবহারের দাবি করা, যদি এটি সাফল্যের সাথে সম্পর্কিত হয়, এমনকি বর্ণিত প্রক্রিয়াটি মিথ্যা হলেও।

রিইনফোর্সমেন্ট লার্নিং ফ্রম হিউম্যান ফিডব্যাক (RLHF), মডেলগুলিকে সারিবদ্ধ করার একটি সাধারণ কৌশল, বিভিন্ন মডেল প্রতিক্রিয়ার জন্য মানুষের পছন্দের উপর ভিত্তি করে প্রশিক্ষণ দিয়ে AI কে সহায়ক, সৎ এবং ক্ষতিকারক করে তোলার লক্ষ্য রাখে। যাইহোক, যদি মানব রেটিংকারীরা জটিল মধ্যবর্তী পদক্ষেপগুলির সঠিকতা সহজেই যাচাই করতে না পারে, তবে মডেলটি যদি পছন্দসই ফলাফলের দিকে নিয়ে যায় তবে সম্ভাব্য-সাউন্ডিং কিন্তু মিথ্যা যুক্তি তৈরি করতে শিখতে পারে।

ট্রান্সলুস দ্বারা প্রস্তাবিত আরেকটি গুরুত্বপূর্ণ বিষয় হল মডেলগুলির অভ্যন্তরীণ ধাপে ধাপে যুক্তি পরিচালনা করা, যা প্রায়শই “চেইন-অফ-থট” নামে পরিচিত। ওপেনএআই-এর ডকুমেন্টেশন অনুসারে, এই যুক্তি ট্রেসটি কথোপকথনের মোড়ের মধ্যে পাস করা হয় না। ট্রান্সলুস তত্ত্ব দেন যে তার নিজস্ব পূর্বের যুক্তিতে অ্যাক্সেসের এই অভাব মডেলটিকে কীভাবে পূর্ববর্তী সিদ্ধান্তে পৌঁছেছে সে সম্পর্কে ব্যবহারকারীর প্রশ্নের সত্যতার সাথে উত্তর দিতে অক্ষম করে তুলতে পারে।

এই তথ্যের ঘাটতি, সম্ভাব্যভাবে সহায়ক বা সামঞ্জস্যপূর্ণ বলে মনে করার চাপের সাথে মিলিত হয়ে, এটিকে তার অতীত আচরণের জন্য একটি সম্ভাব্য কিন্তু বানোয়াট ব্যাখ্যা তৈরি করতে পরিচালিত করতে পারে। “আমাদের অনুমান হল যে o-সিরিজ মডেলগুলির জন্য ব্যবহৃত শক্তিবৃদ্ধি শেখার ধরণ এমন সমস্যাগুলিকে বাড়িয়ে তুলতে পারে যা সাধারণত স্ট্যান্ডার্ড পোস্ট-ট্রেনিং পাইপলাইন দ্বারা প্রশমিত করা হয় (কিন্তু সম্পূর্ণরূপে মুছে ফেলা হয় না),” টেকক্রাঞ্চকে ট্রান্সলুস গবেষক নীল চৌধুরী বলেছেন।

১৭ এপ্রিল, ২০২৫ তারিখে ঘোষিত মাইক্রোসফ্ট অ্যাজুর এবং গিটহাব কোপাইলটের মতো প্ল্যাটফর্মগুলিতে o3 এবং o4-মিনির দ্রুত সংহতকরণ তাদের অনুভূত উপযোগিতাকে জোরদার করে। এই মডেলগুলি মার্চ মাসে উন্নত ভিজ্যুয়াল প্রক্রিয়াকরণ এবং ১১ এপ্রিল “রিকল” মেমোরি বৈশিষ্ট্য সক্রিয়করণের মতো অন্যান্য OpenAI আপডেটের সাথে এসেছিল।

তবে, বানোয়াটের নথিভুক্ত বৃদ্ধি নির্ভরযোগ্যতার সাথে AI ক্ষমতাগুলিকে সারিবদ্ধ করার ক্ষেত্রে অবিরাম চ্যালেঞ্জগুলিকে তুলে ধরে। বৃহত্তর শিল্প যখন স্বচ্ছতার সাথে লড়াই করছে, তখন এটি প্রকাশ পাচ্ছে, গুগলের জেমিনি ২.৫ প্রো মডেলের জন্য বিলম্বিত এবং অপ্রতুল সুরক্ষা বিবরণের সমালোচনার দ্বারা প্রমাণিত, উদ্ভাবনের গতি এবং নির্ভরযোগ্য এআই স্থাপনের মধ্যে ভারসাম্য নিয়ে চলমান প্রশ্ন উত্থাপন করছে।

সূত্র: Winbuzzer / Digpu NewsTex