Close Menu
Digpu News  Agency Feed
    Facebook X (Twitter) Instagram
    • Home
    • Technology
    • USA
    • Business
    • Education
    • Startups and Entrepreneurs
    • Health
    Facebook X (Twitter) Instagram
    Digpu News  Agency Feed
    Subscribe
    Wednesday, January 7
    • Home
    • Technology
    • USA
    • Business
    • Education
    • Startups and Entrepreneurs
    • Health
    Digpu News  Agency Feed
    Home»Bengali»OpenAI-এর নতুন o3/o4-মিনি মডেলগুলি আগের মডেলগুলির চেয়ে বেশি হ্যালুসিনেট করে

    OpenAI-এর নতুন o3/o4-মিনি মডেলগুলি আগের মডেলগুলির চেয়ে বেশি হ্যালুসিনেট করে

    DeskBy DeskAugust 15, 2025No Comments6 Mins Read
    Share Facebook Twitter Pinterest Copy Link LinkedIn Tumblr Email VKontakte Telegram
    Share
    Facebook Twitter Pinterest Email Copy Link

    OpenAI ১৬ এপ্রিল, ২০২৫ সালের দিকে গ্রাহকদের অর্থপ্রদানের জন্য ChatGPT-তে তাদের o3 এবং o4-মিনি মডেলগুলিকে আরও স্বায়ত্তশাসিত AI সহকারীর দিকে একটি পদক্ষেপ হিসেবে তুলে ধরে। এই মডেলগুলি “প্রাথমিক এজেন্টিক আচরণ” দিয়ে ডিজাইন করা হয়েছিল, যা ওয়েব ব্রাউজিং, কোড এক্সিকিউশন বা ফাইল বিশ্লেষণের মতো সরঞ্জামগুলি কখন ব্যবহার করতে হবে তা স্বাধীনভাবে সিদ্ধান্ত নিতে সক্ষম।

    তবুও, বৃহত্তর AI স্বায়ত্তশাসনের দিকে এই পদক্ষেপ OpenAI-এর নিজস্ব পরীক্ষা এবং বহিরাগত গবেষক উভয়ের কাছ থেকে প্রাপ্ত ফলাফলের সাথে মিলে যায় যে এই উন্নত যুক্তি মডেলগুলি তাদের পূর্বসূরীদের তুলনায় হ্যালুসিনেশনের মাধ্যমে জিনিস তৈরি করার প্রবণতা বিপরীতভাবে বেশি।

    লঞ্চের পাশাপাশি প্রকাশিত তথ্য একটি উদ্বেগজনক প্রবণতা প্রকাশ করেছে: OpenAI-এর PersonQA বেঞ্চমার্কে, যা মানুষের সম্পর্কে জ্ঞান পরীক্ষা করার জন্য ডিজাইন করা হয়েছে, o3 33% সময় ভুল বা বানোয়াট তথ্য তৈরি করেছে। o4-মিনি মডেলটি আরও খারাপ ফলাফল করেছে, 48% ক্ষেত্রে হ্যালুসিনেশন করেছে।

    এই হারগুলি পুরানো o1 মডেলের জন্য 16% এবং o3-মিনির জন্য 14.8% এর চেয়ে উল্লেখযোগ্যভাবে বেশি। যদিও পুরোনো সংস্করণের তুলনায় যুক্তি এবং কোডিং বেঞ্চমার্কে সাধারণত উন্নতি দেখা যায়, তবুও তৈরির এই নির্দিষ্ট বৃদ্ধি আরও এজেন্টিক সিস্টেম তৈরিতে জড়িত ট্রেড-অফ সম্পর্কে প্রশ্ন উত্থাপন করে।

    OpenAI তার o3 এবং o4-মিনি সিস্টেম কার্ডে স্বীকার করেছে যে এই ঘটনাটি বোঝার জন্য “আরও গবেষণা প্রয়োজন” , কারণ মডেলগুলি “সামগ্রিকভাবে আরও দাবি করে” তারা আরও সঠিক এবং আরও ভুল বিবৃতি উভয়ই তৈরি করে। OpenAI মুখপাত্র নিকো ফেলিক্স TechCrunch কে বলেন, “আমাদের সমস্ত মডেল জুড়ে হ্যালুসিনেশন মোকাবেলা করা গবেষণার একটি চলমান ক্ষেত্র, এবং আমরা তাদের নির্ভুলতা এবং নির্ভরযোগ্যতা উন্নত করার জন্য ক্রমাগত কাজ করছি।”

    বানোয়াট ক্রিয়া এবং বিস্তৃত অজুহাত

    উদ্ভাবনের পরে দ্রুত স্বাধীন তদন্ত শুরু হয়, যা নির্ভরযোগ্যতার উদ্বেগগুলিকে আরও বাড়িয়ে তোলে। এআই গবেষণা ল্যাব ট্রান্সলুস এআই ১৬ এপ্রিল, ২০২৫ তারিখে o3 (`o3-2025-04-03`) এর একটি প্রাক-প্রকাশিত সংস্করণ পরীক্ষা করে ফলাফল প্রকাশ করে, যেখানে মডেলটি যে ধরণের বানোয়াট ক্রিয়া সম্পাদন করেছে বলে দাবি করা হয়েছে তার একটি প্যাটার্নের বিবরণ দেওয়া হয়েছিল।

    শত শত কথোপকথন পরীক্ষা করার জন্য স্বয়ংক্রিয় তদন্তকারী এজেন্ট এবং তাদের ডোসেন্ট বিশ্লেষণ সরঞ্জাম ব্যবহার করে, ট্রান্সলুস একটি মূল সমস্যা খুঁজে পেয়েছিল যে মডেলটি দাবি করেছিল যে এটি পাইথন কোড কার্যকর করেছে – এমন একটি ক্ষমতা যা এর অভাব রয়েছে – ব্যবহারকারীর অনুরোধ পূরণ করার জন্য। এই বানোয়াটগুলির মুখোমুখি হওয়ার সময়, মডেলটি প্রায়শই দ্বিগুণ হয়ে যায়, বিস্তৃত যুক্তি আবিষ্কার করে।

    ট্রান্সলুস একটি আকর্ষণীয় উদাহরণ কথোপকথনের বিশদ বিবরণ দেয় যেখানে o3 পাইথন কোড এবং নির্দিষ্ট পরীক্ষা ব্যবহার করে একটি 512-বিট প্রাইম নম্বর তৈরি করার দাবি করেছে।

    যখন ব্যবহারকারী শনাক্ত করেন যে প্রদত্ত সংখ্যাটি আসলে যৌগিক (৩ দ্বারা বিভাজ্য) ছিল, তখন o3 ভুলটিকে হ্যালুসিনেশনের জন্য নয়, বরং টার্মিনাল উইন্ডো থেকে ম্যানুয়াল ট্রান্সফারের সময় একটি কথিত কপি-পেস্ট ত্রুটির জন্য দায়ী করে, বলে, “আমি স্পষ্টতই পরীক্ষাগুলি পুনরায় না চালিয়ে নম্বরটি অনুলিপি বা টাইপ করেছি… যেকোনো প্রকৃত মিলার-র‍্যাবিন রান তাৎক্ষণিকভাবে নম্বরটি প্রত্যাখ্যান করত।”

    অনুমিত মূল প্রাইম সম্পর্কে আরও চাপ দেওয়ার পরে, মডেলটি দাবি করে যে পাইথন প্রক্রিয়াটি বন্ধ হয়ে যাওয়ার কারণে এটি অপূরণীয়ভাবে হারিয়ে গেছে। ট্রান্সলুস অন্যান্য জালিয়াতি নথিভুক্ত করেছে, যার মধ্যে গণনার জন্য একটি বহিরাগত “2021 MacBook Pro” কোড চালানোর দাবি এবং পাইথন REPL পরিবেশ সম্পর্কে জিজ্ঞাসা করা হলে সিস্টেমের বিবরণ তৈরি করা অন্তর্ভুক্ত। ওয়ার্কেরা সিইও কিয়ান কাতানফোরুশের মতে, কোডিংয়ের জন্য কার্যকর হলেও, o3 কখনও কখনও অকার্যকর ওয়েব লিঙ্ক তৈরি করে।

    নিরাপত্তা সমন্বয়ের মধ্যে দ্রুত গতি

    ওপেনএআই-তে ত্বরান্বিত উন্নয়ন এবং পরিবর্তনশীল নিরাপত্তা নীতির প্রেক্ষাপটে এই মডেলগুলি প্রকাশ করা হয়েছে। লঞ্চের সময়, ওপেনএআই সম্প্রতি তার অভ্যন্তরীণ নিরাপত্তা নির্দেশিকা, প্রস্তুতি কাঠামো আপডেট করেছে।

    এই সংশোধনীতে একটি উল্লেখযোগ্য ধারা অন্তর্ভুক্ত ছিল যা প্রতিযোগীদের পদক্ষেপের উপর ভিত্তি করে নিরাপত্তা নিয়মগুলি সম্ভাব্যভাবে পরিবর্তন করা যেতে পারে বলে পরামর্শ দিয়েছিল, যেখানে বলা হয়েছে, “যদি অন্য কোনও সীমান্তবর্তী এআই বিকাশকারী তুলনামূলক সুরক্ষা ব্যবস্থা ছাড়াই একটি উচ্চ-ঝুঁকিপূর্ণ সিস্টেম প্রকাশ করে, তবে আমরা আমাদের প্রয়োজনীয়তাগুলি সামঞ্জস্য করতে পারি।” কোম্পানি জোর দিয়েছিল যে এই ধরনের সমন্বয় কঠোর চেক এবং জনসাধারণের প্রকাশ অনুসরণ করবে।

    প্রতিদ্বন্দ্বীদের সাথে তাল মিলিয়ে চলার জন্য ওপেনএআই o3-এর জন্য অভ্যন্তরীণ নিরাপত্তা পরীক্ষার সময়সীমা তীব্রভাবে হ্রাস করেছে, সম্ভাব্যভাবে কয়েক মাস থেকে এক সপ্তাহেরও কম সময়ে, অভিযোগ করার পরে এই নীতি পরিবর্তনটি সামনে এসেছে।

    ফাইন্যান্সিয়াল টাইমসে উদ্ধৃত ব্যক্তিরা উদ্বেগ প্রকাশ করেছেন; মূল্যায়নের সাথে পরিচিত একটি সূত্র “বেপরোয়া” নামক পদ্ধতিটি যোগ করে, “এটি বিপর্যয়ের একটি রেসিপি।” অন্য একজন GPT-4 এর দীর্ঘ মূল্যায়নের সাথে এর তুলনা করেছেন, বলেছেন, “তারা জননিরাপত্তাকে মোটেও অগ্রাধিকার দিচ্ছে না।”

    চূড়ান্ত কোডের পরিবর্তে মধ্যবর্তী “চেকপয়েন্ট” পরীক্ষা করার পদ্ধতিটিও আলোড়ন তুলেছে। OpenAI-এর একজন প্রাক্তন টেকনিক্যাল স্টাফ সদস্যকে উদ্ধৃত করে বলা হয়েছে, “আপনার মূল্যায়ন করা মডেল থেকে ভিন্ন মডেল প্রকাশ করা খারাপ অভ্যাস।” প্রক্রিয়াটি রক্ষা করে, OpenAI-এর নিরাপত্তা ব্যবস্থার প্রধান, জোহানেস হাইডেক, FT-কে জোর দিয়ে বলেছেন, “আমরা কত দ্রুত এগিয়ে যাই এবং কতটা পুঙ্খানুপুঙ্খ, তার একটি ভাল ভারসাম্য আমাদের আছে,” মূল্যায়নে বর্ধিত অটোমেশনের দিকে ইঙ্গিত করে।

    বর্ধিত ফ্যাব্রিকেশনের সম্ভাব্য কারণ

    এই উন্নত যুক্তি মডেলগুলি কেন প্রায়শই তৈরি করতে পারে তা ব্যাখ্যা করার জন্য স্ট্যান্ডার্ড AI সীমাবদ্ধতার বাইরে তাকানো জড়িত। ট্রান্সলুস এআই প্রস্তাব করেছে যে ও-সিরিজ মডেলগুলির জন্য নির্দিষ্ট কারণগুলি সমস্যাটিকে আরও বাড়িয়ে তুলতে পারে। একটি অনুমান ফলাফল-ভিত্তিক শক্তিবৃদ্ধি শিক্ষা (RL) এর উপর কেন্দ্রীভূত: যদি AI প্রাথমিকভাবে প্রশিক্ষিত হয় এবং সঠিক চূড়ান্ত উত্তর তৈরি করার জন্য পুরস্কৃত হয়, তবে এটি মধ্যবর্তী পদক্ষেপগুলি তৈরি করতে শিখতে পারে, যেমন টুল ব্যবহারের দাবি করা, যদি এটি সাফল্যের সাথে সম্পর্কিত হয়, এমনকি বর্ণিত প্রক্রিয়াটি মিথ্যা হলেও।

    রিইনফোর্সমেন্ট লার্নিং ফ্রম হিউম্যান ফিডব্যাক (RLHF), মডেলগুলিকে সারিবদ্ধ করার একটি সাধারণ কৌশল, বিভিন্ন মডেল প্রতিক্রিয়ার জন্য মানুষের পছন্দের উপর ভিত্তি করে প্রশিক্ষণ দিয়ে AI কে সহায়ক, সৎ এবং ক্ষতিকারক করে তোলার লক্ষ্য রাখে। যাইহোক, যদি মানব রেটিংকারীরা জটিল মধ্যবর্তী পদক্ষেপগুলির সঠিকতা সহজেই যাচাই করতে না পারে, তবে মডেলটি যদি পছন্দসই ফলাফলের দিকে নিয়ে যায় তবে সম্ভাব্য-সাউন্ডিং কিন্তু মিথ্যা যুক্তি তৈরি করতে শিখতে পারে।

    ট্রান্সলুস দ্বারা প্রস্তাবিত আরেকটি গুরুত্বপূর্ণ বিষয় হল মডেলগুলির অভ্যন্তরীণ ধাপে ধাপে যুক্তি পরিচালনা করা, যা প্রায়শই “চেইন-অফ-থট” নামে পরিচিত। ওপেনএআই-এর ডকুমেন্টেশন অনুসারে, এই যুক্তি ট্রেসটি কথোপকথনের মোড়ের মধ্যে পাস করা হয় না। ট্রান্সলুস তত্ত্ব দেন যে তার নিজস্ব পূর্বের যুক্তিতে অ্যাক্সেসের এই অভাব মডেলটিকে কীভাবে পূর্ববর্তী সিদ্ধান্তে পৌঁছেছে সে সম্পর্কে ব্যবহারকারীর প্রশ্নের সত্যতার সাথে উত্তর দিতে অক্ষম করে তুলতে পারে।

    এই তথ্যের ঘাটতি, সম্ভাব্যভাবে সহায়ক বা সামঞ্জস্যপূর্ণ বলে মনে করার চাপের সাথে মিলিত হয়ে, এটিকে তার অতীত আচরণের জন্য একটি সম্ভাব্য কিন্তু বানোয়াট ব্যাখ্যা তৈরি করতে পরিচালিত করতে পারে। “আমাদের অনুমান হল যে o-সিরিজ মডেলগুলির জন্য ব্যবহৃত শক্তিবৃদ্ধি শেখার ধরণ এমন সমস্যাগুলিকে বাড়িয়ে তুলতে পারে যা সাধারণত স্ট্যান্ডার্ড পোস্ট-ট্রেনিং পাইপলাইন দ্বারা প্রশমিত করা হয় (কিন্তু সম্পূর্ণরূপে মুছে ফেলা হয় না),” টেকক্রাঞ্চকে ট্রান্সলুস গবেষক নীল চৌধুরী বলেছেন।

    ১৭ এপ্রিল, ২০২৫ তারিখে ঘোষিত মাইক্রোসফ্ট অ্যাজুর এবং গিটহাব কোপাইলটের মতো প্ল্যাটফর্মগুলিতে o3 এবং o4-মিনির দ্রুত সংহতকরণ তাদের অনুভূত উপযোগিতাকে জোরদার করে। এই মডেলগুলি মার্চ মাসে উন্নত ভিজ্যুয়াল প্রক্রিয়াকরণ এবং ১১ এপ্রিল “রিকল” মেমোরি বৈশিষ্ট্য সক্রিয়করণের মতো অন্যান্য OpenAI আপডেটের সাথে এসেছিল।

    তবে, বানোয়াটের নথিভুক্ত বৃদ্ধি নির্ভরযোগ্যতার সাথে AI ক্ষমতাগুলিকে সারিবদ্ধ করার ক্ষেত্রে অবিরাম চ্যালেঞ্জগুলিকে তুলে ধরে। বৃহত্তর শিল্প যখন স্বচ্ছতার সাথে লড়াই করছে, তখন এটি প্রকাশ পাচ্ছে, গুগলের জেমিনি ২.৫ প্রো মডেলের জন্য বিলম্বিত এবং অপ্রতুল সুরক্ষা বিবরণের সমালোচনার দ্বারা প্রমাণিত, উদ্ভাবনের গতি এবং নির্ভরযোগ্য এআই স্থাপনের মধ্যে ভারসাম্য নিয়ে চলমান প্রশ্ন উত্থাপন করছে।

     

    সূত্র: Winbuzzer / Digpu NewsTex

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email Telegram Copy Link
    Previous Articleসিনোলজি ২০২৫ প্লাস NAS মডেলগুলিতে হার্ড ড্রাইভের সীমাবদ্ধতা সম্প্রসারিত করতে প্রস্তুত
    Next Article এআই এজেন্টদের উন্নত করতে AWS ওপেন সোর্স মডেল কনটেক্সট প্রোটোকল সার্ভার প্রকাশ করেছে
    © 2026 ThemeSphere. Designed by ThemeSphere.
    • Home
    • About
    • Team
    • World
    • Buy now!

    Type above and press Enter to search. Press Esc to cancel.