Close Menu
Digpu News  Agency Feed
    Facebook X (Twitter) Instagram
    • Home
    • Technology
    • USA
    • Business
    • Education
    • Startups and Entrepreneurs
    • Health
    Facebook X (Twitter) Instagram
    Digpu News  Agency Feed
    Subscribe
    Monday, January 12
    • Home
    • Technology
    • USA
    • Business
    • Education
    • Startups and Entrepreneurs
    • Health
    Digpu News  Agency Feed
    Home»Bengali»মাইক্রোসফট বিটনেট b1.58 2B4T প্রকাশ করেছে, একটি 1.58-বিট এআই মডেল যা স্ট্যান্ডার্ড সিপিইউতে চলে

    মাইক্রোসফট বিটনেট b1.58 2B4T প্রকাশ করেছে, একটি 1.58-বিট এআই মডেল যা স্ট্যান্ডার্ড সিপিইউতে চলে

    DeskBy DeskAugust 15, 2025No Comments5 Mins Read
    Share Facebook Twitter Pinterest Copy Link LinkedIn Tumblr Email VKontakte Telegram
    Share
    Facebook Twitter Pinterest Email Copy Link

    মাইক্রোসফট গবেষকরা বিটনেট বি১.৫৮ ২বি৪টি দিয়ে এআই জগতে নতুন প্রতিযোগী হিসেবে স্থান করে নিয়েছেন, যা অত্যন্ত কম-নির্ভুলতার ওজনের একটি ওপেন-সোর্স বৃহৎ ভাষা মডেল। এই ২-বিলিয়ন প্যারামিটার মডেলটিকে যা আলাদা করে তা হল এটিকে ১.৫৮-বিট আর্কিটেকচার ব্যবহার করে স্থানীয়ভাবে প্রশিক্ষণ দেওয়া হয়েছিল, প্রশিক্ষণের পরে কোয়ান্টাইজ করার পরিবর্তে।

    এর কারিগরি প্রতিবেদন অনুসারে, প্রতিশ্রুতি হল, একই আকারের প্রচলিত মডেলের সাথে তুলনীয় কিন্তু কম্পিউটেশনাল চাহিদা ব্যাপকভাবে হ্রাস পেয়েছে।

    মূল দাবিটি দক্ষতার চারপাশে ঘোরে। যদিও অনেক এলএলএম-এর ভারী হার্ডওয়্যারের প্রয়োজন হয়, মাইক্রোসফট পরামর্শ দেয় যে ৪ ট্রিলিয়ন টোকেন ব্যবহার করে প্রশিক্ষিত বিটনেট বি১.৫৮ ২বি৪টি স্ট্যান্ডার্ড সিপিইউতেও কার্যকরভাবে কাজ করতে পারে। তাদের কারিগরি প্রতিবেদনে মাত্র ০.৪ জিবি-এর নন-এম্বেডিং মেমোরি ফুটপ্রিন্ট তুলে ধরা হয়েছে, যা প্রতিযোগীদের জন্য ১.৪ জিবি (জেমা-৩ ১বি) থেকে ৪.৮ জিবি (মিনিসিপিএম ২বি) পর্যন্ত পরিসংখ্যানের তীব্র বিপরীত।

    অধিকন্তু, মাইক্রোসফট অনুমান করে যে প্রতি টোকেনের শক্তি খরচ উল্লেখযোগ্যভাবে কম (অন্যদের জন্য 0.028 জুল বনাম 0.186J থেকে 0.649J পরিসর) এবং পরীক্ষামূলক হার্ডওয়্যার (একটি Intel Core i7-13800H) এর বিশেষায়িত কাঠামো ব্যবহার করে চালানো হলে দ্রুত CPU ডিকোডিং ল্যাটেন্সি (প্রতি টোকেন 29 মিলিসেকেন্ড বনাম 41ms-124ms) দাবি করে।

    আন্ডার দ্য হুড: দ্য বিটনেট অ্যাপ্রোচ

    বিটনেট কীভাবে এই কথিত দক্ষতা অর্জন করে? এর স্থাপত্যটি কাস্টম বিটলিনিয়ার স্তরগুলির জন্য স্ট্যান্ডার্ড লিনিয়ার স্তরগুলিকে অদলবদল করে যা প্রশিক্ষণের সময় আক্রমণাত্মক কোয়ান্টাইজেশন ব্যবহার করে। সাধারণ 16-বিট সংখ্যার পরিবর্তে, মডেলের ওজন ফরোয়ার্ড পাসের সময় মাত্র তিনটি সম্ভাব্য মানের মধ্যে সীমাবদ্ধ থাকে: -1, 0, অথবা +1।

    এই ত্রি-স্তরীয় (ত্রি-স্তরীয়) সিস্টেম, যা “absmean” কোয়ান্টাইজেশন কৌশল ব্যবহার করে, তাত্ত্বিকভাবে প্রতি ওজনে মাত্র ~1.58 বিট তথ্য প্রয়োজন (log₂(3) ≈ 1.58 থেকে প্রাপ্ত)। মাইক্রোসফ্ট মূল বিটনেট পেপারে উপস্থাপিত গবেষণার উপর ভিত্তি করে যুক্তি দেয় যে এই “নেটিভ 1-বিট” প্রশিক্ষণ পদ্ধতিটি প্রায়শই মডেলগুলিকে প্রশিক্ষণের পরে সংকোচনের সাথে সম্পর্কিত কর্মক্ষমতা ক্ষতিকে এড়িয়ে যায় (প্রশিক্ষণ-পরবর্তী কোয়ান্টাইজেশন, বা PTQ)।

    ত্রি-স্তরের ওজনের পাশাপাশি, স্তরগুলির মধ্যে পাস করা মানগুলি (অ্যাক্টিভেশন) একটি প্রতি-টোকেন “absmax” পদ্ধতি ব্যবহার করে 8-বিট পূর্ণসংখ্যায় কোয়ান্টাইজ করা হয় – একটি কনফিগারেশন যা W1.58A8 (1.58-বিট ওজন, 8-বিট অ্যাক্টিভেশন) নামে পরিচিত। মডেল আর্কিটেকচারটি ট্রান্সফরমার-ভিত্তিক কিন্তু এই লো-বিট ব্যবস্থার জন্য উপযুক্ত নির্দিষ্ট সমন্বয় অন্তর্ভুক্ত করে: এটি SwiGLU-এর পরিবর্তে স্কোয়ারড ReLU (ReLU²) অ্যাক্টিভেশন ফাংশন ব্যবহার করে, পজিশনাল ডেটার জন্য স্ট্যান্ডার্ড রোটারি পজিশন এম্বেডিং (RoPE) ব্যবহার করে, subln নরমালাইজেশন (কোয়ান্টাইজড ট্রেনিংয়ে স্থিতিশীলতার সুবিধার জন্য উদ্ধৃত) ব্যবহার করে এবং এর স্তরগুলিতে পক্ষপাতের শব্দ বাদ দেয়। টোকেনাইজেশন Llama 3 টোকেনাইজারের উপর নির্ভর করে।

    প্রশিক্ষণ এবং কর্মক্ষমতা দাবি

    BitNet b1.58 2B4T তৈরিতে তিনটি প্রশিক্ষণ পর্যায় অন্তর্ভুক্ত ছিল। প্রাথমিক প্রাক-প্রশিক্ষণে ওয়েব ডেটা, কোড এবং সিন্থেটিক গণিতের 4-ট্রিলিয়ন-টোকেন ডেটাসেট মিশ্রণ অন্তর্ভুক্ত ছিল, একটি উপযুক্ত দুই-পর্যায়ের শেখার হার এবং ওজন ক্ষয় পরিকল্পনা ব্যবহার করে।

    এরপর নির্দেশনা অনুসরণ শেখানোর জন্য পাবলিক এবং সিন্থেটিক নির্দেশনা ডেটাসেট (যেমন WizardLM Evol-Instruct এবং SlimOrca) ব্যবহার করে তত্ত্বাবধানে থাকা ফাইন-টিউনিং (SFT) করা হয়েছিল। অবশেষে, ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশন (DPO)—একটি পৃথক পুরষ্কার মডেলের প্রয়োজন ছাড়াই পছন্দের সারিবদ্ধকরণের একটি পদ্ধতি—কথোপকথনের ক্ষমতা এবং সুরক্ষা প্রোফাইলকে পরিমার্জন করার জন্য আল্ট্রাফিডব্যাক সহ ডেটাসেট ব্যবহার করে প্রয়োগ করা হয়েছিল।

    প্রযুক্তিগত প্রতিবেদনে বিশদভাবে বলা হয়েছে যে মাইক্রোসফ্টের মূল্যায়ন, প্রতিষ্ঠিত পূর্ণ-নির্ভুলতা 1B-2B প্যারামিটার মডেলের বিরুদ্ধে প্রতিযোগিতামূলকভাবে BitNet b1.58 2B4T কে স্থান দিয়েছে। এটি GSM8K (গণিত), PIQA (ভৌত কমনসেন্স) এবং WinoGrande (কমনসেন্স) এর মতো নির্দিষ্ট মানদণ্ডে শক্তিশালী ফলাফল দেখায়, যখন অন্যদের তুলনায় তুলনামূলকভাবে পারফর্ম করে।

    প্রতিবেদনে বলা হয়েছে, “আমাদের ফলাফলগুলি দেখায় যে BitNet b1.58 2B4T একই আকারের শীর্ষস্থানীয় ওপেন-ওয়েট, পূর্ণ-নির্ভুলতা LLM-এর সাথে সমানভাবে কর্মক্ষমতা অর্জন করে, একই সাথে গণনা দক্ষতায় উল্লেখযোগ্য সুবিধা প্রদান করে, যার মধ্যে উল্লেখযোগ্যভাবে হ্রাসকৃত মেমোরি ফুটপ্রিন্ট, শক্তি খরচ এবং ডিকোডিং ল্যাটেন্সি অন্তর্ভুক্ত রয়েছে।” এটি স্ট্যান্ডার্ড INT4 PTQ পদ্ধতির অধীনে থাকা মডেলগুলির তুলনায় উচ্চতর কর্মক্ষমতা দাবি করে।

    ক্যাচ: দক্ষতা বৃদ্ধি

    স্ট্যান্ডার্ড টুল ব্যবহার করে মডেলের ঘোষিত দক্ষতা বৃদ্ধির অ্যাক্সেস করা সহজ নয়। হাগিং ফেস মডেল কার্ডটি একটি গুরুত্বপূর্ণ সতর্কতা বহন করে: “স্ট্যান্ডার্ড ট্রান্সফরমার লাইব্রেরির সাথে এই মডেলটি ব্যবহার করার সময় দয়া করে কর্মক্ষমতা দক্ষতা বৃদ্ধি (গতি, বিলম্ব বা শক্তি খরচের ক্ষেত্রে) আশা করবেন না… প্রযুক্তিগত কাগজে প্রদর্শিত দক্ষতা সুবিধা অর্জনের জন্য, আপনাকে অবশ্যই ডেডিকেটেড C++ বাস্তবায়ন ব্যবহার করতে হবে: bitnet.cpp।”

    এর কারণ হল সাধারণ GPU হার্ডওয়্যার এবং লাইব্রেরিতে বিটনেটের নির্দিষ্ট W1.58A8 গণিতের জন্য অপ্টিমাইজ করা রুটিনের অভাব রয়েছে। দক্ষতা অর্জনের জন্য মাইক্রোসফ্টের ডেডিকেটেড, ওপেন-সোর্স ইনফারেন্স ফ্রেমওয়ার্ক ব্যবহার করা প্রয়োজন।

    CPU-এর জন্য, bitnet.cpp GitHub রিপোজিটরিতে একটি C++ লাইব্রেরির বিবরণ রয়েছে (জনপ্রিয় llama.cpp এর উপর ভিত্তি করে) যা লুকআপ টেবিল পদ্ধতি ব্যবহার করে (একটি সম্পর্কিত গবেষণাপত্রে বর্ণিত) রিপোর্ট করা লাভ প্রদান করে, দাবি করে যে চিপ (ARM/x86) এবং মডেলের আকারের উপর নির্ভর করে অন্যান্য CPU ফ্রেমওয়ার্কের তুলনায় 1.37x এবং 6.17x এর মধ্যে গতি বৃদ্ধি পায় এবং 55% থেকে 82% শক্তি হ্রাস পায়।

    GPU-এর জন্য, কাস্টম CUDA কার্নেল প্রয়োজন, যার মধ্যে গণনার জন্য ওজন প্যাকিং এবং আনপ্যাক করা জড়িত – বর্তমান GPU-গুলি এই ধরণের মডেলের জন্য আদর্শ নয় তা স্বীকার করার একটি পদক্ষেপ। এই কাস্টম সমাধানগুলি বিভিন্ন হার্ডওয়্যার সেটআপ জুড়ে কর্মক্ষমতা এবং স্থিতিশীলতা বজায় রাখে কিনা তা বৃহত্তর সম্প্রদায় পরীক্ষার প্রয়োজন হবে। মাইক্রোসফ্ট ভবিষ্যতে NPU-এর জন্য সমর্থন এবং bitnet.cpp এর মধ্যে উন্নত GPU হ্যান্ডলিং পরিকল্পনা করছে।

    উপলব্ধতা এবং প্রসঙ্গ

    মাইক্রোসফট অনুমোদিত MIT লাইসেন্সের অধীনে হাগিং ফেসে BitNet b1.58 2B4T উপলব্ধ করেছে। ব্যবহারকারীরা দক্ষ অনুমানের জন্য প্যাক করা 1.58-বিট ওজন, পুনঃপ্রশিক্ষণ বা সূক্ষ্ম-টিউনিংয়ের জন্য পৃথক BF16 মাস্টার ওজন এবং bitnet.cpp এর সাথে ব্যবহারের জন্য একটি GGUF ফর্ম্যাট খুঁজে পেতে পারেন। মডেলটি একটি 4096-টোকেন প্রসঙ্গ উইন্ডো দিয়ে কাজ করে।

    এই প্রকাশটি 2024 সালের ফেব্রুয়ারিতে প্রকাশিত একটি গবেষণাপত্রের মাধ্যমে ধারণাগতভাবে শুরু হওয়া কাজের সমাপ্তি ঘটায়, তারপরে 2024 সালের অক্টোবরে bitnet.cpp ফ্রেমওয়ার্ক প্রকাশিত হয়, যা গবেষণা গোষ্ঠীর এই নেটিভ 1-বিট প্রশিক্ষণ পদ্ধতির উপর ভিত্তি করে প্রথম স্কেল-আপ, উন্মুক্ত মডেল প্রকাশ চিহ্নিত করে, যার হোমপেজ https://aka.ms/GeneralAI এ পাওয়া যাবে। মাইক্রোসফট গবেষকরা ভবিষ্যতের পরিকল্পনার রূপরেখা দিয়েছেন যার মধ্যে রয়েছে বৃহত্তর বিটনেট মডেলগুলিকে প্রশিক্ষণ দেওয়া, হার্ডওয়্যার সহ-নকশা অন্বেষণ করা, প্রসঙ্গ দৈর্ঘ্য বাড়ানো এবং বহুভাষিক বৈশিষ্ট্য যুক্ত করা।

    সূত্র: Winbuzzer / Digpu NewsTex

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email Telegram Copy Link
    Previous Articleস্টারগেট প্রজেক্ট এআই ভেঞ্চার যুক্তরাজ্য এবং ইউরোপীয় বিনিয়োগের উপর নির্ভরশীল বলে জানা গেছে
    Next Article ২০২৫ সালেও কি আইফোনই সবচেয়ে নিরাপদ ফোন?
    © 2026 ThemeSphere. Designed by ThemeSphere.
    • Home
    • About
    • Team
    • World
    • Buy now!

    Type above and press Enter to search. Press Esc to cancel.