মাইক্রোসফট বিটনেট b1.58 2B4T প্রকাশ করেছে, একটি 1.58-বিট এআই মডেল যা স্ট্যান্ডার্ড সিপিইউতে চলে

মাইক্রোসফট গবেষকরা বিটনেট বি১.৫৮ ২বি৪টি দিয়ে এআই জগতে নতুন প্রতিযোগী হিসেবে স্থান করে নিয়েছেন, যা অত্যন্ত কম-নির্ভুলতার ওজনের একটি ওপেন-সোর্স বৃহৎ ভাষা মডেল। এই ২-বিলিয়ন প্যারামিটার মডেলটিকে যা আলাদা করে তা হল এটিকে ১.৫৮-বিট আর্কিটেকচার ব্যবহার করে স্থানীয়ভাবে প্রশিক্ষণ দেওয়া হয়েছিল, প্রশিক্ষণের পরে কোয়ান্টাইজ করার পরিবর্তে।

এর কারিগরি প্রতিবেদন অনুসারে, প্রতিশ্রুতি হল, একই আকারের প্রচলিত মডেলের সাথে তুলনীয় কিন্তু কম্পিউটেশনাল চাহিদা ব্যাপকভাবে হ্রাস পেয়েছে।

মূল দাবিটি দক্ষতার চারপাশে ঘোরে। যদিও অনেক এলএলএম-এর ভারী হার্ডওয়্যারের প্রয়োজন হয়, মাইক্রোসফট পরামর্শ দেয় যে ৪ ট্রিলিয়ন টোকেন ব্যবহার করে প্রশিক্ষিত বিটনেট বি১.৫৮ ২বি৪টি স্ট্যান্ডার্ড সিপিইউতেও কার্যকরভাবে কাজ করতে পারে। তাদের কারিগরি প্রতিবেদনে মাত্র ০.৪ জিবি-এর নন-এম্বেডিং মেমোরি ফুটপ্রিন্ট তুলে ধরা হয়েছে, যা প্রতিযোগীদের জন্য ১.৪ জিবি (জেমা-৩ ১বি) থেকে ৪.৮ জিবি (মিনিসিপিএম ২বি) পর্যন্ত পরিসংখ্যানের তীব্র বিপরীত।

অধিকন্তু, মাইক্রোসফট অনুমান করে যে প্রতি টোকেনের শক্তি খরচ উল্লেখযোগ্যভাবে কম (অন্যদের জন্য 0.028 জুল বনাম 0.186J থেকে 0.649J পরিসর) এবং পরীক্ষামূলক হার্ডওয়্যার (একটি Intel Core i7-13800H) এর বিশেষায়িত কাঠামো ব্যবহার করে চালানো হলে দ্রুত CPU ডিকোডিং ল্যাটেন্সি (প্রতি টোকেন 29 মিলিসেকেন্ড বনাম 41ms-124ms) দাবি করে।

আন্ডার দ্য হুড: দ্য বিটনেট অ্যাপ্রোচ

বিটনেট কীভাবে এই কথিত দক্ষতা অর্জন করে? এর স্থাপত্যটি কাস্টম বিটলিনিয়ার স্তরগুলির জন্য স্ট্যান্ডার্ড লিনিয়ার স্তরগুলিকে অদলবদল করে যা প্রশিক্ষণের সময় আক্রমণাত্মক কোয়ান্টাইজেশন ব্যবহার করে। সাধারণ 16-বিট সংখ্যার পরিবর্তে, মডেলের ওজন ফরোয়ার্ড পাসের সময় মাত্র তিনটি সম্ভাব্য মানের মধ্যে সীমাবদ্ধ থাকে: -1, 0, অথবা +1।

এই ত্রি-স্তরীয় (ত্রি-স্তরীয়) সিস্টেম, যা “absmean” কোয়ান্টাইজেশন কৌশল ব্যবহার করে, তাত্ত্বিকভাবে প্রতি ওজনে মাত্র ~1.58 বিট তথ্য প্রয়োজন (log₂(3) ≈ 1.58 থেকে প্রাপ্ত)। মাইক্রোসফ্ট মূল বিটনেট পেপারে উপস্থাপিত গবেষণার উপর ভিত্তি করে যুক্তি দেয় যে এই “নেটিভ 1-বিট” প্রশিক্ষণ পদ্ধতিটি প্রায়শই মডেলগুলিকে প্রশিক্ষণের পরে সংকোচনের সাথে সম্পর্কিত কর্মক্ষমতা ক্ষতিকে এড়িয়ে যায় (প্রশিক্ষণ-পরবর্তী কোয়ান্টাইজেশন, বা PTQ)।

ত্রি-স্তরের ওজনের পাশাপাশি, স্তরগুলির মধ্যে পাস করা মানগুলি (অ্যাক্টিভেশন) একটি প্রতি-টোকেন “absmax” পদ্ধতি ব্যবহার করে 8-বিট পূর্ণসংখ্যায় কোয়ান্টাইজ করা হয় – একটি কনফিগারেশন যা W1.58A8 (1.58-বিট ওজন, 8-বিট অ্যাক্টিভেশন) নামে পরিচিত। মডেল আর্কিটেকচারটি ট্রান্সফরমার-ভিত্তিক কিন্তু এই লো-বিট ব্যবস্থার জন্য উপযুক্ত নির্দিষ্ট সমন্বয় অন্তর্ভুক্ত করে: এটি SwiGLU-এর পরিবর্তে স্কোয়ারড ReLU (ReLU²) অ্যাক্টিভেশন ফাংশন ব্যবহার করে, পজিশনাল ডেটার জন্য স্ট্যান্ডার্ড রোটারি পজিশন এম্বেডিং (RoPE) ব্যবহার করে, subln নরমালাইজেশন (কোয়ান্টাইজড ট্রেনিংয়ে স্থিতিশীলতার সুবিধার জন্য উদ্ধৃত) ব্যবহার করে এবং এর স্তরগুলিতে পক্ষপাতের শব্দ বাদ দেয়। টোকেনাইজেশন Llama 3 টোকেনাইজারের উপর নির্ভর করে।

প্রশিক্ষণ এবং কর্মক্ষমতা দাবি

BitNet b1.58 2B4T তৈরিতে তিনটি প্রশিক্ষণ পর্যায় অন্তর্ভুক্ত ছিল। প্রাথমিক প্রাক-প্রশিক্ষণে ওয়েব ডেটা, কোড এবং সিন্থেটিক গণিতের 4-ট্রিলিয়ন-টোকেন ডেটাসেট মিশ্রণ অন্তর্ভুক্ত ছিল, একটি উপযুক্ত দুই-পর্যায়ের শেখার হার এবং ওজন ক্ষয় পরিকল্পনা ব্যবহার করে।

এরপর নির্দেশনা অনুসরণ শেখানোর জন্য পাবলিক এবং সিন্থেটিক নির্দেশনা ডেটাসেট (যেমন WizardLM Evol-Instruct এবং SlimOrca) ব্যবহার করে তত্ত্বাবধানে থাকা ফাইন-টিউনিং (SFT) করা হয়েছিল। অবশেষে, ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশন (DPO)—একটি পৃথক পুরষ্কার মডেলের প্রয়োজন ছাড়াই পছন্দের সারিবদ্ধকরণের একটি পদ্ধতি—কথোপকথনের ক্ষমতা এবং সুরক্ষা প্রোফাইলকে পরিমার্জন করার জন্য আল্ট্রাফিডব্যাক সহ ডেটাসেট ব্যবহার করে প্রয়োগ করা হয়েছিল।

প্রযুক্তিগত প্রতিবেদনে বিশদভাবে বলা হয়েছে যে মাইক্রোসফ্টের মূল্যায়ন, প্রতিষ্ঠিত পূর্ণ-নির্ভুলতা 1B-2B প্যারামিটার মডেলের বিরুদ্ধে প্রতিযোগিতামূলকভাবে BitNet b1.58 2B4T কে স্থান দিয়েছে। এটি GSM8K (গণিত), PIQA (ভৌত কমনসেন্স) এবং WinoGrande (কমনসেন্স) এর মতো নির্দিষ্ট মানদণ্ডে শক্তিশালী ফলাফল দেখায়, যখন অন্যদের তুলনায় তুলনামূলকভাবে পারফর্ম করে।

প্রতিবেদনে বলা হয়েছে, “আমাদের ফলাফলগুলি দেখায় যে BitNet b1.58 2B4T একই আকারের শীর্ষস্থানীয় ওপেন-ওয়েট, পূর্ণ-নির্ভুলতা LLM-এর সাথে সমানভাবে কর্মক্ষমতা অর্জন করে, একই সাথে গণনা দক্ষতায় উল্লেখযোগ্য সুবিধা প্রদান করে, যার মধ্যে উল্লেখযোগ্যভাবে হ্রাসকৃত মেমোরি ফুটপ্রিন্ট, শক্তি খরচ এবং ডিকোডিং ল্যাটেন্সি অন্তর্ভুক্ত রয়েছে।” এটি স্ট্যান্ডার্ড INT4 PTQ পদ্ধতির অধীনে থাকা মডেলগুলির তুলনায় উচ্চতর কর্মক্ষমতা দাবি করে।

ক্যাচ: দক্ষতা বৃদ্ধি

স্ট্যান্ডার্ড টুল ব্যবহার করে মডেলের ঘোষিত দক্ষতা বৃদ্ধির অ্যাক্সেস করা সহজ নয়। হাগিং ফেস মডেল কার্ডটি একটি গুরুত্বপূর্ণ সতর্কতা বহন করে: “স্ট্যান্ডার্ড ট্রান্সফরমার লাইব্রেরির সাথে এই মডেলটি ব্যবহার করার সময় দয়া করে কর্মক্ষমতা দক্ষতা বৃদ্ধি (গতি, বিলম্ব বা শক্তি খরচের ক্ষেত্রে) আশা করবেন না… প্রযুক্তিগত কাগজে প্রদর্শিত দক্ষতা সুবিধা অর্জনের জন্য, আপনাকে অবশ্যই ডেডিকেটেড C++ বাস্তবায়ন ব্যবহার করতে হবে: bitnet.cpp।”

এর কারণ হল সাধারণ GPU হার্ডওয়্যার এবং লাইব্রেরিতে বিটনেটের নির্দিষ্ট W1.58A8 গণিতের জন্য অপ্টিমাইজ করা রুটিনের অভাব রয়েছে। দক্ষতা অর্জনের জন্য মাইক্রোসফ্টের ডেডিকেটেড, ওপেন-সোর্স ইনফারেন্স ফ্রেমওয়ার্ক ব্যবহার করা প্রয়োজন।

CPU-এর জন্য, bitnet.cpp GitHub রিপোজিটরিতে একটি C++ লাইব্রেরির বিবরণ রয়েছে (জনপ্রিয় llama.cpp এর উপর ভিত্তি করে) যা লুকআপ টেবিল পদ্ধতি ব্যবহার করে (একটি সম্পর্কিত গবেষণাপত্রে বর্ণিত) রিপোর্ট করা লাভ প্রদান করে, দাবি করে যে চিপ (ARM/x86) এবং মডেলের আকারের উপর নির্ভর করে অন্যান্য CPU ফ্রেমওয়ার্কের তুলনায় 1.37x এবং 6.17x এর মধ্যে গতি বৃদ্ধি পায় এবং 55% থেকে 82% শক্তি হ্রাস পায়।

GPU-এর জন্য, কাস্টম CUDA কার্নেল প্রয়োজন, যার মধ্যে গণনার জন্য ওজন প্যাকিং এবং আনপ্যাক করা জড়িত – বর্তমান GPU-গুলি এই ধরণের মডেলের জন্য আদর্শ নয় তা স্বীকার করার একটি পদক্ষেপ। এই কাস্টম সমাধানগুলি বিভিন্ন হার্ডওয়্যার সেটআপ জুড়ে কর্মক্ষমতা এবং স্থিতিশীলতা বজায় রাখে কিনা তা বৃহত্তর সম্প্রদায় পরীক্ষার প্রয়োজন হবে। মাইক্রোসফ্ট ভবিষ্যতে NPU-এর জন্য সমর্থন এবং bitnet.cpp এর মধ্যে উন্নত GPU হ্যান্ডলিং পরিকল্পনা করছে।

উপলব্ধতা এবং প্রসঙ্গ

মাইক্রোসফট অনুমোদিত MIT লাইসেন্সের অধীনে হাগিং ফেসে BitNet b1.58 2B4T উপলব্ধ করেছে। ব্যবহারকারীরা দক্ষ অনুমানের জন্য প্যাক করা 1.58-বিট ওজন, পুনঃপ্রশিক্ষণ বা সূক্ষ্ম-টিউনিংয়ের জন্য পৃথক BF16 মাস্টার ওজন এবং bitnet.cpp এর সাথে ব্যবহারের জন্য একটি GGUF ফর্ম্যাট খুঁজে পেতে পারেন। মডেলটি একটি 4096-টোকেন প্রসঙ্গ উইন্ডো দিয়ে কাজ করে।

এই প্রকাশটি 2024 সালের ফেব্রুয়ারিতে প্রকাশিত একটি গবেষণাপত্রের মাধ্যমে ধারণাগতভাবে শুরু হওয়া কাজের সমাপ্তি ঘটায়, তারপরে 2024 সালের অক্টোবরে bitnet.cpp ফ্রেমওয়ার্ক প্রকাশিত হয়, যা গবেষণা গোষ্ঠীর এই নেটিভ 1-বিট প্রশিক্ষণ পদ্ধতির উপর ভিত্তি করে প্রথম স্কেল-আপ, উন্মুক্ত মডেল প্রকাশ চিহ্নিত করে, যার হোমপেজ https://aka.ms/GeneralAI এ পাওয়া যাবে। মাইক্রোসফট গবেষকরা ভবিষ্যতের পরিকল্পনার রূপরেখা দিয়েছেন যার মধ্যে রয়েছে বৃহত্তর বিটনেট মডেলগুলিকে প্রশিক্ষণ দেওয়া, হার্ডওয়্যার সহ-নকশা অন্বেষণ করা, প্রসঙ্গ দৈর্ঘ্য বাড়ানো এবং বহুভাষিক বৈশিষ্ট্য যুক্ত করা।

সূত্র: Winbuzzer / Digpu NewsTex