माइक्रोसॉफ्ट के शोधकर्ताओं ने बिटनेट b1.58 2B4T के साथ एआई क्षेत्र में एक नया दावेदार पेश किया है। यह एक ओपन-सोर्स लार्ज लैंग्वेज मॉडल है जो बेहद कम परिशुद्धता भारों पर काम करता है। इस 2 बिलियन पैरामीटर मॉडल को जो बात अलग बनाती है, वह यह है कि इसे प्रशिक्षण के बाद क्वांटाइज़ करने के बजाय, 1.58-बिट आर्किटेक्चर का उपयोग करके मूल रूप से प्रशिक्षित किया गया था।
इसकी तकनीकी रिपोर्ट के अनुसार, इसका प्रदर्शन समान आकार के पारंपरिक मॉडलों के बराबर है, लेकिन कम्प्यूटेशनल माँग में भारी कमी के साथ।
मुख्य दावा दक्षता पर केंद्रित है। जहाँ कई LLM के लिए भारी हार्डवेयर की आवश्यकता होती है, वहीं माइक्रोसॉफ्ट का सुझाव है कि 4 ट्रिलियन टोकन पर प्रशिक्षित बिटनेट b1.58 2B4T, मानक CPU पर भी प्रभावी ढंग से काम कर सकता है। उनकी तकनीकी रिपोर्ट में केवल 0.4GB की नॉन-एम्बेडिंग मेमोरी फ़ुटप्रिंट पर प्रकाश डाला गया है, जो प्रतिस्पर्धियों के 1.4GB (Gemma-3 1B) से 4.8GB (MiniCPM 2B) तक के आँकड़ों के बिल्कुल विपरीत है।
इसके अलावा, Microsoft का अनुमान है कि प्रति टोकन उसकी ऊर्जा खपत काफ़ी कम है (0.028 जूल बनाम अन्य के लिए 0.186 जूल से 0.649 जूल की सीमा) और परीक्षण हार्डवेयर (एक Intel Core i7-13800H) पर अपने विशेष फ्रेमवर्क का उपयोग करके चलाने पर तेज़ CPU डिकोडिंग विलंबता (प्रति टोकन 29 मिलीसेकंड बनाम 41ms-124ms) का दावा करता है।
आंतरिक पहलू: BitNet दृष्टिकोण
BitNet इस कथित दक्षता को कैसे प्राप्त करता है? इसका आर्किटेक्चर मानक रैखिक परतों को कस्टम BitLinear परतों से बदल देता है जो प्रशिक्षण के दौरान आक्रामक परिमाणीकरण का उपयोग करती हैं। सामान्य 16-बिट संख्याओं के बजाय, मॉडल के भार फ़ॉरवर्ड पास के दौरान केवल तीन संभावित मानों तक सीमित होते हैं: -1, 0, या +1।
यह त्रिक (तीन-अवस्था) प्रणाली, “एब्समीन” क्वांटिज़ेशन तकनीक का उपयोग करते हुए, सैद्धांतिक रूप से प्रति भार केवल ~1.58 बिट जानकारी की आवश्यकता रखती है (log₂(3) ≈ 1.58 से व्युत्पन्न)। Microsoft का तर्क है कि मूल BitNet पेपर में प्रस्तुत अपने शोध के आधार पर, यह “मूल 1-बिट” प्रशिक्षण दृष्टिकोण, प्रशिक्षण के बाद मॉडलों को संपीड़ित करने से होने वाली प्रदर्शन हानियों (प्रशिक्षण-पश्चात क्वांटिज़ेशन, या PTQ) को कम करता है।
त्रिक भारों के साथ-साथ, परतों (सक्रियण) के बीच पारित मानों को प्रति-टोकन “एब्समैक्स” विधि का उपयोग करके 8-बिट पूर्णांकों में क्वांटाइज़ किया जाता है—एक विन्यास जिसे W1.58A8 (1.58-बिट भार, 8-बिट सक्रियण) के रूप में जाना जाता है। मॉडल आर्किटेक्चर ट्रांसफ़ॉर्मर-आधारित है, लेकिन इसमें इस निम्न-बिट व्यवस्था के लिए उपयुक्त विशिष्ट समायोजन शामिल हैं: यह SwiGLU के स्थान पर स्क्वेर्ड ReLU (ReLU²) सक्रियण फ़ंक्शन का उपयोग करता है, स्थितिगत डेटा के लिए मानक रोटरी पोज़िशन एम्बेडिंग (RoPE) का उपयोग करता है, subln सामान्यीकरण (क्वांटाइज़्ड प्रशिक्षण में स्थिरता लाभों के लिए उद्धृत) का उपयोग करता है, और अपनी परतों में बायस टर्म्स को छोड़ देता है। टोकनाइज़ेशन लामा 3 टोकनाइज़र पर निर्भर करता है।
प्रशिक्षण और प्रदर्शन दावे
BitNet b1.58 2B4T के विकास में तीन प्रशिक्षण चरण शामिल थे। प्रारंभिक पूर्व-प्रशिक्षण में वेब डेटा, कोड और सिंथेटिक गणित के 4 ट्रिलियन-टोकन डेटासेट मिश्रण को शामिल किया गया था, जिसमें एक अनुकूलित दो-चरणीय शिक्षण दर और भार क्षय योजना का उपयोग किया गया था।
इसके बाद, निर्देश अनुगमन सिखाने के लिए सार्वजनिक और सिंथेटिक निर्देश डेटासेट (जैसे विज़ार्डएलएम इवोल-इंस्ट्रक्ट और स्लिमऑर्का) का उपयोग करके पर्यवेक्षित फ़ाइन-ट्यूनिंग (एसएफटी) की गई। अंत में, प्रत्यक्ष वरीयता अनुकूलन (डीपीओ)—एक अलग पुरस्कार मॉडल की आवश्यकता के बिना वरीयता संरेखण की एक विधि—को अल्ट्राफीडबैक सहित डेटासेट का उपयोग करके इसकी संवादात्मक क्षमताओं और सुरक्षा प्रोफ़ाइल को परिष्कृत करने के लिए लागू किया गया।
तकनीकी रिपोर्ट में विस्तृत माइक्रोसॉफ्ट के मूल्यांकन, बिटनेट b1.58 2B4T को स्थापित पूर्ण-परिशुद्धता 1B-2B पैरामीटर मॉडल के मुकाबले प्रतिस्पर्धी बनाते हैं। यह कथित तौर पर GSM8K (गणित), PIQA (भौतिक सामान्य ज्ञान), और विनोग्रांडे (सामान्य ज्ञान) जैसे कुछ बेंचमार्क पर बेहतर परिणाम दिखाता है, जबकि अन्य पर तुलनात्मक रूप से अच्छा प्रदर्शन करता है।
रिपोर्ट में कहा गया है, “हमारे परिणाम दर्शाते हैं कि बिटनेट b1.58 2B4T समान आकार के अग्रणी ओपन-वेट, पूर्ण-परिशुद्धता LLM के बराबर प्रदर्शन प्राप्त करता है, साथ ही कम्प्यूटेशनल दक्षता में महत्वपूर्ण लाभ प्रदान करता है, जिसमें काफी कम मेमोरी फ़ुटप्रिंट, ऊर्जा खपत और डिकोडिंग विलंबता शामिल है।” यह मानक INT4 PTQ विधियों के अधीन मॉडलों की तुलना में बेहतर प्रदर्शन का भी दावा करता है।
पकड़: दक्षता लाभ प्राप्त करना
मॉडल के घोषित दक्षता सुधारों तक मानक उपकरणों से पहुँचना आसान नहीं है। हगिंग फेस मॉडल कार्ड पर एक प्रमुख चेतावनी दी गई है: “मानक ट्रांसफ़ॉर्मर्स लाइब्रेरी के साथ इस मॉडल का उपयोग करते समय कृपया प्रदर्शन दक्षता में वृद्धि (गति, विलंबता या ऊर्जा खपत के संदर्भ में) की अपेक्षा न करें… तकनीकी पेपर में दर्शाए गए दक्षता लाभों को प्राप्त करने के लिए, आपको समर्पित C++ कार्यान्वयन: bitnet.cpp का उपयोग करना होगा।”
ऐसा इसलिए है क्योंकि सामान्य GPU हार्डवेयर और लाइब्रेरी में BitNet द्वारा उपयोग किए जाने वाले विशिष्ट W1.58A8 गणित के लिए अनुकूलित रूटीन का अभाव होता है। इस दक्षता को प्राप्त करने के लिए Microsoft के समर्पित, ओपन-सोर्स इंफ़रेंस फ़्रेमवर्क का उपयोग करना आवश्यक है।
CPU के लिए, bitnet.cpp GitHub रिपॉजिटरी एक C++ लाइब्रेरी (लोकप्रिय llama.cpp पर आधारित) का विवरण देती है, जो कथित लाभ प्रदान करने के लिए लुकअप टेबल विधियों (एक संबंधित पेपर में वर्णित) का उपयोग करती है, और चिप (ARM/x86) और मॉडल आकार के आधार पर अन्य CPU फ्रेमवर्क की तुलना में 55% से 82% ऊर्जा की कमी के साथ 1.37x और 6.17x के बीच गति वृद्धि का दावा करती है।
GPU के लिए, कस्टम CUDA कर्नेल की आवश्यकता होती है, जिसमें गणना के लिए भार को पैक और अनपैक करना शामिल होता है—यह एक ऐसा कदम है जो यह स्वीकार करता है कि वर्तमान GPU इस प्रकार के मॉडल के लिए आदर्श नहीं हैं। ये कस्टम समाधान विविध हार्डवेयर सेटअप में प्रदर्शन और स्थिरता बनाए रखेंगे या नहीं, इसके लिए व्यापक सामुदायिक परीक्षण की आवश्यकता होगी। Microsoft भविष्य में bitnet.cpp के भीतर NPU और बेहतर GPU हैंडलिंग के लिए समर्थन की योजना बना रहा है।
उपलब्धता और संदर्भ
Microsoft ने BitNet b1.58 2B4T को अनुमोदित MIT लाइसेंस के अंतर्गत हगिंग फेस पर उपलब्ध करा दिया है। उपयोगकर्ता कुशल अनुमान के लिए पैक्ड 1.58-बिट वेट, पुनर्प्रशिक्षण या फ़ाइन-ट्यूनिंग के लिए अलग BF16 मास्टर वेट, और bitnet.cpp के साथ उपयोग के लिए एक GGUF प्रारूप पा सकते हैं। यह मॉडल 4096-टोकन संदर्भ विंडो के साथ काम करता है।
यह रिलीज़ उस कार्य का समापन है जो वैचारिक रूप से फरवरी 2024 में प्रकाशित एक पेपर के साथ शुरू हुआ था, जिसके बाद अक्टूबर 2024 में bitnet.cpp फ्रेमवर्क जारी किया गया, जो इस शोध समूह द्वारा इस मूल 1-बिट प्रशिक्षण दृष्टिकोण पर आधारित पहला स्केल-अप, ओपन मॉडल रिलीज़ है, जिसका होमपेज https://aka.ms/GeneralAI पर पाया जा सकता है। माइक्रोसॉफ्ट के शोधकर्ताओं ने भविष्य की योजनाओं की रूपरेखा तैयार की, जिनमें बड़े बिटनेट मॉडलों का प्रशिक्षण, हार्डवेयर सह-डिज़ाइन की खोज, संदर्भ लंबाई का विस्तार और बहुभाषी सुविधाएँ जोड़ना शामिल है।
स्रोत: विनबज़र / डिग्पू न्यूज़टेक्स