மைக்ரோசாப்ட் BitNet b1.58 2B4T ஐ வெளியிடுகிறது, இது நிலையான CPU களில் இயங்கும் 1.58-பிட் AI மாடலாகும்.

மைக்ரோசாப்ட் ஆராய்ச்சியாளர்கள், மிகக் குறைந்த துல்லிய எடைகளுடன் இயங்கும் ஒரு திறந்த மூல பெரிய மொழி மாதிரியான BitNet b1.58 2B4T உடன் AI அரங்கில் ஒரு புதிய போட்டியாளரை அறிமுகப்படுத்தியுள்ளனர். இந்த 2 பில்லியன் அளவுரு மாதிரியை வேறுபடுத்துவது என்னவென்றால், இது பயிற்சிக்குப் பிறகு அளவிடப்படுவதற்குப் பதிலாக, 1.58-பிட் கட்டமைப்பைப் பயன்படுத்தி சொந்தமாகப் பயிற்சி பெற்றது.

அதன் தொழில்நுட்ப அறிக்கையின்படி, வாக்குறுதி என்னவென்றால், ஒத்த அளவிலான வழக்கமான மாதிரிகளுடன் ஒப்பிடக்கூடிய செயல்திறன் ஆனால் கடுமையாகக் குறைக்கப்பட்ட கணக்கீட்டு தேவைகளுடன்.

முக்கிய கூற்று செயல்திறனைச் சுற்றி வருகிறது. பல LLM களுக்கு அதிக வன்பொருள் தேவைப்பட்டாலும், 4 டிரில்லியன் டோக்கன்களில் பயிற்சி பெற்ற BitNet b1.58 2B4T, நிலையான CPU களில் கூட திறம்பட செயல்பட முடியும் என்று மைக்ரோசாப்ட் பரிந்துரைக்கிறது. அவர்களின் தொழில்நுட்ப அறிக்கை 0.4GB இன் உட்பொதிக்கப்படாத நினைவக தடயத்தை எடுத்துக்காட்டுகிறது, இது போட்டியாளர்களுக்கு 1.4GB (Gemma-3 1B) முதல் 4.8GB (MiniCPM 2B) வரையிலான புள்ளிவிவரங்களுக்கு கூர்மையான வேறுபாடாகும்.

மேலும், மைக்ரோசாப்ட் ஒரு டோக்கனுக்கு அதன் ஆற்றல் நுகர்வு கணிசமாகக் குறைவாக இருப்பதாக மதிப்பிடுகிறது (0.028 ஜூல்கள் vs. 0.186J முதல் 0.649J வரை) மேலும் சோதனை வன்பொருளில் (இன்டெல் கோர் i7-13800H) அதன் சிறப்பு கட்டமைப்பைப் பயன்படுத்தி இயங்கும் போது வேகமான CPU டிகோடிங் தாமதத்தை (டோக்கனுக்கு 29 மில்லி விநாடிகள் vs. 41ms-124ms) கோருகிறது.

Under the Hood: The BitNet Approach

BitNet இந்த கூறப்படும் செயல்திறனை எவ்வாறு அடைகிறது? அதன் கட்டமைப்பு பயிற்சியின் போது ஆக்கிரமிப்பு அளவீட்டைப் பயன்படுத்தும் தனிப்பயன் BitLinear அடுக்குகளுக்கு நிலையான நேரியல் அடுக்குகளை மாற்றுகிறது. வழக்கமான 16-பிட் எண்களுக்குப் பதிலாக, முன்னோக்கிச் செல்லும் போது மாதிரியின் எடைகள் மூன்று சாத்தியமான மதிப்புகளுக்கு மட்டுமே கட்டுப்படுத்தப்படுகின்றன: -1, 0, அல்லது +1.

“absmean” அளவீட்டு நுட்பத்தைப் பயன்படுத்தும் இந்த மும்முனை (மூன்று-நிலை) அமைப்பு, கோட்பாட்டளவில் ஒரு எடைக்கு ~1.58 பிட்கள் மட்டுமே தகவல்களைக் கோருகிறது (log₂(3) ≈ 1.58 இலிருந்து பெறப்பட்டது). இந்த “சொந்த 1-பிட்” பயிற்சி அணுகுமுறை, அசல் BitNet தாளில் வழங்கப்பட்ட அதன் ஆராய்ச்சியின் அடிப்படையில், பயிற்சி பெற்ற பிறகு (பயிற்சிக்குப் பிந்தைய அளவீட்டு அல்லது PTQ) சுருக்க மாதிரிகளுடன் தொடர்புடைய செயல்திறன் இழப்புகளைத் தவிர்க்கிறது என்று மைக்ரோசாப்ட் வாதிடுகிறது.

மும்முனை எடைகளுடன், அடுக்குகளுக்கு (செயல்படுத்தல்கள்) இடையே அனுப்பப்படும் மதிப்புகள், ஒரு டோக்கன் “absmax” முறையைப் பயன்படுத்தி 8-பிட் முழு எண்களாக அளவிடப்படுகின்றன – இது W1.58A8 (1.58-பிட் எடைகள், 8-பிட் செயல்படுத்தல்கள்) என அழைக்கப்படும் உள்ளமைவு. மாதிரி கட்டமைப்பு டிரான்ஸ்ஃபார்மர் அடிப்படையிலானது, ஆனால் இந்த குறைந்த-பிட் பயன்முறைக்கு ஏற்ற குறிப்பிட்ட சரிசெய்தல்களை உள்ளடக்கியது: இது ஸ்கொயர்டு ReLU (ReLU²) செயல்படுத்தல் செயல்பாடுகளை SwiGLU ஐ மாற்றுகிறது, நிலை தரவுகளுக்கு நிலையான ரோட்டரி நிலை உட்பொதிவுகளை (RoPE) பயன்படுத்துகிறது, subln இயல்பாக்கத்தைப் பயன்படுத்துகிறது (அளவிடப்பட்ட பயிற்சியில் நிலைத்தன்மை நன்மைகளுக்காக மேற்கோள் காட்டப்படுகிறது), மற்றும் அதன் அடுக்குகளில் சார்பு சொற்களைத் தவிர்க்கிறது. டோக்கனைசேஷன் லாமா 3 டோக்கனைசரை நம்பியுள்ளது.

பயிற்சி மற்றும் செயல்திறன் உரிமைகோரல்கள்

BitNet b1.58 2B4T ஐ உருவாக்குவது மூன்று பயிற்சி நிலைகளை உள்ளடக்கியது. ஆரம்ப முன் பயிற்சியானது வலைத் தரவு, குறியீடு மற்றும் செயற்கை கணிதத்தின் 4-டிரில்லியன்-டோக்கன் தரவுத்தொகுப்பு கலவையை உள்ளடக்கியது, வடிவமைக்கப்பட்ட இரண்டு-நிலை கற்றல் விகிதம் மற்றும் எடை சிதைவு திட்டத்தைப் பயன்படுத்துகிறது.

இதைத் தொடர்ந்து பொது மற்றும் செயற்கை அறிவுறுத்தல் தரவுத்தொகுப்புகளைப் பயன்படுத்தி மேற்பார்வையிடப்பட்ட ஃபைன்-ட்யூனிங் (SFT) பின்பற்றும் வழிமுறைகளைக் கற்பிக்கப்பட்டது (WizardLM Evol-Instruct மற்றும் SlimOrca போன்றவை). இறுதியாக, நேரடி முன்னுரிமை உகப்பாக்கம் (DPO) – தனி வெகுமதி மாதிரி தேவையில்லாமல் முன்னுரிமை சீரமைப்புக்கான ஒரு முறை – அதன் உரையாடல் திறன்கள் மற்றும் பாதுகாப்பு சுயவிவரத்தை செம்மைப்படுத்த UltraFeedback உள்ளிட்ட தரவுத்தொகுப்புகளைப் பயன்படுத்தி பயன்படுத்தப்பட்டது.

தொழில்நுட்ப அறிக்கையில் விவரிக்கப்பட்டுள்ள மைக்ரோசாப்டின் மதிப்பீடுகள், நிறுவப்பட்ட முழு-துல்லியமான 1B-2B அளவுரு மாதிரிகளுக்கு எதிராக BitNet b1.58 2B4T ஐ போட்டித்தன்மையுடன் வைக்கின்றன. இது GSM8K (கணிதம்), PIQA (இயற்பியல் பொது அறிவு) மற்றும் WinoGrande (பொது அறிவு) போன்ற சில அளவுகோல்களில் வலுவான முடிவுகளைக் காட்டுகிறது, அதே நேரத்தில் மற்றவற்றுடன் ஒப்பிடத்தக்க வகையில் செயல்படுகிறது.

அறிக்கை கூறுகிறது, “எங்கள் முடிவுகள் BitNet b1.58 2B4T முன்னணி திறந்த-எடை, ஒத்த அளவிலான முழு-துல்லியமான LLM களுக்கு இணையான செயல்திறனை அடைகிறது, அதே நேரத்தில் கணிசமாகக் குறைக்கப்பட்ட நினைவக தடம், ஆற்றல் நுகர்வு மற்றும் டிகோடிங் தாமதம் உள்ளிட்ட கணக்கீட்டு செயல்திறனில் குறிப்பிடத்தக்க நன்மைகளை வழங்குகிறது.” இது நிலையான INT4 PTQ முறைகளுக்கு உட்பட்ட மாதிரிகளுடன் ஒப்பிடும்போது சிறந்த செயல்திறனைக் கூறுகிறது.

பிடிப்பு: செயல்திறன் ஆதாயங்களைப் பெறுதல்

மாதிரியின் அறிவிக்கப்பட்ட செயல்திறன் மேம்பாடுகளை அணுகுவது நிலையான கருவிகளைப் பயன்படுத்தி நேரடியானது அல்ல. Hugging Face மாதிரி அட்டை ஒரு முக்கிய எச்சரிக்கையைக் கொண்டுள்ளது: “நிலையான மின்மாற்றிகள் நூலகத்துடன் இந்த மாதிரியைப் பயன்படுத்தும் போது செயல்திறன் திறன் ஆதாயங்களை (வேகம், தாமதம் அல்லது ஆற்றல் நுகர்வு அடிப்படையில்) எதிர்பார்க்க வேண்டாம்… தொழில்நுட்ப ஆய்வறிக்கையில் நிரூபிக்கப்பட்ட செயல்திறன் நன்மைகளை அடைய, நீங்கள் பிரத்யேக C++ செயல்படுத்தலைப் பயன்படுத்த வேண்டும்: bitnet.cpp.”

ஏனென்றால், வழக்கமான GPU வன்பொருள் மற்றும் நூலகங்கள் குறிப்பிட்ட W1.58A8 கணித BitNet பயன்படுத்தும் உகந்த நடைமுறைகளைக் கொண்டிருக்கவில்லை. செயல்திறனை உணர மைக்ரோசாப்டின் அர்ப்பணிப்பு, திறந்த மூல அனுமான கட்டமைப்புகளைப் பயன்படுத்த வேண்டும்.

CPU களுக்கு, bitnet.cpp GitHub களஞ்சியம் ஒரு C++ நூலகத்தை (பிரபலமான llama.cpp ஐ அடிப்படையாகக் கொண்டது) விவரிக்கிறது, இது அறிக்கையிடப்பட்ட ஆதாயங்களை வழங்க தேடல் அட்டவணை முறைகளைப் பயன்படுத்துகிறது (தொடர்புடைய ஆய்வறிக்கையில் விவரிக்கப்பட்டுள்ளது), 1.37x மற்றும் 6.17x க்கு இடையில் வேகத்தை அதிகரிக்கிறது, சிப் (ARM/x86) மற்றும் மாதிரி அளவைப் பொறுத்து மற்ற CPU கட்டமைப்புகளுடன் ஒப்பிடும்போது 55% முதல் 82% வரை ஆற்றல் குறைப்பு.

GPU களுக்கு, தனிப்பயன் CUDA கர்னல்கள் தேவைப்படுகின்றன, இதில் கணக்கீட்டிற்கான எடைகளை பேக்கிங் செய்தல் மற்றும் பிரித்தல் ஆகியவை அடங்கும் – தற்போதைய GPU கள் இந்த வகை மாதிரிக்கு ஏற்றவை அல்ல என்பதை ஒப்புக்கொள்வதற்கான ஒரு படி. இந்த தனிப்பயன் தீர்வுகள் பல்வேறு வன்பொருள் அமைப்புகளில் செயல்திறன் மற்றும் நிலைத்தன்மையை பராமரிக்க பரந்த சமூக சோதனை தேவைப்படும். மைக்ரோசாப்ட் எதிர்கால NPU களுக்கான ஆதரவையும் bitnet.cpp க்குள் மேம்படுத்தப்பட்ட GPU கையாளுதலையும் திட்டமிட்டுள்ளது.

கிடைக்கும் தன்மை மற்றும் சூழல்

மைக்ரோசாப்ட், அனுமதிக்கப்பட்ட MIT உரிமத்தின் கீழ், Hugging Face இல் BitNet b1.58 2B4T ஐ கிடைக்கச் செய்துள்ளது. பயனர்கள் திறமையான அனுமானத்திற்காக பேக் செய்யப்பட்ட 1.58-பிட் எடைகளையும், மறுபயிற்சி அல்லது நன்றாகச் சரிசெய்வதற்காக மட்டுமே தனி BF16 மாஸ்டர் எடைகளையும், bitnet.cpp உடன் பயன்படுத்த GGUF வடிவமைப்பையும் காணலாம். இந்த மாதிரி 4096-டோக்கன் சூழல் சாளரத்துடன் செயல்படுகிறது.

இந்த வெளியீடு பிப்ரவரி 2024 இல் வெளியிடப்பட்ட ஒரு ஆய்வறிக்கையுடன் கருத்தியல் ரீதியாகத் தொடங்கிய பணியை முடிக்கிறது, அதைத் தொடர்ந்து அக்டோபர் 2024 இல் bitnet.cpp கட்டமைப்பை உருவாக்குகிறது, இது ஆராய்ச்சி குழுவின் இந்த சொந்த 1-பிட் பயிற்சி அணுகுமுறையின் அடிப்படையில் முதல் அளவிடப்பட்ட, திறந்த மாதிரி வெளியீட்டைக் குறிக்கிறது, அதன் முகப்புப்பக்கத்தை https://aka.ms/GeneralAI இல் காணலாம். பெரிய பிட்நெட் மாடல்களைப் பயிற்றுவித்தல், வன்பொருள் இணை வடிவமைப்பை ஆராய்தல், சூழல் நீளங்களை நீட்டித்தல் மற்றும் பன்மொழி அம்சங்களைச் சேர்ப்பது உள்ளிட்ட எதிர்காலத் திட்டங்களை மைக்ரோசாப்ட் ஆராய்ச்சியாளர்கள் கோடிட்டுக் காட்டினர்.

மூலம்: Winbuzzer / Digpu NewsTex