Close Menu
Digpu News  Agency Feed
    Facebook X (Twitter) Instagram
    • Home
    • Technology
    • USA
    • Business
    • Education
    • Startups and Entrepreneurs
    • Health
    Facebook X (Twitter) Instagram
    Digpu News  Agency Feed
    Subscribe
    Wednesday, January 14
    • Home
    • Technology
    • USA
    • Business
    • Education
    • Startups and Entrepreneurs
    • Health
    Digpu News  Agency Feed
    Home»Tamil»மைக்ரோசாப்ட் BitNet b1.58 2B4T ஐ வெளியிடுகிறது, இது நிலையான CPU களில் இயங்கும் 1.58-பிட் AI மாடலாகும்.

    மைக்ரோசாப்ட் BitNet b1.58 2B4T ஐ வெளியிடுகிறது, இது நிலையான CPU களில் இயங்கும் 1.58-பிட் AI மாடலாகும்.

    DeskBy DeskAugust 15, 2025No Comments4 Mins Read
    Share Facebook Twitter Pinterest Copy Link LinkedIn Tumblr Email VKontakte Telegram
    Share
    Facebook Twitter Pinterest Email Copy Link

    மைக்ரோசாப்ட் ஆராய்ச்சியாளர்கள், மிகக் குறைந்த துல்லிய எடைகளுடன் இயங்கும் ஒரு திறந்த மூல பெரிய மொழி மாதிரியான BitNet b1.58 2B4T உடன் AI அரங்கில் ஒரு புதிய போட்டியாளரை அறிமுகப்படுத்தியுள்ளனர். இந்த 2 பில்லியன் அளவுரு மாதிரியை வேறுபடுத்துவது என்னவென்றால், இது பயிற்சிக்குப் பிறகு அளவிடப்படுவதற்குப் பதிலாக, 1.58-பிட் கட்டமைப்பைப் பயன்படுத்தி சொந்தமாகப் பயிற்சி பெற்றது.

    அதன் தொழில்நுட்ப அறிக்கையின்படி, வாக்குறுதி என்னவென்றால், ஒத்த அளவிலான வழக்கமான மாதிரிகளுடன் ஒப்பிடக்கூடிய செயல்திறன் ஆனால் கடுமையாகக் குறைக்கப்பட்ட கணக்கீட்டு தேவைகளுடன்.

    முக்கிய கூற்று செயல்திறனைச் சுற்றி வருகிறது. பல LLM களுக்கு அதிக வன்பொருள் தேவைப்பட்டாலும், 4 டிரில்லியன் டோக்கன்களில் பயிற்சி பெற்ற BitNet b1.58 2B4T, நிலையான CPU களில் கூட திறம்பட செயல்பட முடியும் என்று மைக்ரோசாப்ட் பரிந்துரைக்கிறது. அவர்களின் தொழில்நுட்ப அறிக்கை 0.4GB இன் உட்பொதிக்கப்படாத நினைவக தடயத்தை எடுத்துக்காட்டுகிறது, இது போட்டியாளர்களுக்கு 1.4GB (Gemma-3 1B) முதல் 4.8GB (MiniCPM 2B) வரையிலான புள்ளிவிவரங்களுக்கு கூர்மையான வேறுபாடாகும்.

    மேலும், மைக்ரோசாப்ட் ஒரு டோக்கனுக்கு அதன் ஆற்றல் நுகர்வு கணிசமாகக் குறைவாக இருப்பதாக மதிப்பிடுகிறது (0.028 ஜூல்கள் vs. 0.186J முதல் 0.649J வரை) மேலும் சோதனை வன்பொருளில் (இன்டெல் கோர் i7-13800H) அதன் சிறப்பு கட்டமைப்பைப் பயன்படுத்தி இயங்கும் போது வேகமான CPU டிகோடிங் தாமதத்தை (டோக்கனுக்கு 29 மில்லி விநாடிகள் vs. 41ms-124ms) கோருகிறது.

    Under the Hood: The BitNet Approach

    BitNet இந்த கூறப்படும் செயல்திறனை எவ்வாறு அடைகிறது? அதன் கட்டமைப்பு பயிற்சியின் போது ஆக்கிரமிப்பு அளவீட்டைப் பயன்படுத்தும் தனிப்பயன் BitLinear அடுக்குகளுக்கு நிலையான நேரியல் அடுக்குகளை மாற்றுகிறது. வழக்கமான 16-பிட் எண்களுக்குப் பதிலாக, முன்னோக்கிச் செல்லும் போது மாதிரியின் எடைகள் மூன்று சாத்தியமான மதிப்புகளுக்கு மட்டுமே கட்டுப்படுத்தப்படுகின்றன: -1, 0, அல்லது +1.

    “absmean” அளவீட்டு நுட்பத்தைப் பயன்படுத்தும் இந்த மும்முனை (மூன்று-நிலை) அமைப்பு, கோட்பாட்டளவில் ஒரு எடைக்கு ~1.58 பிட்கள் மட்டுமே தகவல்களைக் கோருகிறது (log₂(3) ≈ 1.58 இலிருந்து பெறப்பட்டது). இந்த “சொந்த 1-பிட்” பயிற்சி அணுகுமுறை, அசல் BitNet தாளில் வழங்கப்பட்ட அதன் ஆராய்ச்சியின் அடிப்படையில், பயிற்சி பெற்ற பிறகு (பயிற்சிக்குப் பிந்தைய அளவீட்டு அல்லது PTQ) சுருக்க மாதிரிகளுடன் தொடர்புடைய செயல்திறன் இழப்புகளைத் தவிர்க்கிறது என்று மைக்ரோசாப்ட் வாதிடுகிறது.

    மும்முனை எடைகளுடன், அடுக்குகளுக்கு (செயல்படுத்தல்கள்) இடையே அனுப்பப்படும் மதிப்புகள், ஒரு டோக்கன் “absmax” முறையைப் பயன்படுத்தி 8-பிட் முழு எண்களாக அளவிடப்படுகின்றன – இது W1.58A8 (1.58-பிட் எடைகள், 8-பிட் செயல்படுத்தல்கள்) என அழைக்கப்படும் உள்ளமைவு. மாதிரி கட்டமைப்பு டிரான்ஸ்ஃபார்மர் அடிப்படையிலானது, ஆனால் இந்த குறைந்த-பிட் பயன்முறைக்கு ஏற்ற குறிப்பிட்ட சரிசெய்தல்களை உள்ளடக்கியது: இது ஸ்கொயர்டு ReLU (ReLU²) செயல்படுத்தல் செயல்பாடுகளை SwiGLU ஐ மாற்றுகிறது, நிலை தரவுகளுக்கு நிலையான ரோட்டரி நிலை உட்பொதிவுகளை (RoPE) பயன்படுத்துகிறது, subln இயல்பாக்கத்தைப் பயன்படுத்துகிறது (அளவிடப்பட்ட பயிற்சியில் நிலைத்தன்மை நன்மைகளுக்காக மேற்கோள் காட்டப்படுகிறது), மற்றும் அதன் அடுக்குகளில் சார்பு சொற்களைத் தவிர்க்கிறது. டோக்கனைசேஷன் லாமா 3 டோக்கனைசரை நம்பியுள்ளது.

    பயிற்சி மற்றும் செயல்திறன் உரிமைகோரல்கள்

    BitNet b1.58 2B4T ஐ உருவாக்குவது மூன்று பயிற்சி நிலைகளை உள்ளடக்கியது. ஆரம்ப முன் பயிற்சியானது வலைத் தரவு, குறியீடு மற்றும் செயற்கை கணிதத்தின் 4-டிரில்லியன்-டோக்கன் தரவுத்தொகுப்பு கலவையை உள்ளடக்கியது, வடிவமைக்கப்பட்ட இரண்டு-நிலை கற்றல் விகிதம் மற்றும் எடை சிதைவு திட்டத்தைப் பயன்படுத்துகிறது.

    இதைத் தொடர்ந்து பொது மற்றும் செயற்கை அறிவுறுத்தல் தரவுத்தொகுப்புகளைப் பயன்படுத்தி மேற்பார்வையிடப்பட்ட ஃபைன்-ட்யூனிங் (SFT) பின்பற்றும் வழிமுறைகளைக் கற்பிக்கப்பட்டது (WizardLM Evol-Instruct மற்றும் SlimOrca போன்றவை). இறுதியாக, நேரடி முன்னுரிமை உகப்பாக்கம் (DPO) – தனி வெகுமதி மாதிரி தேவையில்லாமல் முன்னுரிமை சீரமைப்புக்கான ஒரு முறை – அதன் உரையாடல் திறன்கள் மற்றும் பாதுகாப்பு சுயவிவரத்தை செம்மைப்படுத்த UltraFeedback உள்ளிட்ட தரவுத்தொகுப்புகளைப் பயன்படுத்தி பயன்படுத்தப்பட்டது.

    தொழில்நுட்ப அறிக்கையில் விவரிக்கப்பட்டுள்ள மைக்ரோசாப்டின் மதிப்பீடுகள், நிறுவப்பட்ட முழு-துல்லியமான 1B-2B அளவுரு மாதிரிகளுக்கு எதிராக BitNet b1.58 2B4T ஐ போட்டித்தன்மையுடன் வைக்கின்றன. இது GSM8K (கணிதம்), PIQA (இயற்பியல் பொது அறிவு) மற்றும் WinoGrande (பொது அறிவு) போன்ற சில அளவுகோல்களில் வலுவான முடிவுகளைக் காட்டுகிறது, அதே நேரத்தில் மற்றவற்றுடன் ஒப்பிடத்தக்க வகையில் செயல்படுகிறது.

    அறிக்கை கூறுகிறது, “எங்கள் முடிவுகள் BitNet b1.58 2B4T முன்னணி திறந்த-எடை, ஒத்த அளவிலான முழு-துல்லியமான LLM களுக்கு இணையான செயல்திறனை அடைகிறது, அதே நேரத்தில் கணிசமாகக் குறைக்கப்பட்ட நினைவக தடம், ஆற்றல் நுகர்வு மற்றும் டிகோடிங் தாமதம் உள்ளிட்ட கணக்கீட்டு செயல்திறனில் குறிப்பிடத்தக்க நன்மைகளை வழங்குகிறது.” இது நிலையான INT4 PTQ முறைகளுக்கு உட்பட்ட மாதிரிகளுடன் ஒப்பிடும்போது சிறந்த செயல்திறனைக் கூறுகிறது.

    பிடிப்பு: செயல்திறன் ஆதாயங்களைப் பெறுதல்

    மாதிரியின் அறிவிக்கப்பட்ட செயல்திறன் மேம்பாடுகளை அணுகுவது நிலையான கருவிகளைப் பயன்படுத்தி நேரடியானது அல்ல. Hugging Face மாதிரி அட்டை ஒரு முக்கிய எச்சரிக்கையைக் கொண்டுள்ளது: “நிலையான மின்மாற்றிகள் நூலகத்துடன் இந்த மாதிரியைப் பயன்படுத்தும் போது செயல்திறன் திறன் ஆதாயங்களை (வேகம், தாமதம் அல்லது ஆற்றல் நுகர்வு அடிப்படையில்) எதிர்பார்க்க வேண்டாம்… தொழில்நுட்ப ஆய்வறிக்கையில் நிரூபிக்கப்பட்ட செயல்திறன் நன்மைகளை அடைய, நீங்கள் பிரத்யேக C++ செயல்படுத்தலைப் பயன்படுத்த வேண்டும்: bitnet.cpp.”

    ஏனென்றால், வழக்கமான GPU வன்பொருள் மற்றும் நூலகங்கள் குறிப்பிட்ட W1.58A8 கணித BitNet பயன்படுத்தும் உகந்த நடைமுறைகளைக் கொண்டிருக்கவில்லை. செயல்திறனை உணர மைக்ரோசாப்டின் அர்ப்பணிப்பு, திறந்த மூல அனுமான கட்டமைப்புகளைப் பயன்படுத்த வேண்டும்.

    CPU களுக்கு, bitnet.cpp GitHub களஞ்சியம் ஒரு C++ நூலகத்தை (பிரபலமான llama.cpp ஐ அடிப்படையாகக் கொண்டது) விவரிக்கிறது, இது அறிக்கையிடப்பட்ட ஆதாயங்களை வழங்க தேடல் அட்டவணை முறைகளைப் பயன்படுத்துகிறது (தொடர்புடைய ஆய்வறிக்கையில் விவரிக்கப்பட்டுள்ளது), 1.37x மற்றும் 6.17x க்கு இடையில் வேகத்தை அதிகரிக்கிறது, சிப் (ARM/x86) மற்றும் மாதிரி அளவைப் பொறுத்து மற்ற CPU கட்டமைப்புகளுடன் ஒப்பிடும்போது 55% முதல் 82% வரை ஆற்றல் குறைப்பு.

    GPU களுக்கு, தனிப்பயன் CUDA கர்னல்கள் தேவைப்படுகின்றன, இதில் கணக்கீட்டிற்கான எடைகளை பேக்கிங் செய்தல் மற்றும் பிரித்தல் ஆகியவை அடங்கும் – தற்போதைய GPU கள் இந்த வகை மாதிரிக்கு ஏற்றவை அல்ல என்பதை ஒப்புக்கொள்வதற்கான ஒரு படி. இந்த தனிப்பயன் தீர்வுகள் பல்வேறு வன்பொருள் அமைப்புகளில் செயல்திறன் மற்றும் நிலைத்தன்மையை பராமரிக்க பரந்த சமூக சோதனை தேவைப்படும். மைக்ரோசாப்ட் எதிர்கால NPU களுக்கான ஆதரவையும் bitnet.cpp க்குள் மேம்படுத்தப்பட்ட GPU கையாளுதலையும் திட்டமிட்டுள்ளது.

    கிடைக்கும் தன்மை மற்றும் சூழல்

    மைக்ரோசாப்ட், அனுமதிக்கப்பட்ட MIT உரிமத்தின் கீழ், Hugging Face இல் BitNet b1.58 2B4T ஐ கிடைக்கச் செய்துள்ளது. பயனர்கள் திறமையான அனுமானத்திற்காக பேக் செய்யப்பட்ட 1.58-பிட் எடைகளையும், மறுபயிற்சி அல்லது நன்றாகச் சரிசெய்வதற்காக மட்டுமே தனி BF16 மாஸ்டர் எடைகளையும், bitnet.cpp உடன் பயன்படுத்த GGUF வடிவமைப்பையும் காணலாம். இந்த மாதிரி 4096-டோக்கன் சூழல் சாளரத்துடன் செயல்படுகிறது.

    இந்த வெளியீடு பிப்ரவரி 2024 இல் வெளியிடப்பட்ட ஒரு ஆய்வறிக்கையுடன் கருத்தியல் ரீதியாகத் தொடங்கிய பணியை முடிக்கிறது, அதைத் தொடர்ந்து அக்டோபர் 2024 இல் bitnet.cpp கட்டமைப்பை உருவாக்குகிறது, இது ஆராய்ச்சி குழுவின் இந்த சொந்த 1-பிட் பயிற்சி அணுகுமுறையின் அடிப்படையில் முதல் அளவிடப்பட்ட, திறந்த மாதிரி வெளியீட்டைக் குறிக்கிறது, அதன் முகப்புப்பக்கத்தை https://aka.ms/GeneralAI இல் காணலாம். பெரிய பிட்நெட் மாடல்களைப் பயிற்றுவித்தல், வன்பொருள் இணை வடிவமைப்பை ஆராய்தல், சூழல் நீளங்களை நீட்டித்தல் மற்றும் பன்மொழி அம்சங்களைச் சேர்ப்பது உள்ளிட்ட எதிர்காலத் திட்டங்களை மைக்ரோசாப்ட் ஆராய்ச்சியாளர்கள் கோடிட்டுக் காட்டினர்.

    மூலம்: Winbuzzer / Digpu NewsTex

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email Telegram Copy Link
    Previous Articleஸ்டார்கேட் திட்ட AI முயற்சி இங்கிலாந்து, ஐரோப்பிய முதலீட்டை எடைபோடுவதாக கூறப்படுகிறது.
    Next Article 2025 ஆம் ஆண்டிலும் ஐபோன் தான் மிகவும் பாதுகாப்பான தொலைபேசியா?
    © 2026 ThemeSphere. Designed by ThemeSphere.
    • Home
    • About
    • Team
    • World
    • Buy now!

    Type above and press Enter to search. Press Esc to cancel.