தீவிரமடைந்து வரும் உலகளாவிய போட்டி மற்றும் வன்பொருள் விநியோகச் சங்கிலி அழுத்தங்களுக்கு மத்தியில், குறிப்பாக உயர் செயல்திறன் கொண்ட GPU-களை அணுகுவது தொடர்பாக, AI செயல்திறன் பல தொழில்நுட்ப நிறுவனங்களுக்கு மையக் கவனமாக மாறியுள்ளது.
சீனாவின் DeepSeek AI, இந்த விவரிப்புக்குள் தன்னை நிலைநிறுத்திக் கொள்கிறது, இது சமீபத்தில் தொழில்நுட்ப நிறுவனமான Tencent ஆல் சரிபார்க்கப்பட்ட ஒரு உத்தியாகும். மார்ச் 2025 இல் அதன் Q4 2024 வருவாய் அழைப்பின் போது, DeepSeek இன் மாதிரிகளை ஒருங்கிணைப்பதன் மூலம் அதன் GPU தேவைகளைக் குறைப்பதாக Tencent தெரிவித்துள்ளது.
ஒரு நிறுவன நிர்வாகி குறிப்பிட்டார், “சீன நிறுவனங்கள் பொதுவாக செயல்திறன் மற்றும் பயன்பாட்டிற்கு முன்னுரிமை அளிக்கின்றன – GPU சேவையகங்களின் திறமையான பயன்பாடு. மேலும் அது உருவாக்கப்பட்டு வரும் தொழில்நுட்பத்தின் இறுதி செயல்திறனை அது அவசியமாக பாதிக்காது. மேலும் DeepSeek இன் வெற்றி உண்மையில் அந்த யதார்த்தத்தை அடையாளப்படுத்துகிறது மற்றும் உறுதிப்படுத்துகிறது – அதை நிரூபிக்கிறது என்று நான் நினைக்கிறேன்.” WeChat போன்ற பயன்பாடுகளில் DeepSeek ஒருங்கிணைப்பிற்கான NVIDIA இன் H20 சில்லுகளைப் போலவே, Tencent இன்னும் வன்பொருளை வாங்கும் அதே வேளையில், DeepSeek இன் திறமையான வடிவமைப்புகளில் ஒரு மூலோபாய சார்பை இந்த அறிக்கை எடுத்துக்காட்டுகிறது.
DeepSeek இன் திறந்த மூல புஷ் தொடங்குகிறது
இந்த செயல்திறன்-முதல் அணுகுமுறையை வலுப்படுத்தும் வகையில், DeepSeek X வழியாக ஒரு புதிய திறந்த மூல முயற்சியை அறிவித்தது. இந்தத் திட்டத்தை “சிறிய ஆனால் உண்மையான முன்னேற்றம்” என்று பகிர்ந்து கொள்வதாக விவரித்து, சமூக வளர்ச்சியைத் தூண்டுவதற்காக அடுத்த வாரத்தில் ஐந்து குறியீடு களஞ்சியங்களை வெளியிடும் நோக்கத்தை நிறுவனம் தெரிவித்துள்ளது, மேலும் “தந்த கோபுரங்கள் இல்லை – வெறும் தூய கேரேஜ்-ஆற்றல் மற்றும் சமூகத்தால் இயக்கப்படும் புதுமை” இருக்கும் என்றும் கூறினார். இந்த திட்டத்தின் கீழ் வெளியிடப்பட்ட முதல் கூறு FlashMLA ஆகும்.
FlashMLA என்பது மல்டி-ஹெட் லேட்டண்ட் அட்டென்ஷன் (MLA) டிகோடிங் கர்னலாக வழங்கப்படுகிறது, இது NVIDIA இன் ஹாப்பர் GPU கட்டமைப்பிற்காக சிறப்பாக டியூன் செய்யப்பட்ட மேம்பட்ட செயல்திறனுக்காக வடிவமைக்கப்பட்ட மின்மாற்றி கவன வழிமுறைகளின் மாறுபாடாகும். MIT உரிமத்தின் கீழ் GitHub இல் கிடைக்கும் இந்த கர்னல், சேவை செய்யும் சூழ்நிலைகளில் “மாறி-நீள வரிசைகளுக்காக வடிவமைக்கப்பட்டுள்ளது” என்றும் “இது ஏற்கனவே எங்கள் உற்பத்தி அமைப்புகளுக்கு சக்தி அளிக்கிறது” என்றும் DeepSeek ஆல் விவரிக்கப்படுகிறது.
இது BF16 மற்றும் FP16 தரவு வகைகளை ஆதரிக்கிறது மற்றும் 64-தொகுதி அளவுடன் கூடிய Paged KVCache ஐப் பயன்படுத்துகிறது – இது மின்மாற்றி மாதிரிகளில் முக்கிய மதிப்பு நிலைகளுக்கான சேமிப்பை மேம்படுத்தும் ஒரு நினைவக மேலாண்மை நுட்பமாகும். இந்த அணுகுமுறை தொடர்ச்சியான தற்காலிக சேமிப்போடு ஒப்பிடும்போது மிகவும் நெகிழ்வான நினைவக ஒதுக்கீட்டை அனுமதிக்கிறது, மாறுபட்ட வரிசை நீளங்களுடன் ஒரே நேரத்தில் கோரிக்கைகளுக்கான செயல்திறனை மேம்படுத்துகிறது.
செயல்திறன் உரிமைகோரல்கள் மற்றும் தொழில்நுட்ப அறக்கட்டளை
H800 SXM5 GPUகளில் இயங்கும் FlashMLA க்கு DeepSeek கணிசமான செயல்திறன் அளவீடுகளைக் கூறுகிறது, 3000 GB/s வரை நினைவக செயல்திறனையும் 580 TFLOPS ஐ எட்டும் கணினி செயல்திறனையும் மேற்கோள் காட்டுகிறது, இருப்பினும் இந்த புள்ளிவிவரங்கள் பல்வேறு பணிச்சுமைகளில் சுயாதீனமான, நிஜ உலக சரிபார்ப்பை அவசியமாக்குகின்றன.
உகந்த செயல்திறனுக்கு CUDA 12.8 அல்லது அதற்குப் பிந்தைய பதிப்பு தேவைப்படுவதாகக் கூறப்படுகிறது, இருப்பினும் இணக்கத்தன்மை PyTorch 2.0+ உடன் CUDA 12.3 இல் தொடங்குகிறது. FlashAttention 2&3 மற்றும் NVIDIAவின் சொந்த Cutlass நூலகம் போன்ற நிறுவப்பட்ட திட்டங்களிலிருந்து உத்வேகம் பெற்றதாக நிறுவனம் பாராட்டுகிறது.
GitHub களஞ்சியம், MetaX (MetaX-MACA/FlashMLA), Moore Threads (MooreThreads/MT-flashMLA), Hygon DCU (OpenDAS/MLAattention), Intellifusion (Intellifusion/tyllm), Iluvatar Corex (Deep-Spark/FlashMLA), மற்றும் AMD Instinct (AITER/MLA) உள்ளிட்ட பிற வன்பொருள் தளங்களுக்கு தொழில்நுட்பத்தை மாற்றியமைக்கும் சமூக முயற்சிகளையும் சுட்டிக்காட்டுகிறது, இது அடிப்படை நுட்பங்களில் பரந்த சுற்றுச்சூழல் ஆர்வத்தைக் குறிக்கிறது.
போட்டி மற்றும் சிக்கலான சூழலை வழிநடத்துதல்
டீப்சீக் அதன் அடுத்த பெரிய மாடலான R2 க்கான மேம்பாட்டு காலவரிசையை விரைவுபடுத்தியதாக கூறப்படுகிறது, இது பிப்ரவரி மாத இறுதியில் அறிவிக்கப்பட்டபடி, மே 2025 இல் திட்டமிடப்பட்ட அறிமுகத்திலிருந்து முந்தைய வெளியீட்டிற்கு மாற்றப்பட்டதாக கூறப்படுகிறது.
இந்த அவசரம் OpenAI, Google மற்றும் Anthropic போன்ற உலகளாவிய AI தலைவர்களின் அழுத்தங்களுடனும், அலிபாபாவின் வேகமாக வளர்ந்து வரும் Qwen மாடல்களின் (QwQ-Max-Preview போன்றவை) உள்நாட்டு போட்டியுடனும் தொடர்புடையது. இந்த சந்தை இயக்கவியலை ஒருங்கிணைப்பது ஒழுங்குமுறை சவால்கள் ஆகும், இதில் தரவு நடைமுறைகள் தொடர்பான அமெரிக்க கட்டுப்பாடுகள் மற்றும் ஐரோப்பாவில் விசாரணைகள் அடங்கும். மேலும், NVIDIA வன்பொருளை DeepSeek நம்பியிருப்பது ஒரு காரணியாகவே உள்ளது, ஏனெனில் சீனாவில் சிப் கிடைக்கும் தன்மையை பாதிக்கும் தற்போதைய அமெரிக்க ஏற்றுமதி கட்டுப்பாடுகள் உள்ளன.
ஒரு மூலோபாய கட்டாயமாக செயல்திறன்
FlashMLA வெளியீடு, திறமையான அனுமானத்திற்கான ஒரு முக்கிய கூறுகளில் கவனம் செலுத்துகிறது, பெரிய அளவுரு எண்ணிக்கைகளைப் பின்பற்றுவதன் மூலம் மட்டுமே அல்லாமல், கட்டிடக்கலை புத்திசாலித்தனத்தின் மூலம் போட்டியிட DeepSeek இன் உத்தியுடன் ஒத்துப்போகிறது, இது OpenAI இன் வள-தீவிர மாதிரிகள், மிகப்பெரிய, விலையுயர்ந்த GPT-4.5 போன்றவற்றால் எடுத்துக்காட்டுகிறது.
இந்த திசை மார்ச் 24 அன்று MLA ஐப் பயன்படுத்தும் பெரிய DeepSeek-V3-0324 சோதனைச் சாவடியின் அமைதியான, திறந்த-எடை வெளியீடு மற்றும் மனித பின்னூட்டங்களைச் சார்ந்திருப்பதைக் குறைப்பதை நோக்கமாகக் கொண்ட ஒரு அனுமான-நேர சீரமைப்பு நுட்பமான Self-Principled Critique Tuning (SPCT) (arXiv இல் கிடைக்கும் காகிதம்) பற்றிய ஆராய்ச்சியின் ஏப்ரல் 2025 வெளியீடு ஆகியவற்றால் மேலும் நிரூபிக்கப்பட்டது.
FlashMLA போன்ற கூறுகளை திறந்த-மூலமாக்குவதன் மூலம், DeepSeek அதன் செயல்திறன் சார்ந்த கட்டமைப்புகளைச் சுற்றி பரந்த தத்தெடுப்பு மற்றும் மேம்பாட்டை வளர்க்க நம்புகிறது, இது வள-கட்டுப்படுத்தப்பட்ட சூழலில் ஒரு போட்டி நன்மையை உருவாக்கும்.
மூலம்: வின்பஸர் / டிக்பு நியூஸ் டெக்ஸ்