मेटा प्लेटफ़ॉर्म्स भी एआई की होड़ की भारी लागत से अछूता नहीं है। द इन्फ़ॉर्मेशन द्वारा रिपोर्ट की गई चर्चाओं की जानकारी रखने वाले चार लोगों के अनुसार, कंपनी ने पिछले साल का कुछ हिस्सा माइक्रोसॉफ्ट, अमेज़न और अन्य प्रतिस्पर्धियों से संपर्क करके अपने प्रमुख लामा लार्ज लैंग्वेज मॉडल्स को प्रशिक्षित करने के लिए वित्तीय मदद मांगी।
दो लोगों ने बताया कि ये प्रस्ताव, जिन्हें कथित तौर पर “लामा कंसोर्टियम” प्रस्ताव कहा गया है, मेटा के भीतर कृत्रिम बुद्धिमत्ता विकास के लिए आवश्यक संसाधनों की बढ़ती संख्या को लेकर व्याप्त आशंकाओं से प्रेरित थे। एक मधुरता के रूप में, मेटा ने संभावित वित्तीय समर्थकों को लामा के भविष्य के फीचर विकास में अपनी बात रखने का मौका देने पर चर्चा की।
सूत्रों का कहना है कि मेटा के प्रस्ताव पर शुरुआती प्रतिक्रिया ठंडी थी, और यह अनिश्चित है कि कोई औपचारिक वित्तपोषण समझौता हुआ या नहीं। फिर भी, यह प्रयास अग्रणी एआई प्रणालियों के निर्माण में शामिल भारी वित्तीय बोझ को दर्शाता है, जो मेटा जैसी बड़ी कंपनियों पर भी दबाव डालता है और जनरेटिव एआई में उच्च दांव का संकेत देता है।
लामा 4 – मेटा के नवीनतम मॉडल
मेटा द्वारा वित्तपोषण भागीदारों की खोज, हाल ही में की गई लामा 4 की घोषणा को एक नए परिप्रेक्ष्य में प्रस्तुत करती है। इस रिलीज़ में लामा 4 स्काउट (कुल 109B पैरामीटर, 17B सक्रिय) पेश किया गया था, जिसका उद्देश्य एकल-GPU उपयोग के लिए एक असाधारण रूप से बड़ी 10 मिलियन टोकन संदर्भ विंडो है – जो एक साथ लगभग 7.5 मिलियन शब्दों को संसाधित करने में सक्षम है।
इसने बड़े कार्यभार के लिए बहुत बड़े लामा 4 मेवरिक (कुल 400B पैरामीटर, 17B सक्रिय, 128 विशेषज्ञ) का भी अनावरण किया। दोनों में मिक्सचर-ऑफ-एक्सपर्ट्स (MoE) आर्किटेक्चर का उपयोग किया गया है, जो एक ऐसी तकनीक है जिसमें विशेष उप-नेटवर्क (‘विशेषज्ञ’) का उपयोग किया जाता है, जहाँ प्रत्येक कार्य के लिए केवल आवश्यक उप-नेटवर्क ही सक्रिय होते हैं, जिसका उद्देश्य संचालन के दौरान अधिक दक्षता प्राप्त करना है, जबकि सघन मॉडल में सभी पैरामीटर हमेशा उपयोग किए जाते हैं।
इन्हें मूल मल्टीमोडैलिटी के साथ भी बनाया गया था, जो बाद में इमेज क्षमताओं को जोड़ने के बजाय, प्रीट्रेनिंग चरण से ही प्रारंभिक फ़्यूज़न का उपयोग करके टेक्स्ट और इमेज को एक साथ संभालते थे।
इनका आधार अभी तक अप्रकाशित लामा 4 बेहेमोथ है, जो एक 2 ट्रिलियन पैरामीटर मॉडल है जिसका उपयोग आंतरिक रूप से डिस्टिलेशन (छोटे मॉडलों को सिखाने) के लिए किया जाता है, जिसके लिए 32,000 GPU तक प्रशिक्षण की आवश्यकता होती है। मेटा ने FP8 परिशुद्धता जैसी तकनीकों का उपयोग किया – एक कम-परिशुद्धता वाला संख्या प्रारूप जो गणनाओं को गति देता है – और लंबे अनुक्रमों को प्रभावी ढंग से संभालने के लिए इंटरलीव्ड रोटरी पोजिशनल एम्बेडिंग (iRoPE) जैसे नए आर्किटेक्चरल घटकों का उपयोग किया।
इस पैमाने और जटिलता के मॉडल का निर्माण, प्रशिक्षण और परिशोधन – MoE, मल्टीमोडैलिटी, उन्नत पोजिशनल एन्कोडिंग को एकीकृत करना, और प्रतिस्पर्धी बेंचमार्क प्राप्त करना – स्वाभाविक रूप से विशाल कम्प्यूटेशनल शक्ति और इंजीनियरिंग प्रयास की मांग करता है, जो साझा निवेश की संभावित आवश्यकता को सीधे तौर पर स्पष्ट करता है। जबकि MoE संभावित अनुमान दक्षता प्रदान करता है, प्रारंभिक प्रशिक्षण लागत एक महत्वपूर्ण कारक बनी हुई है।
विकास संबंधी बाधाएँ और डेटा संबंधी प्रश्न
रॉ कंप्यूट के अलावा, मेटा ने विशिष्ट आउटपुट और सुरक्षा के लिए लामा 4 को ट्यून करने के लिए संसाधन समर्पित किए। कंपनी ने सार्वजनिक रूप से कहा कि उसका लक्ष्य एलएलएम में कथित राजनीतिक पूर्वाग्रहों का मुकाबला करना है, और कहा, “यह सर्वविदित है कि सभी प्रमुख एलएलएम पूर्वाग्रहों से जूझते रहे हैं—खासकर, जब राजनीतिक और सामाजिक विषयों पर बहस की बात आती है, तो वे ऐतिहासिक रूप से वामपंथी रहे हैं… यह इंटरनेट पर उपलब्ध प्रशिक्षण डेटा के प्रकारों के कारण है।”
मेटा ने दावा किया कि आंतरिक परीक्षणों से संवेदनशील विषयों पर अस्वीकृति दर और वैचारिक असमानताओं में कमी देखी गई, साथ ही लामा गार्ड और GOAT रेड-टीमिंग सिस्टम जैसे सुरक्षा उपकरणों का उपयोग किया गया – जो कमज़ोरियों का पता लगाने के लिए प्रतिकूल परीक्षण का एक तरीका है। ये फ़ाइन-ट्यूनिंग और सुरक्षा परतें विकास के अतिरिक्त खर्च को और बढ़ा देती हैं।
मेटा के वित्तीय गणित में इसके प्रशिक्षण डेटा को लेकर लगातार उठ रहे कानूनी सवाल भी संभावित रूप से जुड़ रहे हैं, जो विकास चुनौतियों और लागतों का एक और पहलू है। कॉमेडियन सारा सिल्वरमैन से जुड़े एक मुकदमे सहित, चल रहे मुकदमों में आरोप लगाया गया है कि कंपनी ने बिटटोरेंट फ़ाइल-शेयरिंग के ज़रिए लिबजेन जैसी लाइब्रेरियों से प्राप्त पायरेटेड किताबों के विशाल डेटासेट पर लामा मॉडल्स को प्रशिक्षित किया। अदालती दस्तावेज़ों में कथित तौर पर आंतरिक आशंकाएँ उजागर हुई हैं, जिसमें एक इंजीनियर के हवाले से कहा गया है, “[मेटा के स्वामित्व वाले] कॉर्पोरेट लैपटॉप से टोरेंटिंग करना सही नहीं लगता।”
मार्च 2025 के अंत में आरोप सामने आए कि मेटा ने इस डेटा का लगभग 30% हिस्सा फिर से अपलोड किया होगा, जिससे ‘उचित उपयोग’ के तर्क कमज़ोर पड़ सकते हैं और संभावित कानूनी दायित्व या वैकल्पिक, लाइसेंस प्राप्त डेटा प्राप्त करने की भविष्य की लागत बढ़ सकती है। ऐसे विवाद समग्र एआई विकास लागत के एक बड़े, भले ही कम दिखाई देने वाले, चालक का प्रतिनिधित्व कर सकते हैं।
प्रतिस्पर्धी क्षेत्र में रणनीतिक कदम
मेटा की फंडिंग पहुँच, लामा को अपने संचालन का केंद्र बनाने की उसकी स्पष्ट रणनीति के अनुरूप है। लॉन्च के तुरंत बाद, इन मॉडलों को व्हाट्सएप, इंस्टाग्राम और फेसबुक पर मेटा एआई सुविधाओं में एकीकृत कर दिया गया। इन्हें डाउनलोड के लिए और क्लाउड पार्टनर्स के माध्यम से भी उपलब्ध कराया गया – जिसमें अमेज़न सेजमेकर जंपस्टार्ट और माइक्रोसॉफ्ट का एज़्योर एआई फाउंड्री और एज़्योर डेटाब्रिक्स शामिल हैं – हालाँकि, विशेष रूप से एक कस्टम कमर्शियल लाइसेंस के तहत, न कि किसी सामान्य ओपन-सोर्स लाइसेंस के तहत। यह नियंत्रित रिलीज़ रणनीति, लामा के परिनियोजन में मेटा को शामिल रखती है, खुलेपन और व्यावसायिक हितों के बीच संतुलन बनाए रखती है।
मेटा के अपने एआई पर ध्यान केंद्रित करने के और भी स्पष्ट संकेत, मेटा के आईओएस ऐप्स में ऐप्पल के सिस्टम-वाइड ऐप्पल इंटेलिजेंस सुविधाओं को ब्लॉक करने के उसके कदम से मिले, जिसकी खबर है। यह आईफोन उपयोगकर्ताओं को फेसबुक या इंस्टाग्राम पर ऐप्पल के एआई राइटिंग टूल्स या जेनमोजी का उपयोग करने से रोकता है, और उन्हें मेटा के लामा-आधारित विकल्पों की ओर धकेलता है।
यह प्रतिस्पर्धी पैंतरेबाज़ी मेटा और ऐप्पल के बीच संभावित एआई साझेदारी पर 2024 के मध्य में हुई असफल वार्ता के बावजूद हुई, जो कथित तौर पर गोपनीयता संबंधी मतभेदों के कारण समाप्त हो गई थी। मेटा का दृष्टिकोण ऐप्पल के अधिक गोपनीयता-केंद्रित, अक्सर ऑन-डिवाइस मॉडल से भी भिन्न है, और यह अंतर मेटा द्वारा लामा 4 के राजनीतिक झुकाव को समायोजित करने की सार्वजनिक चर्चा और जनवरी 2025 से अमेरिका में तृतीय-पक्ष तथ्य-जांच को विवादास्पद रूप से वापस लेने से उजागर होता है।
मेटा 29 अप्रैल को होने वाले अपने लामाकॉन कार्यक्रम में और अधिक जानकारी साझा करने की योजना बना रहा है, जिसमें संभवतः विशाल बेहेमोथ मॉडल या आगामी लामा 4-V विज़न मॉडल पर अपडेट दिए जाएँगे।
स्रोत: विनबज़र / डिग्पू न्यूज़टेक्स