बाइटडांस अपनी बाइटडांस सीड टीम द्वारा विकसित मॉडल, सीड्रीम 3.0 के साथ उच्च-स्तरीय एआई इमेज जेनरेशन क्षेत्र में जोरदार प्रगति कर रहा है। चीनी और अंग्रेजी दोनों भाषाओं में सक्षम, सीड्रीम 3.0 का लक्ष्य ओपनएआई के GPT-4o और मिडजर्नी जैसे स्थापित नामों को लक्षित करना है।
बाइटडांस सामग्री दावा करती है कि यह मॉडल फोटोरियलिस्टिक इमेज, विशेष रूप से पोर्ट्रेट, बनाने और जटिल टेक्स्ट रेंडरिंग को संभालने में उल्लेखनीय प्रगति करता है, साथ ही मूल उच्च-रिज़ॉल्यूशन आउटपुट और तेज़ जेनरेशन समय भी प्रदान करता है। एक आधिकारिक तकनीकी अवलोकन और एक संबंधित पेपर अंतर्निहित परिवर्तनों की रूपरेखा प्रस्तुत करता है।
यह मॉडल अप्रैल 2025 की शुरुआत में बाइटडांस के डौबाओ चैट प्लेटफ़ॉर्म और जिमेंग क्रिएशन टूल पर शुरू हुआ; डौबाओ स्वयं एक महत्वपूर्ण वितरण चैनल है, जिसके मार्च तक वैश्विक स्तर पर लगभग 100 मिलियन मासिक सक्रिय उपयोगकर्ता हो गए थे, जिससे मुख्य रूप से चीन में एक बड़ा संभावित दर्शक वर्ग स्थापित हो गया।
टेक्स्ट और पोर्ट्रेट निर्माण में उन्नति
सीड्रीम 3.0 एक ऐसा क्षेत्र है जहाँ अपनी अलग पहचान बनाना चाहता है, वह है टाइपोग्राफी। तकनीकी दस्तावेज़ “सूक्ष्म टाइपोग्राफी निर्माण” को बेहतर बनाने के प्रयासों पर प्रकाश डालते हैं, जिसमें “विशेष रूप से जटिल चीनी अक्षरों में टेक्स्ट-रेंडरिंग के लिए, जो पेशेवर टाइपोग्राफी निर्माण के लिए महत्वपूर्ण है” प्रगति शामिल है।
यह मॉडल के द्विभाषी लक्षित दर्शकों के लिए उल्लेखनीय है, क्योंकि सटीक रेंडरिंग, विशेष रूप से जटिल लिपियों की, कई इमेज एआई के लिए एक चुनौती बनी हुई है। बाइटडांस का दावा है कि आंतरिक परीक्षणों से पता चलता है कि “चीनी और अंग्रेजी दोनों वर्णों के लिए 94% टेक्स्ट उपलब्धता दर है, जो छवि निर्माण में टेक्स्ट रेंडरिंग को एक सीमित कारक के रूप में प्रभावी रूप से समाप्त कर देती है।”
बाइटडांस द्वारा प्रदान की गई दृश्य तुलनाओं से पता चलता है कि सीड्रीम 3.0 सघन टेक्स्ट लेआउट, विशेष रूप से चीनी फ़ॉन्ट्स के साथ, GPT-4o के इमेज मोड (जिसने मार्च के अंत में अपनी इमेज सुविधाएँ लॉन्च की थीं) की तुलना में अधिक प्रभावी ढंग से प्रबंधित करता है, हालाँकि ओपनएआई के मॉडल ने भी मज़बूत टेक्स्ट क्षमताओं का प्रदर्शन किया है। यह फोकस अन्य नए मॉडलों, जैसे कि आक्रामक रूप से कीमत वाले रेव इमेज 1.0, के टेक्स्ट रेंडरिंग गुणवत्ता पर भी आंशिक रूप से प्रतिस्पर्धा करने के कारण आता है।
यथार्थवादी मानव पोर्ट्रेट बनाने में सुधार भी बाइटडांस की प्रस्तुति का केंद्र बिंदु है, जिसमें “पोर्ट्रेट निर्माण में बढ़ी हुई यथार्थवादिता” का हवाला दिया गया है। इसका उद्देश्य अधिक प्राकृतिक त्वचा विशेषताओं वाली छवियां बनाना है, जो कभी-कभी एआई आउटपुट में दिखाई देने वाले अत्यधिक चिकने सौंदर्यशास्त्र से अलग है।
बाइटडांस द्वारा संदर्भित उपयोगकर्ता वरीयता अध्ययनों ने पोर्ट्रेट यथार्थवाद के लिए सीड्रीम 3.0 को उच्च स्थान दिया, जो मिडजर्नी के V7 अल्फ़ा (जो सीड्रीम 3.0 के विवरण सामने आने से कुछ समय पहले ही शुरू हुआ था) के साथ अच्छी तुलना करता है। सीड्रीम 3.0 की 2K रिज़ॉल्यूशन (2048×2048 पिक्सल) तक की छवियों को मूल रूप से आउटपुट करने की क्षमता को बेहतर बनावट विवरण के लिए एक योगदान कारक के रूप में प्रस्तुत किया गया है, जो अलग-अलग अपस्केलिंग चरणों पर निर्भर करने वाले मॉडलों के विपरीत है।
तकनीकी आधार और प्रदर्शन डेटा
कथित तौर पर कई तकनीकी उन्नयन इन प्रगति का आधार हैं। प्रशिक्षण डेटासेट का आकार काफी हद तक बढ़ाया गया था, आंशिक रूप से एक “दोष-जागरूक” दृष्टिकोण के माध्यम से जो डेटा को त्यागने के बजाय छोटी छवि खामियों को छुपाता है।
प्रशिक्षण में मिश्रित रिज़ॉल्यूशन और “क्रॉस-मोडैलिटी RoPE” (रोटरी पोज़िशन एम्बेडिंग) जैसी तकनीकों को शामिल किया गया, जो संदर्भ के आधार पर स्थिति संबंधी जानकारी को समायोजित करने की एक विधि है, जिसका उद्देश्य टेक्स्ट-इमेज संरेखण में सुधार करना है। यह मॉडल फ्लो मैचिंग ऑब्जेक्टिव्स और रिप्रेज़ेंटेशन अलाइनमेंट लॉस (REPA) का भी उपयोग करता है। उपयोगकर्ता की प्राथमिकताओं का बेहतर मिलान करने के लिए, रीइन्फोर्समेंट लर्निंग ने बड़े विज़न-लैंग्वेज मॉडल (VLM) का उपयोग किया, जिन्हें 20 अरब से ज़्यादा पैरामीटर्स तक बढ़ाया गया, और उन्हें रिवॉर्ड जज के रूप में इस्तेमाल किया गया।
बाइटडांस के अनुसार, त्वरण तकनीकों से जनरेशन स्पीड में सुधार का दावा किया गया है, जिससे सीड्रीम 3.0 लगभग 3 सेकंड में 1K रिज़ॉल्यूशन वाली इमेज तैयार कर सकता है। शुरुआती बेंचमार्क परिणामों ने सीड्रीम 3.0 को अप्रैल 2025 के मध्य में इसकी घोषणा के आसपास आर्टिफिशियल एनालिसिस एरिना उपयोगकर्ता वरीयता लीडरबोर्ड में शीर्ष पर रखा, हालाँकि रैंकिंग में उतार-चढ़ाव हो सकता है।
हालांकि बाइटडांस के आंतरिक परीक्षण मज़बूत परिणाम दिखाते हैं, लेकिन विभिन्न प्रॉम्प्ट पर स्वतंत्र सत्यापन आवश्यक है। शुरुआती उपयोगकर्ता प्रतिक्रिया में इसकी शुरुआती मुफ़्त उपलब्धता और शैलीगत सीमा का उल्लेख किया गया था, लेकिन संदर्भ इमेज इनपुट की कमी जैसी लॉन्च सीमाएँ भी थीं।
सीडएडिट इमेज एडिटिंग के क्षेत्र में प्रवेश करता है
इस जनरेटर का पूरक सीडएडिट 1.6 है, जो टेक्स्ट-प्रॉम्प्ट-आधारित इमेज एडिटिंग को सक्षम बनाता है, जिसमें इमेज के भीतर टेक्स्ट में हेरफेर भी शामिल है। आधिकारिक तौर पर सीड टी2आई मॉडल पर निर्मित बताया गया है, यह GPT-4o के माध्यम से चैटजीपीटी में एकीकृत सुविधाओं के साथ प्रतिस्पर्धा करता है।
बाइटडांस का सुझाव है कि सीडएडिट, GPT-4o की तुलना में संशोधनों के दौरान मूल इमेज की विशेषताओं का बेहतर संरक्षण प्रदान करता है, विशेष रूप से टेक्स्ट परिवर्तन जैसे जटिल कार्यों के लिए। सीडएडिट उत्पाद की स्थिति फोटोग्राफी, कला और ई-कॉमर्स में व्यावसायिक अनुप्रयोगों को लक्षित करती है। हालाँकि इन प्रगतियों को सकारात्मक रूप से प्रस्तुत किया जाता है, लेकिन दावा किए गए प्रदर्शन को प्राप्त करने में अक्सर समझौते शामिल होते हैं, जिनमें संभावित रूप से कम्प्यूटेशनल माँगें भी शामिल हैं, जो व्यापक रूप से अपनाने और तृतीय-पक्ष परीक्षण के साथ स्पष्ट हो जाएँगी।
स्रोत: विनबज़र / डिग्पू न्यूज़टेक्स