பைட் டான்ஸ் நிறுவனம், அதன் பைட் டான்ஸ் சீட் குழுவால் உருவாக்கப்பட்ட சீட்ரீம் 3.0 என்ற மாடலுடன் உயர்நிலை AI பட உருவாக்கத்தில் ஒருங்கிணைந்த முயற்சியை மேற்கொண்டு வருகிறது. சீன மற்றும் ஆங்கிலம் ஆகிய இரு மொழிகளிலும் திறமையானதாக வழங்கப்பட்ட சீட்ரீம் 3.0, ஓபன்ஏஐயின் ஜிபிடி-4o மற்றும் மிட்ஜர்னி போன்ற நிறுவப்பட்ட பெயர்களை நோக்கமாகக் கொண்டுள்ளது.
பைட் டான்ஸ் பொருட்கள், இந்த மாடல் ஃபோட்டோரியலிஸ்டிக் படங்களை உருவாக்குவதில், குறிப்பாக உருவப்படங்களை உருவாக்குவதில் மற்றும் சிக்கலான உரை ஒழுங்கமைப்பைக் கையாள்வதில் கணிசமான முன்னேற்றம் அடைவதாக உறுதிப்படுத்துகின்றன, அதே நேரத்தில் சொந்த உயர் தெளிவுத்திறன் வெளியீடு மற்றும் வேகமான தலைமுறை நேரங்களையும் வழங்குகிறது. ஒரு அதிகாரப்பூர்வ தொழில்நுட்ப கண்ணோட்டம் மற்றும் தொடர்புடைய ஆய்வறிக்கை அடிப்படை மாற்றங்களை கோடிட்டுக் காட்டுகிறது.
இந்த மாதிரி ஏப்ரல் 2025 தொடக்கத்தில் பைட் டான்ஸின் டூபாவோ அரட்டை தளம் மற்றும் ஜிமெங் உருவாக்கும் கருவியில் வெளியிடத் தொடங்கியது; டூபாவோ ஒரு குறிப்பிடத்தக்க விநியோக சேனலாகும், மார்ச் மாதத்திற்குள் உலகளவில் 100 மில்லியன் மாதாந்திர செயலில் உள்ள பயனர்களை நெருங்கி, முதன்மையாக சீனாவில் ஒரு பெரிய சாத்தியமான பார்வையாளர்களை நிறுவுகிறது.
உரை மற்றும் உருவப்பட உருவாக்கத்தை மேம்படுத்துதல்
சீட்ரீம் 3.0 தன்னை வேறுபடுத்திக் காட்ட முயற்சிக்கும் ஒரு பகுதி அச்சுக்கலை ஆகும். தொழில்நுட்ப ஆவணங்கள், “நுண்ணிய அச்சுக்கலை உருவாக்கத்தை” மேம்படுத்துவதற்கான முயற்சிகளை எடுத்துக்காட்டுகின்றன, குறிப்பாக தொழில்முறை அச்சுக்கலை உருவாக்கத்திற்கு முக்கியமான சிக்கலான சீன எழுத்துக்களில் உரை-ரெண்டரிங் செய்வதற்கு.”
மாதிரியின் இருமொழி இலக்கு பார்வையாளர்களுக்கு இது குறிப்பிடத்தக்கது, ஏனெனில் துல்லியமான ரெண்டரிங், குறிப்பாக சிக்கலான ஸ்கிரிப்டுகள், பல பட AI களுக்கு ஒரு சவாலாக உள்ளது. உள் சோதனைகள் “சீன மற்றும் ஆங்கில எழுத்துக்களுக்கு 94% உரை கிடைக்கும் விகிதத்தைக் காட்டுகின்றன, இது பட உருவாக்கத்தில் ஒரு வரையறுக்கும் காரணியாக உரை ரெண்டரிங்கை திறம்பட நீக்குகிறது” என்று பைட் டான்ஸ் கூறுகிறது.
பைட் டான்ஸ் வழங்கிய காட்சி ஒப்பீடுகள், சீட்ரீம் 3.0 அடர்த்தியான உரை தளவமைப்புகளை, குறிப்பாக சீன எழுத்துருக்களுடன், GPT-4o இன் பட பயன்முறையை விட மிகவும் திறம்பட நிர்வகிக்கிறது (இது மார்ச் மாத இறுதியில் அதன் பட அம்சங்களை அறிமுகப்படுத்தியது), இருப்பினும் OpenAI இன் மாதிரி வலுவான உரை திறன்களைக் காட்டியது. அதிக விலை கொண்ட ரெவ் இமேஜ் 1.0 போன்ற பிற புதிய மாடல்களும் உரை ரெண்டரிங் தரத்தில் ஓரளவு போட்டியிடுவதால் இந்த கவனம் வருகிறது.
யதார்த்தமான மனித உருவப்படங்களை உருவாக்குவதில் மேம்பாடுகள் பைட் டான்ஸின் விளக்கக்காட்சியின் மையமாகும், “போர்ட்ரெய்ட் உருவாக்கத்தில் மேம்படுத்தப்பட்ட யதார்த்தம்” AI வெளியீடுகளில் சில நேரங்களில் காணப்படும் அதிகப்படியான மென்மையான அழகியலில் இருந்து விலகி, அதிக இயற்கையான தோல் அம்சங்களுடன் படங்களை உருவாக்குவதே இதன் நோக்கமாகும்.
பைட் டான்ஸால் குறிப்பிடப்பட்ட பயனர் விருப்பத்தேர்வு ஆய்வுகள் சீட்ரீம் 3.0 ஐ போர்ட்ரெய்ட் ரியலிசத்திற்கு மிகவும் உயர்த்தின, இது மிட்ஜர்னியின் V7 ஆல்பாவுடன் (சீட்ரீம் 3.0 இன் விவரங்கள் வெளிப்படுவதற்கு சற்று முன்பு அறிமுகமானது) ஒப்பிடுகிறது. 2K தெளிவுத்திறன் (2048×2048 பிக்சல்கள்) வரை படங்களை இயல்பாக வெளியிடும் சீட்ரீம் 3.0 இன் திறன், தனித்தனி அப்ஸ்கேலிங் படிகளை நம்பியிருக்கும் மாடல்களுடன் ஒப்பிடும்போது, சிறந்த அமைப்பு விவரங்களுக்கு பங்களிக்கும் காரணியாக வழங்கப்படுகிறது.
தொழில்நுட்ப அடித்தளங்கள் மற்றும் செயல்திறன் தரவு
பல தொழில்நுட்ப மேம்படுத்தல்கள் இந்த முன்னேற்றங்களுக்கு ஆதரவளிப்பதாகக் கூறப்படுகிறது. பயிற்சி தரவுத்தொகுப்பு அளவு கணிசமாக அதிகரிக்கப்பட்டது, ஓரளவுக்கு தரவை நிராகரிப்பதற்குப் பதிலாக சிறிய படக் குறைபாடுகளை மறைக்கும் “குறைபாடு-விழிப்புணர்வு” அணுகுமுறை மூலம்.
உரை-பட சீரமைப்பை மேம்படுத்துவதற்காக இங்கு நோக்கமாகக் கொண்ட சூழலின் அடிப்படையில் நிலைத் தகவலை சரிசெய்யும் ஒரு முறையான “குறுக்கு-மாதிரி RoPE” (ரோட்டரி நிலை உட்பொதித்தல்) போன்ற கலப்புத் தெளிவுத்திறன்கள் மற்றும் நுட்பங்களை பயிற்சி உள்ளடக்கியது. இந்த மாதிரி ஓட்டப் பொருத்த நோக்கங்கள் மற்றும் பிரதிநிதித்துவ சீரமைப்பு இழப்பையும் (REPA) பயன்படுத்துகிறது. பயனர் விருப்பங்களை சிறப்பாகப் பொருத்த, வலுவூட்டல் கற்றல் பெரிய பார்வை-மொழி மாதிரிகள் (VLMகள்) பயன்படுத்தப்பட்டது, இது 20 பில்லியனுக்கும் அதிகமான அளவுருக்கள் வரை வெகுமதி நடுவர்களாக அளவிடப்பட்டது.
பைட் டான்ஸின் கூற்றுப்படி, தலைமுறை வேகம் முடுக்கம் நுட்பங்களிலிருந்து பயனடைவதாகக் கூறப்படுகிறது, இதனால் சீட்ரீம் 3.0 தோராயமாக 3 வினாடிகளில் 1K தெளிவுத்திறன் படத்தை உருவாக்க முடியும் என்று பைட் டான்ஸ் தெரிவித்துள்ளது. ஆரம்ப பெஞ்ச்மார்க் முடிவுகள் Seedream 3.0 ஐ அதன் ஏப்ரல் 2025 நடுப்பகுதியில் அறிவிப்பின் போது Artificial Analysis Arena பயனர் விருப்ப லீடர்போர்டின் உச்சியில் வைத்தன, இருப்பினும் தரவரிசைகள் ஏற்ற இறக்கமாக இருக்கலாம்.
ByteDance இன் உள் சோதனைகள் வலுவான முடிவுகளைக் காட்டினாலும், பல்வேறு தூண்டுதல்களில் சுயாதீன சரிபார்ப்பு தேவை. ஆரம்பகால பயனர் கருத்து அதன் ஆரம்ப இலவச கிடைக்கும் தன்மை மற்றும் ஸ்டைலிஸ்டிக் வரம்பைக் குறிப்பிட்டது, ஆனால் குறிப்பு பட உள்ளீடு இல்லாதது போன்ற தொடக்க வரம்புகளையும் குறிப்பிட்டது.
SeedEdit பட எடிட்டிங் துறையில் நுழைகிறது
ஜெனரேட்டரை நிரப்புவது SeedEdit 1.6 ஆகும், இது உரை-விளையாட்டு அடிப்படையிலான பட எடிட்டிங்கை செயல்படுத்தும் ஒரு கருவியாகும், இதில் படங்களுக்குள் உரையை கையாளுதல் அடங்கும். Seed T2I மாதிரியில் கட்டமைக்கப்பட்டதாக அதிகாரப்பூர்வமாக விவரிக்கப்படுகிறது, இது GPT-4o வழியாக ChatGPT இல் ஒருங்கிணைக்கப்பட்ட அம்சங்களுடன் போட்டியிடுகிறது.
SeedEdit GPT-4o உடன் ஒப்பிடும்போது மாற்றங்களின் போது அசல் படத்தின் பண்புகளை சிறந்த முறையில் பாதுகாப்பதை வழங்குகிறது, குறிப்பாக உரை மாற்றம் போன்ற சிக்கலான பணிகளுக்கு. SeedEdit தயாரிப்பு நிலைப்படுத்தல் புகைப்படம் எடுத்தல், கலை மற்றும் மின் வணிகத்தில் தொழில்முறை பயன்பாடுகளை குறிவைக்கிறது. இந்த முன்னேற்றங்கள் நேர்மறையாக முன்வைக்கப்பட்டாலும், கூறப்படும் செயல்திறனை அடைவது பெரும்பாலும் சமரசங்களை உள்ளடக்கியது, இதில் கணக்கீட்டு கோரிக்கைகள் உட்பட, பரந்த தத்தெடுப்பு மற்றும் மூன்றாம் தரப்பு சோதனை மூலம் இது தெளிவாகும்.
மூலம்: Winbuzzer / Digpu NewsTex