செயற்கை நுண்ணறிவு மாதிரிகளை தரவரிசைப்படுத்தப் பயன்படுத்தப்படும் பிரபலமான கூட்ட நெரிசல் தளங்களின் நம்பகத்தன்மை மற்றும் நியாயத்தன்மை குறித்து கல்வியாளர்கள் மற்றும் AI நெறிமுறை நிபுணர்களின் வளர்ந்து வரும் குழு சந்தேகத்தை எழுப்புகிறது, இது OpenAI, Google மற்றும் Meta போன்ற தொழில்நுட்ப ஜாம்பவான்களால் பெருகிய முறையில் விரும்பப்படும் ஒரு முறையை நேரடியாக சவால் செய்கிறது.
இந்த விவாதத்தின் மையத்தில் LMArena உள்ளது, இது முன்னர் Chatbot Arena என்று அழைக்கப்பட்ட தளமாகும், அதன் நேரடி ஒப்பீட்டு அமைப்பு செல்வாக்கு மிக்கதாக மாறியுள்ளது, ஆனால் அதன் அறிவியல் அடிப்படை மற்றும் அதை இயக்கும் ஊதியம் பெறாத உழைப்பு பற்றிய கூர்மையான கேள்விகளை எதிர்கொள்கிறது, இது AI ஆராய்ச்சி சமூகம் முழுவதும் விவாதத்தைத் தூண்டுகிறது.
பின்னணி: ஆராய்ச்சி திட்டத்திலிருந்து நிதியளிக்கப்பட்ட தொடக்கத்திற்கு
LMArenaவின் அணுகுமுறை பயனர்கள் பெயரிடப்படாத இரண்டு AI மாதிரிகளுடன் தொடர்புகொள்வதையும் விருப்பமான வெளியீட்டைத் தேர்ந்தெடுப்பதையும் உள்ளடக்கியது. இந்த வாக்குகள் Elo மதிப்பீட்டு முறையைப் பயன்படுத்தி தரவரிசைகளை உருவாக்குகின்றன, இது சதுரங்கத்தில் பொதுவாகப் பயன்படுத்தப்படும் ஒரு முறையானது.
2023 ஆம் ஆண்டின் தொடக்கத்தில் UC பெர்க்லியின் ஸ்கை கம்ப்யூட்டிங் ஆய்வகத்துடன் தொடர்புடைய ஆராய்ச்சியாளர்களால் தொடங்கப்பட்ட பின்னர், இந்தப் பொது லீடர்போர்டு விரைவாக ஒரு செல்ல வேண்டிய வளமாக மாறியது, ஒரு மில்லியன் மாதாந்திர பார்வையாளர்களை ஈர்த்தது மற்றும் சோதனைக் களமாகச் செயல்பட்டது, சில சமயங்களில் வெளியிடப்படாத மாதிரிகளுக்கும் கூட.
வளங்களின் தேவையை உணர்ந்து, சமீபத்திய UC பெர்க்லி முதுகலை ஆய்வாளர்களான அனஸ்டாசியோஸ் ஏஞ்சலோபௌலோஸ் மற்றும் வெய்-லின் சியாங் தலைமையிலான கல்விக் குழு, UC பெர்க்லி பேராசிரியரும் குறிப்பிடத்தக்க தொழில்நுட்ப தொழில்முனைவோருமான அயன் ஸ்டோயிகா (டேட்டாபிரிக்ஸ் மற்றும் அனீஸ்கேலின் இணை நிறுவனர்) உடன் இணைந்து, ஏப்ரல் 18 அன்று அரினா இன்டலிஜென்ஸ் இன்க். ஐ நிறுவியது.
LMArena பிராண்டின் கீழ் செயல்படும் புதிய நிறுவனம், விரிவாக்கத்திற்கான நிதியைப் பெறுவதை நோக்கமாகக் கொண்டுள்ளது, “ஒரு நிறுவனமாக மாறுவது LMArenaவை இன்றைய நிலையை விட கணிசமாக மேம்படுத்துவதற்கான வளங்களை எங்களுக்கு வழங்கும்” என்று கூறுகிறது. இது கூகிளின் காகிள் தளம், துணிகர மூலதன நிறுவனமான ஆண்ட்ரீசென் ஹொரோவிட்ஸ் மற்றும் AI உள்கட்டமைப்பு நிறுவனமான டுகெதர் AI உள்ளிட்ட நிறுவனங்களின் மானியங்கள் மற்றும் நன்கொடைகளிலிருந்து ஆரம்ப ஆதரவைத் தொடர்ந்து வந்தது. இந்த இணைப்போடு இணைந்து, beta.lmarena.ai இல் ஒரு புதிய பீட்டா வலைத்தளம் தொடங்கப்பட்டது, இது வேகம் மற்றும் பயனர் அனுபவத்தை மேம்படுத்துவதில் கவனம் செலுத்தியது.
என்ன முக்கியம் என்பதை அளவிடுதல்? ஆய்வுக்கு உட்பட்ட செல்லுபடியாகும் தன்மை
LMArena இன் கூட்ட நெரிசல் வாக்களிப்பு உண்மையிலேயே அர்த்தமுள்ள மாதிரி குணங்களை மதிப்பிடுகிறதா அல்லது உண்மையான பயனர் விருப்பத்தை வலுவாக பிரதிபலிக்கிறதா என்பதை ஒரு மைய விமர்சனம் ஆராய்கிறது. வாஷிங்டன் பல்கலைக்கழக மொழியியல் பேராசிரியரான எமிலி பெண்டர், TechCrunch க்கு அளித்த அறிக்கையில், அளவுகோலின் அடிப்படை முறை குறித்த கவலைகளை எடுத்துரைத்தார்.
“செல்லுபடியாக இருக்க, ஒரு அளவுகோல் குறிப்பிட்ட ஒன்றை அளவிட வேண்டும், மேலும் அது கட்டமைப்பு செல்லுபடியாகும் தன்மையைக் கொண்டிருக்க வேண்டும் – அதாவது, ஆர்வத்தின் கட்டமைப்பு நன்கு வரையறுக்கப்பட்டுள்ளது என்பதற்கான சான்றுகள் இருக்க வேண்டும், மேலும் அளவீடுகள் உண்மையில் கட்டமைப்புடன் தொடர்புடையவை என்பதற்கான சான்றுகள் இருக்க வேண்டும்,” பெண்டர் வலியுறுத்தினார்.
LMArena-வின் முறை விருப்பங்களை திறம்பட கைப்பற்றுகிறது என்பதைக் காட்டும் ஆதாரங்கள் இல்லாததை அவர் குறிப்பிட்டார், “ஒரு வெளியீட்டை விட மற்றொன்றுக்கு வாக்களிப்பது உண்மையில் விருப்பங்களுடன் தொடர்புடையது என்பதை Chatbot Arena காட்டவில்லை, இருப்பினும் அவை வரையறுக்கப்படலாம்.” இந்த தற்போதைய விமர்சனங்கள், வாக்குகளின் அகநிலை, அதன் பயனர் தளத்தில் சாத்தியமான மக்கள்தொகை சார்புகள், தரவுத்தொகுப்பு வெளிப்படைத்தன்மை மற்றும் பல்வேறு மாதிரி வகைகளுக்கான மாறுபட்ட மதிப்பீட்டு நிலைமைகள் தொடர்பாக தளம் எதிர்கொள்ளும் தற்போதைய ஆய்வின் அடிப்படையில் கட்டமைக்கப்படுகின்றன.
முடிவுகள் எவ்வாறு விளக்கப்படலாம் அல்லது தவறாக சித்தரிக்கப்படலாம் என்பது பற்றிய கவலைகள் உள்ளன. AI நிறுவனமான Lesan-இன் இணை நிறுவனர் Asmelash Teka Hadgu, LMArena போன்ற தளங்களைப் பயன்படுத்தி “மிகைப்படுத்தப்பட்ட கூற்றுக்களை ஊக்குவிக்க” ஆய்வகங்கள் “ஒத்துழைக்கப்படலாம்” என்று பரிந்துரைத்தார். மெட்டாவின் Llama 4 Maverick மாதிரியைச் சுற்றியுள்ள சர்ச்சையை அவர் மேற்கோள் காட்டினார், அங்கு நிறுவனம் பொதுமக்களுக்கு வெளியிடப்பட்ட நிலையான பதிப்பை விட சிறப்பாகச் செயல்பட்டதாகக் கூறப்படும் ஒரு குறிப்பாக டியூன் செய்யப்பட்ட பதிப்பை தரப்படுத்தியதற்காக விமர்சிக்கப்பட்டது. பணம் செலுத்திய நிபுணர்களைப் பயன்படுத்தி, குறிப்பிட்ட தொழில்முறை களங்களுக்கு ஏற்றவாறு மாறும், சுயாதீனமாக நிர்வகிக்கப்படும் வரையறைகளை ஹட்கு ஆதரிக்கிறார்.
தன்னார்வ மதிப்பீட்டின் நெறிமுறைகள்
இந்த தளம் செலுத்தப்படாத பயனர் பங்களிப்புகளை நம்பியிருப்பது நெறிமுறை பரிசோதனையையும் ஈர்க்கிறது. ஆஸ்பென் நிறுவனத்தில் முன்பு பணியாற்றிய கிறிஸ்டின் குளோரியா, அடிக்கடி சுரண்டப்படும் தரவு லேபிளிங் துறைக்கு இணையாக இருந்தார், இது OpenAI போன்ற சில ஆய்வகங்கள் முன்பு கேள்விகளை எதிர்கொண்டது. பல்வேறு கண்ணோட்டங்களில் மதிப்பைக் காணும்போது, க்ரூட் சோர்சிங் செய்யப்பட்ட அளவுகோல்கள் “மதிப்பீட்டிற்கான ஒரே அளவீடாக ஒருபோதும் இருக்கக்கூடாது” என்றும் நம்பகத்தன்மையற்றதாக மாறும் அபாயம் உள்ளது என்றும் குளோரியா பராமரிக்கிறார்.
AI ரெட் டீமிங்கிற்கு க்ரூட் சோர்சிங்கைப் பயன்படுத்தும் கிரே ஸ்வான் AI இன் தலைமை நிர்வாக அதிகாரி மேட் ஃபிரெடெரிக்சன், பொது அளவுகோல்கள் உள் சோதனை மற்றும் கட்டண நிபுணர் பகுப்பாய்விற்கு “மாற்றாக இல்லை” என்று ஒப்புக்கொண்டார். “மாடல் டெவலப்பர்கள் மற்றும் பெஞ்ச்மார்க் படைப்பாளர்கள் இருவருக்கும், க்ரூட் சோர்சிங் செய்யப்பட்ட அல்லது வேறுவிதமாக, பின்தொடர்பவர்களுக்கு முடிவுகளைத் தெளிவாகத் தெரிவிப்பதும், அவர்கள் கேள்விக்குள்ளாக்கப்படும்போது பதிலளிக்கக்கூடியவர்களாக இருப்பதும் முக்கியம்,” ஃபிரெடெரிக்சன் அறிவுறுத்தினார்.
LMArena அதன் பங்கைப் பாதுகாத்து முன்னோக்கிப் பார்க்கிறது
LMArena இணை நிறுவனர் வெய்-லின் சியாங் சில குணாதிசயங்களுக்கு எதிராகத் தள்ளுகிறார், தளத்தின் நோக்கத்தை வித்தியாசமாக நிலைநிறுத்துகிறார். “எங்கள் சமூகம் இங்கே தன்னார்வலர்களாகவோ அல்லது மாதிரி சோதனையாளர்களாகவோ இல்லை,” சியாங் டெக் க்ரஞ்சிடம் கூறினார்.
“மக்கள் LM அரினாவைப் பயன்படுத்துகிறார்கள், ஏனென்றால் AI உடன் ஈடுபடவும் கூட்டு கருத்துக்களை வழங்கவும் அவர்களுக்கு ஒரு திறந்த, வெளிப்படையான இடத்தை நாங்கள் வழங்குகிறோம். லீடர்போர்டு உண்மையாக சமூகத்தின் குரலை பிரதிபலிக்கும் வரை, அது பகிரப்படுவதை நாங்கள் வரவேற்கிறோம்.”
அவர் அளவுகோல் சர்ச்சைகள் ஆய்வகங்கள் விதிகளை தவறாகப் புரிந்துகொள்வதற்குக் காரணம், உள்ளார்ந்த வடிவமைப்பு குறைபாடுகள் அல்ல, என்று குறிப்பிட்டார், LMArena நியாயத்திற்கான கொள்கைகளைப் புதுப்பித்துள்ளது. இணை நிறுவனர் அனஸ்டாசியோஸ் ஏஞ்சலோபௌலோஸ் அவர்களின் இலக்குகளுக்கு சூழலைச் சேர்த்து, “இணையத்தில் உள்ள அனைவரும் வந்து அரட்டையடிக்கவும் AI ஐப் பயன்படுத்தவும், வெவ்வேறு வழங்குநர்களை ஒப்பிடவும் மற்றும் பலவற்றைச் செய்யவும் இது ஒரு இடமாக இருக்கும் என்பதே எங்கள் பார்வை.” என்று கூறினார்.
இது நிறுவனத்தின் பொது அறிவிப்புடன் ஒத்துப்போகிறது: “எங்கள் லீடர்போர்டு எந்த வழங்குநரிடமும் (அல்லது எதிராக) ஒருபோதும் சார்புடையதாக இருக்காது, மேலும் வடிவமைப்பு மூலம் எங்கள் சமூகத்தின் விருப்பங்களை உண்மையாக பிரதிபலிக்கும். இது அறிவியல் சார்ந்ததாக இருக்கும்.”
அரீனா இன்டலிஜென்ஸ் இன்க். நிதியுதவியைத் தேடுகிறது மற்றும் அதன் வணிக மாதிரியை வரையறுக்கிறது – மதிப்பீடுகளுக்கு நிறுவனங்களுக்கு கட்டணம் வசூலிக்கும் திறன் கொண்டது – இது பெரிய மொழி மாதிரி ஒப்பீடுகளுக்கு அப்பால் பரந்த விரிவாக்கத்தையும் திட்டமிடுகிறது. குறிப்பிடப்பட்ட குறிப்பிட்ட முயற்சிகளில் WebDev Arena, RepoChat Arena மற்றும் Search Arena ஆகியவை அடங்கும், இதில் எதிர்காலத் திட்டங்கள் பார்வை மாதிரிகள், AI முகவர்கள் மற்றும் அர்ப்பணிப்புள்ள AI ரெட்-டீமிங் சூழல்களை இலக்காகக் கொண்டுள்ளன. மதிப்பீட்டு முறைகள் பற்றிய பரந்த தொழில்துறை விவாதத்தின் மத்தியில் இந்த விரிவாக்கம் வருகிறது, திறந்த சோதனை மட்டும் “போதுமானது அல்ல” என்று ஒப்புக்கொண்ட OpenRouter CEO அலெக்ஸ் அடல்லா போன்ற நபர்கள் ஒப்புக்கொண்ட ஒரு புள்ளி.
மூலம்: Winbuzzer / Digpu NewsTex