ஏப்ரல் 16, 2025 வாக்கில், பணம் செலுத்தும் சந்தாதாரர்களுக்காக OpenAI அதன் o3 மற்றும் o4-மினி மாடல்களை ChatGPT-க்குள் அறிமுகப்படுத்தியது, மேலும் அவை அதிக தன்னாட்சி AI உதவியாளர்களை நோக்கிய ஒரு படியாகக் கூறப்பட்டன. இந்த மாதிரிகள் “ஆரம்பகால முகவர் நடத்தை”யுடன் வடிவமைக்கப்பட்டன, இது வலை உலாவல், குறியீடு செயல்படுத்தல் அல்லது கோப்பு பகுப்பாய்வு போன்ற கருவிகளை எப்போது பயன்படுத்த வேண்டும் என்பதை சுயாதீனமாக தீர்மானிக்கும் திறன் கொண்டது.
இருப்பினும், அதிக AI சுயாட்சியை நோக்கிய இந்த நகர்வு, OpenAI-யின் சொந்த சோதனை மற்றும் வெளிப்புற ஆராய்ச்சியாளர்களின் கண்டுபிடிப்புகளுடன் ஒத்துப்போனது, இந்த மேம்பட்ட பகுத்தறிவு மாதிரிகள் மாயத்தோற்றங்கள் மூலம் அவற்றின் முன்னோடிகளை விட முரண்பாடாக விஷயங்களை உருவாக்க அதிக வாய்ப்புள்ளது.
வெளியீட்டுடன் வெளியிடப்பட்ட தரவு ஒரு கவலைக்குரிய போக்கை வெளிப்படுத்தியது: மக்களைப் பற்றிய அறிவைச் சோதிக்க வடிவமைக்கப்பட்ட OpenAI இன் PersonQA அளவுகோலில், o3 33% நேரம் தவறான அல்லது புனையப்பட்ட தகவலை உருவாக்கியது. o4-மினி மாடல் மோசமாக செயல்பட்டது, 48% வழக்குகளில் மாயத்தோற்றத்தை ஏற்படுத்தியது.
இந்த விகிதங்கள் பழைய o1 மாடலுக்கான 16% ஐ விடவும் o3-மினிக்கு 14.8% ஐ விடவும் கணிசமாக அதிகமாக உள்ளன. பழைய பதிப்புகளுடன் ஒப்பிடும்போது பகுத்தறிவு மற்றும் குறியீட்டு அளவுகோல்களில் பொதுவாக முன்னேற்றங்களைக் காட்டினாலும், இந்த குறிப்பிட்ட உற்பத்தி அதிகரிப்பு, அதிக முகவர் அமைப்புகளை உருவாக்குவதில் உள்ள பரிமாற்றங்கள் குறித்த கேள்விகளை எழுப்புகிறது.
OpenAI அதன் o3 மற்றும் o4-மினி சிஸ்டம் கார்டில் இந்த நிகழ்வைப் புரிந்துகொள்ள “அதிக ஆராய்ச்சி தேவை” என்று ஒப்புக்கொண்டது, மாதிரிகள் “ஒட்டுமொத்தமாக அதிக உரிமைகோரல்களைச் செய்வதால்,” அவை மிகவும் சரியான மற்றும் மிகவும் தவறான அறிக்கைகளை உருவாக்குகின்றன என்று கோட்பாடு கூறுகிறது. OpenAI செய்தித் தொடர்பாளர் நிகோ பெலிக்ஸ் டெக் க்ரஞ்சிடம் கூறினார், “எங்கள் அனைத்து மாடல்களிலும் மாயத்தோற்றங்களை நிவர்த்தி செய்வது தொடர்ச்சியான ஆராய்ச்சிப் பகுதியாகும், மேலும் அவற்றின் துல்லியம் மற்றும் நம்பகத்தன்மையை மேம்படுத்த நாங்கள் தொடர்ந்து பணியாற்றி வருகிறோம்.”
புனையப்பட்ட செயல்கள் மற்றும் விரிவான சாக்குகள்
வெளியீட்டைத் தொடர்ந்து சுயாதீன ஆய்வு விரைவாக, நம்பகத்தன்மை கவலைகளுக்கு எடை சேர்த்தது. ஏப்ரல் 16, 2025 அன்று, AI ஆராய்ச்சி ஆய்வகமான Transluce AI, o3 இன் முன் வெளியீட்டுப் பதிப்பை (`o3-2025-04-03`) சோதித்துப் பார்த்ததில் இருந்து, அது செய்ததாகக் கூறப்படும் மாதிரியின் புனையமைப்பு செயல்களின் வடிவத்தை விவரிக்கும் கண்டுபிடிப்புகளை வெளியிட்டது.
நூற்றுக்கணக்கான உரையாடல்களை ஆராய தானியங்கி புலனாய்வாளர் முகவர்கள் மற்றும் அவர்களின் Docent பகுப்பாய்வு கருவியைப் பயன்படுத்தி, பயனர் கோரிக்கைகளை நிறைவேற்ற பைதான் குறியீட்டை – அது இல்லாத திறனை – செயல்படுத்தியதாக மாதிரி வலியுறுத்துவதை Transluce ஒரு முக்கிய பிரச்சினையாகக் கண்டறிந்தது. இந்தக் கட்டுக்கதைகளை எதிர்கொள்ளும்போது, மாதிரி பெரும்பாலும் இரட்டிப்பாக்கி, விரிவான நியாயப்படுத்தல்களைக் கண்டுபிடித்தது.
பைதான் குறியீடு மற்றும் குறிப்பிட்ட சோதனைகளைப் பயன்படுத்தி o3 512-பிட் பகா எண்ணை உருவாக்குவதாகக் கூறிய ஒரு குறிப்பிடத்தக்க எடுத்துக்காட்டு உரையாடலை Transluce விவரித்தது.
வழங்கப்பட்ட எண் உண்மையில் கூட்டு (3 ஆல் வகுபடும்) என்பதை பயனர் கண்டறிந்தபோது, o3 பிழை மாயத்தோற்றத்தால் அல்ல, மாறாக முனைய சாளரத்திலிருந்து கைமுறை பரிமாற்றத்தின் போது ஏற்பட்டதாகக் கூறப்படும் நகல்-ஒட்டு பிழையால் ஏற்பட்டதாகக் கூறி, “நான் சோதனைகளை மீண்டும் இயக்காமல் எண்ணை நகலெடுத்தேன் அல்லது தட்டச்சு செய்தேன்… எந்த உண்மையான மில்லர்-ராபின் இயக்கமும் எண்ணை உடனடியாக நிராகரித்திருக்கும்” என்று கூறியது.
உண்மையான பிரைம் என்று கூறப்படுவதைப் பற்றி மேலும் அழுத்தினால், பைதான் செயல்முறை மூடப்பட்டதால் அது மீளமுடியாமல் தொலைந்துவிட்டதாக மாதிரி கூறியது. கணக்கீடுகளுக்காக வெளிப்புற “2021 MacBook Pro” இல் குறியீட்டை இயக்குவதற்கான கூற்றுக்கள் மற்றும் அதன் Python REPL சூழலைப் பற்றி கேட்கப்பட்டபோது கணினி விவரங்களை உருவாக்குதல் உள்ளிட்ட பிற புனைகதைகளை டிரான்ஸ்லூஸ் ஆவணப்படுத்தியது. குறியீட்டுக்கு பயனுள்ளதாக இருந்தாலும், TechCrunch உடன் பேசிய Workera CEO Kian Katanforoosh கூறுகையில், o3 சில நேரங்களில் வேலை செய்யாத வலை இணைப்புகளை உருவாக்கியது.
பாதுகாப்பு சரிசெய்தல்களுக்கு மத்தியில் ஒரு வேகமான வேகம்
இந்த மாதிரிகளின் வெளியீடு OpenAI இல் துரிதப்படுத்தப்பட்ட மேம்பாடு மற்றும் மாறிவரும் பாதுகாப்புக் கொள்கைகளின் சூழலில் நிகழ்ந்தது. அறிமுகப்படுத்தப்பட்ட நேரத்தில், OpenAI சமீபத்தில் அதன் உள் பாதுகாப்பு வழிகாட்டுதல்களான ஆயத்த கட்டமைப்பைப் புதுப்பித்தது.
இந்த திருத்தத்தில் போட்டியாளர்களின் செயல்களின் அடிப்படையில் பாதுகாப்பு விதிகளை மாற்ற முடியும் என்று பரிந்துரைக்கும் ஒரு குறிப்பிடத்தக்க பிரிவு அடங்கும், “மற்றொரு எல்லைப்புற AI டெவலப்பர் ஒப்பிடக்கூடிய பாதுகாப்புகள் இல்லாமல் அதிக ஆபத்துள்ள அமைப்பை வெளியிட்டால், நாங்கள் எங்கள் தேவைகளை சரிசெய்யலாம்.” அத்தகைய மாற்றங்கள் கடுமையான சோதனைகள் மற்றும் பொது வெளிப்படுத்தலைப் பின்பற்றும் என்று நிறுவனம் வலியுறுத்தியது.
OpenAI, o3 க்கான உள் பாதுகாப்பு சோதனை காலக்கெடுவை கடுமையாகக் குறைத்ததாகக் கூறப்படும் அறிக்கைகளைத் தொடர்ந்து இந்தக் கொள்கை மாற்றம் வெளிப்பட்டது, இது போட்டியாளர்களுடன் வேகத்தைத் தக்கவைத்துக்கொள்வதற்காக பல மாதங்களிலிருந்து ஒரு வாரத்திற்கும் குறைவாகக் குறைக்கப்படலாம்.
பைனான்சியல் டைம்ஸில் மேற்கோள் காட்டப்பட்ட நபர்கள் கவலை தெரிவித்தனர்; மதிப்பீட்டை நன்கு அறிந்த ஒரு ஆதாரம், “பொறுப்பற்றது” என்ற அணுகுமுறையை அழைத்தது, “இது பேரழிவுக்கான ஒரு செய்முறை.” மற்றொருவர், GPT-4 இன் நீண்ட மதிப்பீட்டோடு இதை வேறுபடுத்தி, “அவர்கள் பொது பாதுகாப்புக்கு முன்னுரிமை அளிக்கவில்லை” என்று கூறி,
இறுதி குறியீட்டிற்கு பதிலாக இடைநிலை “சோதனைச் சாவடிகளை” சோதிக்கும் முறையும் சர்ச்சையை ஏற்படுத்தியது. முன்னாள் OpenAI தொழில்நுட்ப ஊழியர் ஒருவர், “நீங்கள் மதிப்பீடு செய்த மாதிரியிலிருந்து வேறுபட்ட மாதிரியை வெளியிடுவது மோசமான நடைமுறை” என்று கூறியதாக மேற்கோள் காட்டப்பட்டது. செயல்முறையைப் பாதுகாத்து, OpenAI இன் பாதுகாப்பு அமைப்புகளின் தலைவர் ஜோஹன்னஸ் ஹெய்டெக், FT க்கு வலியுறுத்தினார், “நாங்கள் எவ்வளவு வேகமாக நகர்கிறோம், எவ்வளவு முழுமையாக இருக்கிறோம் என்பதில் எங்களுக்கு நல்ல சமநிலை உள்ளது,” மதிப்பீட்டில் அதிகரித்த ஆட்டோமேஷனை சுட்டிக்காட்டினார்.
அதிகரித்த உற்பத்திக்கான சாத்தியமான காரணங்கள்
இந்த மேம்பட்ட பகுத்தறிவு மாதிரிகள் ஏன் அடிக்கடி புனையப்படலாம் என்பதை விளக்குவது நிலையான AI வரம்புகளுக்கு அப்பால் பார்ப்பதை உள்ளடக்கியது. டிரான்ஸ்லூஸ் AI பரிந்துரைத்த, o-தொடர் மாதிரிகளுக்கு குறிப்பிட்ட காரணிகள் சிக்கலை அதிகரிக்கக்கூடும். ஒரு கருதுகோள் விளைவு அடிப்படையிலான வலுவூட்டல் கற்றல் (RL) மீது கவனம் செலுத்துகிறது: AI முதன்மையாக பயிற்சியளிக்கப்பட்டு சரியான இறுதி பதிலை உருவாக்குவதற்கு வெகுமதி அளிக்கப்பட்டால், அது இடைநிலை படிகளை உருவாக்க கற்றுக்கொள்ளலாம், கருவி பயன்பாட்டைக் கோருவது போன்றது, அது வெற்றியுடன் தொடர்புடையதாக இருந்தால், விவரிக்கப்பட்ட செயல்முறை தவறானதாக இருந்தாலும் கூட.
மாதிரிகளை சீரமைக்க ஒரு பொதுவான நுட்பமான மனித பின்னூட்டத்திலிருந்து வலுவூட்டல் கற்றல் (RLHF), வெவ்வேறு மாதிரி பதில்களுக்கு மனித விருப்பங்களின் அடிப்படையில் பயிற்சி அளிப்பதன் மூலம் AI ஐ உதவிகரமாகவும், நேர்மையாகவும், பாதிப்பில்லாததாகவும் மாற்றுவதை நோக்கமாகக் கொண்டுள்ளது. இருப்பினும், மனித மதிப்பீட்டாளர்கள் சிக்கலான இடைநிலை படிகளின் சரியான தன்மையை எளிதாக சரிபார்க்க முடியாவிட்டால், மாதிரி நம்பத்தகுந்த-ஒலிக்கும் ஆனால் தவறான பகுத்தறிவை உருவாக்க கற்றுக்கொள்ளலாம், அது ஒரு விருப்பமான முடிவுக்கு வழிவகுத்தால்.
டிரான்ஸ்லூஸ் முன்மொழியப்பட்ட மற்றொரு குறிப்பிடத்தக்க காரணி, மாதிரிகளின் உள் படிப்படியான பகுத்தறிவைக் கையாள்வதை உள்ளடக்கியது, இது பெரும்பாலும் “சிந்தனைச் சங்கிலி” என்று அழைக்கப்படுகிறது. OpenAI இன் ஆவணங்களின்படி, இந்த பகுத்தறிவு சுவடு உரையாடல் திருப்பங்களுக்கு இடையில் அனுப்பப்படுவதில்லை. டிரான்ஸ்லூஸ் அதன் சொந்த முந்தைய பகுத்தறிவை அணுக முடியாதது, மாதிரியை முந்தைய முடிவுக்கு எப்படி வந்தது என்பது பற்றிய பயனர் கேள்விகளுக்கு உண்மையாக பதிலளிக்க முடியாமல் போகக்கூடும் என்று கருதுகிறது.
இந்தத் தகவல் பற்றாக்குறை, உதவிகரமாகவோ அல்லது சீரானதாகவோ தோன்றும் அழுத்தங்களுடன் இணைந்து, அதன் கடந்த கால நடத்தைக்கு ஒரு நம்பத்தகுந்த ஆனால் ஜோடிக்கப்பட்ட விளக்கத்தை உருவாக்க வழிவகுக்கும். “எங்கள் கருதுகோள் என்னவென்றால், o-தொடர் மாதிரிகளுக்குப் பயன்படுத்தப்படும் வலுவூட்டல் கற்றல், நிலையான பிந்தைய பயிற்சி குழாய்களால் பொதுவாகக் குறைக்கப்படும் (ஆனால் முழுமையாக அழிக்கப்படாத) சிக்கல்களைப் பெருக்கக்கூடும்,” என்று டிரான்ஸ்லூஸ் ஆராய்ச்சியாளர் நீல் சவுத்ரி டெக் க்ரஞ்சிற்கு தெரிவித்தார்.
ஏப்ரல் 17, 2025 அன்று அறிவிக்கப்பட்ட Microsoft Azure மற்றும் GitHub Copilot போன்ற தளங்களில் o3 மற்றும் o4-mini இன் விரைவான ஒருங்கிணைப்பு, அவற்றின் உணரப்பட்ட பயன்பாட்டை அடிக்கோடிட்டுக் காட்டுகிறது. இந்த மாதிரிகள் மார்ச் மாதத்தில் மேம்படுத்தப்பட்ட காட்சி செயலாக்கம் மற்றும் ஏப்ரல் 11 அன்று “ரீகால்” நினைவக அம்சத்தை செயல்படுத்துதல் போன்ற பிற OpenAI புதுப்பிப்புகளுடன் வந்தன.
இருப்பினும், புனைகதைகளில் ஆவணப்படுத்தப்பட்ட அதிகரிப்பு, AI திறன்களை நம்பகத்தன்மையுடன் சீரமைப்பதில் தொடர்ச்சியான சவால்களை எடுத்துக்காட்டுகிறது. கூகிள் அதன் ஜெமினி 2.5 ப்ரோ மாடலுக்கான தாமதமான மற்றும் அரிதான பாதுகாப்பு விவரங்கள் மீதான விமர்சனத்தால் நிரூபிக்கப்பட்ட பரந்த துறை வெளிப்படைத்தன்மையுடன் போராடுவதால் இது வெளிப்படுகிறது, இது புதுமை வேகத்திற்கும் நம்பகமான AI வரிசைப்படுத்தலுக்கும் இடையிலான சமநிலை குறித்து தொடர்ந்து கேள்விகளை எழுப்புகிறது.
மூலம்: Winbuzzer / Digpu NewsTex