১৬ এপ্রিল আনুষ্ঠানিকভাবে o3 এবং o4-mini হিসাবে প্রকাশিত OpenAI-এর সর্বশেষ AI মডেলগুলি ফটোগ্রাফে চিত্রিত বাস্তব-বিশ্বের অবস্থানগুলি সনাক্ত করার জন্য একটি আকর্ষণীয় ক্ষমতা প্রদর্শন করছে, যা সহজ চিত্র স্বীকৃতির বাইরে জটিল ভৌগোলিক সিদ্ধান্তে চলে গেছে। নতুন মডেলগুলি পরীক্ষা করে ব্যবহারকারীদের দ্বারা দ্রুত লক্ষ্য করা গেছে, এই ক্ষমতাটি ব্যাপক অনলাইন আলোচনার সূত্রপাত করেছে, মূলত আপাতদৃষ্টিতে নিরীহ বহিরঙ্গন ছবি শেয়ার করার সাথে সম্পর্কিত সম্ভাব্য গোপনীয়তা ঝুঁকির উপর কেন্দ্রীভূত।
নতুন o3 এবং o4-মিনি মডেলগুলি উন্নত ভিজ্যুয়াল রিজনিং দ্বারা কৃতিত্বপ্রাপ্ত
সময় দৃঢ়ভাবে ইঙ্গিত দেয় যে এই ভূ-অবস্থান ক্ষমতাগুলি সরাসরি o3 এবং o4-মিনি রিলিজ থেকে এসেছে। OpenAI-এর ঘোষণায় হাইলাইট করা হয়েছে যে এই মডেলগুলির দৃশ্যমান উপলব্ধি উল্লেখযোগ্যভাবে উন্নত, যা তাদের “ভিজ্যুয়াল ইনপুট সম্পর্কে গভীরভাবে যুক্তি” করতে এবং চিত্র বিশ্লেষণের সাথে সম্পর্কিত কার্যগুলিতে ব্যতিক্রমীভাবে ভাল সম্পাদন করতে সক্ষম করে।
গুরুত্বপূর্ণভাবে, কোম্পানিটি মডেলদের চিন্তাভাবনা প্রক্রিয়ার সময় ছবির সাথে ইন্টারঅ্যাক্ট করার ক্ষমতা – জুমিং, ক্রপিং এবং রোটেটিং – বিস্তারিতভাবে বর্ণনা করেছে, যা ভৌগোলিক সূত্র সনাক্তকরণের জন্য একটি সম্ভাব্য চাবিকাঠি।
এই অগ্রগতি ChatGPT-এর মধ্যে মাল্টিমোডাল বৈশিষ্ট্যগুলির OpenAI-এর ধারাবাহিক বিকাশের অনুসরণ করে। ২০২৫ সালের জানুয়ারিতে GPT-4o-এর একটি পূর্ববর্তী আপডেট তার চিত্র বিশ্লেষণ এবং STEM যুক্তি উন্নত করার উপর দৃষ্টি নিবদ্ধ করে। সেই সময়ে, OpenAI ইঙ্গিত দেয় যে মডেলটি চিত্রগুলিতে স্থানিক সম্পর্ক ব্যাখ্যা করার ক্ষেত্রে আরও ভাল হয়ে উঠছে। পরে, মার্চ মাসে, চিত্র তৈরি এবং ইন্টারেক্টিভ সম্পাদনা সরঞ্জামগুলি প্ল্যাটফর্মে একীভূত করা হয়েছিল, যা পাঠ্য এবং ভিজ্যুয়াল ডেটা উভয় পরিচালনা করতে সক্ষম একটি হাতিয়ার হিসাবে ChatGPT-এর ভূমিকাকে আরও দৃঢ় করে তোলে।
ব্যবহারকারীর পরীক্ষা প্রতিশ্রুতি এবং সমস্যা দেখান
অনলাইন ফোরাম, বিশেষ করে একটি বহুল প্রচারিত হ্যাকার নিউজ থ্রেড যা ফেডিভার্সের একটি পোস্ট দ্বারা স্পার্ক করা হয়েছিল, দ্রুত নতুন মডেলগুলি পরীক্ষা করার জন্য ব্যবহারকারীর পরীক্ষায় পূর্ণ। “piegames”-এর মূল Fediverse পোস্টে সাহসের সাথে দাবি করা হয়েছিল, “GeoGuesser এখন একটি সমাধান করা সমস্যা।” তবে সম্প্রদায়ের দ্বারা ভাগ করা ফলাফলগুলি আরও জটিল চিত্র তুলে ধরে।
কিছু ব্যবহারকারী চমকপ্রদ নির্ভুলতা অর্জন করেছেন। একজন ChatGPT কেয়ার্নস, অস্ট্রেলিয়ার 200 মিটারের মধ্যে একটি রাস্তার দৃশ্যের দৃশ্য সনাক্ত করে দেখিয়েছেন, AI অস্থিরভাবে নির্দিষ্ট মন্তব্য যোগ করেছেন, “আমি কেয়ার্নস পাড়াগুলি অন্বেষণ করার সময় গুগল স্ট্রিট ভিউতে সেই সঠিক বাড়িটি আগে দেখেছি।”
অন্যরা ব্যক্তিগত ছবি থেকে সঠিক শহর সনাক্তকরণের রিপোর্ট করেছেন যা আগে অনলাইনে ছিল না। তবুও, অসংখ্য পরীক্ষায় উল্লেখযোগ্য ত্রুটি প্রকাশ পেয়েছে: মডেলগুলি মহাদেশগুলিকে বিভ্রান্ত করছে, প্রধান ল্যান্ডমার্কগুলিকে ভুল শনাক্ত করছে, হাজার হাজার কিলোমিটার দূরে ছবি স্থাপন করছে, অথবা আত্মবিশ্বাসের সাথে ভুল বিবরণ উদ্ভাবন করছে। নির্ভরযোগ্যতা অসঙ্গত বলে মনে হচ্ছে, “সমাধান করা সমস্যা” দাবির তুলনায় কম, বিশেষ করে যখন GeoGuessr চ্যাম্পিয়ন Rainbolt বা এমনকি নির্দিষ্ট পরিস্থিতিতে অন্যান্য AI সরঞ্জামগুলির সাথে তুলনা করা হয়।
আমার নিজস্ব পরীক্ষা চালানোর সময়, o3 বেশিরভাগ ক্ষেত্রেই সঠিকভাবে অবস্থান সনাক্ত করতে সক্ষম ছিল। যেখানে এটি ব্যর্থ হয়েছিল, সেখানে এটি কিছু ন্যূনতম বিবরণ চেয়েছিল এবং তারপর দ্বিতীয় মোড়ে সঠিক স্থানটি খুঁজে পেয়েছিল। এমনকি একটি এলোমেলো পাথর গঠনের নিম্নলিখিত ছবিটিও এটি স্পেনের স্বায়ত্তশাসিত অঞ্চলের দিকে ইঙ্গিত করার পরে সঠিকভাবে চিহ্নিত করেছে যেখানে এটি অবস্থিত, একটি গ্রামীণ রাস্তায় সঠিক রাস্তার অবস্থানের নামকরণ করেছে।
উচ্চতর নিরাপত্তা উদ্বেগের মধ্যে GeoGuessr কৌশল প্রতিধ্বনিত করা
এআই-এর স্পষ্ট পদ্ধতি – স্থাপত্য, সাইনেজ, গাছপালা এবং সম্ভবত ওয়েব অনুসন্ধানের মাধ্যমে ক্রস-রেফারেন্সিং ল্যান্ডমার্কের মতো ভিজ্যুয়াল সংকেত বিশ্লেষণ করা – জনপ্রিয় GeoGuessr গেমটিতে মানব খেলোয়াড়দের দ্বারা ব্যবহৃত মিরর কৌশল।
এই গেমটি খেলোয়াড়দের শুধুমাত্র Google Street View দ্বারা প্রদত্ত ভিজ্যুয়াল তথ্য ব্যবহার করে বিশ্বব্যাপী অবস্থানগুলি চিহ্নিত করার জন্য চ্যালেঞ্জ করে। যদিও AI এই বিষয়টি মোকাবেলা করা নতুন নয় – স্ট্যানফোর্ডের PIGEON মডেলটি 2023 সালে Rainbolt কে পিছনে ফেলেছিল বলে জানা গেছে, যদিও এর নির্মাতারা নিরাপত্তার কারণে এটি আটকে রেখেছিলেন, এবং GeoLLM এর মতো কাঠামো 2024 সালে ধারণাটি অন্বেষণ করেছিল – ChatGPT এর মতো একটি ব্যাপকভাবে অ্যাক্সেসযোগ্য প্ল্যাটফর্মে এটিকে একীভূত করার ফলে সমীকরণটি বদলে যায়।
ব্যবহারকারীদের দ্বারা উত্থাপিত এবং আলোচনা জুড়ে প্রতিধ্বনিত মূল উদ্বেগ হল শেয়ার করা ছবির জন্য “হুমকি মডেল” -এ পরিবর্তন। পূর্বে যা নিবেদিতপ্রাণ প্রচেষ্টা বা দক্ষতার প্রয়োজন ছিল তা এখন প্রায় যে কেউই অর্জন করতে পারে।
“PSA: যেকোনো বহিরঙ্গন ছবি পোস্ট করার সময়, আপনার হুমকি মডেলটি ‘দক্ষ এবং নিবেদিতপ্রাণ কেউ তাত্ত্বিকভাবে এটি খুঁজে পেতে পারে’ থেকে ‘যেকোনো স্টকার 20€/মাসে এটি করতে পারে’-এ আপডেট করুন”, একজন ব্যবহারকারী সতর্ক করেছেন। এই উদ্বেগ সম্পূর্ণ নতুন নয়; গোপনীয়তার সমর্থকরা ইতিমধ্যেই ছবি থেকে ভূ-অবস্থানের জন্য AI এর সম্ভাবনা সম্পর্কে সতর্কতা জারি করেছেন।
এই নতুন উদ্বেগের প্রতিক্রিয়ায়, OpenAI বৈশিষ্ট্যটির ইতিবাচক প্রয়োগ এবং বিদ্যমান সুরক্ষা ব্যবস্থার উপর জোর দিয়েছে। Mashable-এর রিপোর্ট অনুযায়ী, OpenAI-এর একজন মুখপাত্র বলেছেন: “OpenAI o3 এবং o4-mini ChatGPT-তে ভিজ্যুয়াল যুক্তি নিয়ে আসে, যা অ্যাক্সেসিবিলিটি, গবেষণা বা জরুরি প্রতিক্রিয়ার ক্ষেত্রে অবস্থান সনাক্তকরণের মতো ক্ষেত্রে এটিকে আরও সহায়ক করে তোলে। আমরা আমাদের মডেলগুলিকে ব্যক্তিগত বা সংবেদনশীল তথ্যের অনুরোধ প্রত্যাখ্যান করার জন্য প্রশিক্ষণ দেওয়ার জন্য কাজ করেছি, ছবিতে ব্যক্তিগত ব্যক্তিদের সনাক্তকরণ থেকে মডেলকে নিষিদ্ধ করার উদ্দেশ্যে সুরক্ষা ব্যবস্থা যুক্ত করেছি এবং গোপনীয়তার উপর আমাদের ব্যবহার নীতির অপব্যবহারের জন্য সক্রিয়ভাবে পর্যবেক্ষণ এবং ব্যবস্থা গ্রহণ করেছি।”
এই ব্যবস্থাগুলি সত্ত্বেও, এই ধরনের শক্তিশালী, অ্যাক্সেসযোগ্য AI ক্ষমতার দ্রুত উত্থান নিশ্চিত করে যে প্রযুক্তিগত অগ্রগতি এবং ব্যক্তিগত সুরক্ষার ভারসাম্য বজায় রাখার বিষয়ে সংলাপ তীব্রতর হবে।
সূত্র: Winbuzzer / Digpu NewsTex