ওসাকা মেট্রোপলিটন ইউনিভার্সিটির একটি বৃহৎ বিশ্লেষণ অনুসারে, জেনারেটিভ এআই মডেলগুলি চিকিৎসা রোগ নির্ণয়ের ক্ষেত্রে অ-বিশেষজ্ঞ ডাক্তারদের সাথে ব্যবধান কমিয়ে আনছে, কিন্তু মানব বিশেষজ্ঞদের তুলনায় তারা যথেষ্ট কম নির্ভুল রয়ে গেছে। ডঃ হিরোতাকা তাকিতা এবং সহযোগী অধ্যাপক দাইজু উয়েদার নেতৃত্বে এই গবেষণায় চিকিৎসকদের সাথে এআই কর্মক্ষমতার তুলনা করার জন্য ৮৩টি গবেষণা পদ্ধতিগতভাবে পর্যালোচনা করা হয়েছে, যা ৫২.১% গড় এআই ডায়াগনস্টিক নির্ভুলতা প্রকাশ করেছে।
২২শে মার্চ নেচার-এ প্রকাশিত, মেটা-বিশ্লেষণটি জুন ২০১৮ সাল থেকে প্রকাশিত ১৮,০০০ টিরও বেশি গবেষণাপত্রের উপর ভিত্তি করে করা হয়েছে। এটি এআই-এর বিভিন্ন ধরণের মূল্যায়ন করেছে, যার মধ্যে রয়েছে GPT-4 এর মতো ব্যাপকভাবে অধ্যয়ন করা মডেল এবং Llama3 70B, Gemini 1.5 Pro, এবং Claude 3 Sonnet এর মতো বিশেষভাবে উল্লেখিত মডেলগুলি।
মূল তুলনাটি দেখায় যে এআই-এর ডায়াগনস্টিক কর্মক্ষমতা পরিসংখ্যানগতভাবে অ-বিশেষজ্ঞ ডাক্তারদের সাথে একই রকম ছিল, মানুষের পক্ষে মাত্র ০.৬% পার্থক্য ছিল। তবে, চিকিৎসা বিশেষজ্ঞরা স্পষ্ট অগ্রাধিকার বজায় রেখেছিলেন, নির্ভুলতার ক্ষেত্রে উল্লেখযোগ্য ১৫.৮% ব্যবধানে এআই মডেলগুলিকে ছাড়িয়ে গেছেন।
ক্ষেত্র এবং জটিলতার উপর নির্ভর করে কর্মক্ষমতা পরিবর্তিত হয়
এআই মডেলগুলি বিভিন্ন চিকিৎসা শাখায় পরিবর্তনশীল সাফল্য প্রদর্শন করেছে। তারা চর্মরোগবিদ্যায় বিশেষ শক্তি দেখিয়েছে, এমন একটি ক্ষেত্র যেখানে ভিজ্যুয়াল প্যাটার্ন স্বীকৃতি – বর্তমান এআই-এর একটি শক্তি – একটি বড় ভূমিকা পালন করে। তবুও, গবেষকরা সতর্ক করেছেন যে চর্মরোগবিদ্যাও ভিজ্যুয়াল মিলের বাইরে জটিল যুক্তির দাবি করে।
বিপরীতভাবে, ইউরোলজিতে এআই দক্ষতার পরামর্শ দেওয়া ফলাফলগুলি মূলত একটি বৃহৎ গবেষণা থেকে উদ্ভূত হওয়ার কারণে হ্রাস পেয়েছিল, যা সেই ফলাফলগুলিকে কতটা বিস্তৃতভাবে প্রয়োগ করা যেতে পারে তা সীমিত করে। সাধারণত, বিশ্লেষণে ইঙ্গিত দেওয়া হয়েছে যে জটিল কেসগুলির সাথে মোকাবিলা করার সময় এআই ব্যর্থ হয় যেখানে বিস্তৃত, বিস্তারিত রোগীর তথ্য ব্যাখ্যা করার প্রয়োজন হয়, এমন একটি ক্ষেত্র যেখানে বিশেষজ্ঞরা প্রায়শই অভিজ্ঞতা এবং সূক্ষ্ম ক্লিনিকাল যুক্তির মাধ্যমে শ্রেষ্ঠত্ব অর্জন করেন।
প্রতিস্থাপন নয়, সহকারী হিসেবে AI
বিশেষজ্ঞদের তুলনায় নির্ভুলতার ঘাটতি থাকা সত্ত্বেও, গবেষণাটি স্বাস্থ্যসেবা সহায়তা এবং প্রশিক্ষণে AI-এর সম্ভাব্য ভূমিকা তুলে ধরে। ওসাকা মেট্রোপলিটন ইউনিভার্সিটি, ১৮ এপ্রিল, ২০২৫ সালের এক বিবৃতিতে, সম্ভাবনা সম্পর্কে ডঃ তাকিতাকে উদ্ধৃত করেছে: “এই গবেষণাটি দেখায় যে জেনারেটিভ AI-এর ডায়াগনস্টিক ক্ষমতা অ-বিশেষজ্ঞ ডাক্তারদের সাথে তুলনীয়। এটি চিকিৎসা শিক্ষায় অ-বিশেষজ্ঞ ডাক্তারদের সমর্থন করার জন্য এবং সীমিত চিকিৎসা সম্পদের ক্ষেত্রে ডায়াগনস্টিকসে সহায়তা করার জন্য ব্যবহার করা যেতে পারে।”
এটি এমন একটি ভবিষ্যতের পরামর্শ দেয় যেখানে AI একটি পরিপূরক হাতিয়ার হিসেবে কাজ করে, সম্ভবত তাদের প্রতিস্থাপনের পরিবর্তে মানুষের ক্ষমতা বৃদ্ধি করে, চিকিৎসায় AI সম্পর্কে বিস্তৃত আলোচনায় একটি দৃষ্টিভঙ্গি প্রতিধ্বনিত হয় যেখানে সম্মিলিত মানব-AI কর্মক্ষমতা প্রায়শই একা অতিক্রম করে।
স্থায়ী বাধা: পক্ষপাত এবং স্বচ্ছতা
বিশ্লেষণে চিহ্নিত উল্লেখযোগ্য চ্যালেঞ্জগুলির দ্বারা AI-এর সম্ভাবনার প্রতি উৎসাহ ভারসাম্যপূর্ণ। একটি গুরুত্বপূর্ণ সমস্যা চিহ্নিত করা হয়েছে যা অনেক বাণিজ্যিক AI মডেলের জন্য ব্যবহৃত প্রশিক্ষণ তথ্যের স্বচ্ছতার অভাব। এই অস্বচ্ছতার কারণে সম্ভাব্য পক্ষপাত মূল্যায়ন করা বা বিভিন্ন রোগীর জনসংখ্যার মধ্যে একটি মডেলের কর্মক্ষমতা সাধারণীকরণ করা যেতে পারে কিনা তা নির্ধারণ করা কঠিন হয়ে পড়ে।
গবেষকরা উল্লেখ করেছেন যে একটি মডেলের জ্ঞান এবং সীমাবদ্ধতা বোঝার জন্য স্বচ্ছতা অপরিহার্য। PROBAST টুল ব্যবহার করে গুণমান মূল্যায়ন অন্তর্ভুক্ত গবেষণার 76% কে পক্ষপাতের উচ্চ ঝুঁকি হিসাবে চিহ্নিত করেছে, প্রায়শই ছোট পরীক্ষার ডেটাসেট ব্যবহার করে মূল্যায়ন বা বাহ্যিক বৈধতা মূল্যায়নকে প্রভাবিত করে AI এর প্রশিক্ষণ ডেটা সম্পর্কে অপর্যাপ্ত বিশদ থেকে উদ্ভূত হয়।
কিছু বিশেষজ্ঞ আরও উদ্বেগ প্রকাশ করেছেন যে সাধারণ স্বাস্থ্য রেকর্ডে প্রশিক্ষিত AI অসাবধানতাবশত ডেটাতে উপস্থিত ঐতিহাসিক মানব ডায়াগনস্টিক ত্রুটিগুলি শিখতে এবং প্রতিলিপি করতে পারে।
চিকিৎসা AI-এর জন্য অগ্রগতির পথ
বিশেষায়িত চিকিৎসা AI তৈরির প্রচেষ্টা অব্যাহত থাকাকালীন ওসাকা গবেষণাটি এসেছে, যা ২০২৪ সালের জুলাই মাসে প্রকাশিত বায়োপ্টিমাসের H-optimus-0 প্যাথলজি মডেলের মতো সরঞ্জাম দ্বারা উদাহরণিত। মেটা-বিশ্লেষণ একটি প্রয়োজনীয় মানদণ্ড প্রদান করে, যা মানব অনুশীলনকারীদের তুলনায় এই সরঞ্জামগুলি যে সাধারণ ডায়াগনস্টিক ক্ষমতা স্তরে পৌঁছাচ্ছে তা মূল্যায়ন করে।
সামনের দিকে তাকিয়ে, ডঃ তাকিতা আরও জটিল ক্লিনিকাল পরিস্থিতি এবং স্পষ্ট AI প্রক্রিয়াগুলির মাধ্যমে বৈধতার জন্য চলমান প্রয়োজনীয়তার উপর জোর দিয়েছেন: “আরও জটিল ক্লিনিকাল পরিস্থিতিতে মূল্যায়ন, প্রকৃত চিকিৎসা রেকর্ড ব্যবহার করে কর্মক্ষমতা মূল্যায়ন, AI সিদ্ধান্ত গ্রহণের স্বচ্ছতা উন্নত করা এবং বিভিন্ন রোগীর গোষ্ঠীতে যাচাইকরণের মতো আরও গবেষণা, AI-এর ক্ষমতা যাচাই করার জন্য প্রয়োজন।”
সূত্র: Winbuzzer / Digpu NewsTex