মাইক্রোসফটের বহুমুখী MarkItDown টুল, বিভিন্ন ধরণের ফাইলকে LLM-বান্ধব Markdown-এ রূপান্তর করার জন্য একটি ওপেন-সোর্স পাইথন ইউটিলিটি, এখন মডেল কনটেক্সট প্রোটোকল (MCP) মেনে চলা একটি সার্ভার উপাদান অন্তর্ভুক্ত করে।
markitdown-mcp সাব-প্যাকেজে প্রকল্পের সংগ্রহস্থলের মধ্যে অবস্থিত এই সংযোজনটি AI এজেন্ট এবং MCP-এর সাথে সামঞ্জস্যপূর্ণ অ্যাপ্লিকেশনগুলিকে প্রোগ্রাম্যাটিকভাবে এবং একটি মানসম্মত উপায়ে টুলের রূপান্তর ক্ষমতা অ্যাক্সেস করতে দেয়।
ইন্টিগ্রেশনটি মডেল কনটেক্সট প্রোটোকল ব্যবহার করে, যা 2024 সালের শেষের দিকে অ্যানথ্রপিক থেকে উদ্ভূত একটি উন্মুক্ত মান। MCP একটি সাধারণ HTTP-ভিত্তিক ক্লায়েন্ট-সার্ভার আর্কিটেকচার সংজ্ঞায়িত করে AI মডেল এবং API বা স্থানীয় সরঞ্জামগুলির মতো বহিরাগত সংস্থানগুলির মধ্যে সংযোগ সহজ করার লক্ষ্য রাখে যেখানে AI অ্যাপ্লিকেশন (ক্লায়েন্ট) নির্দিষ্ট কার্যকারিতা প্রদানকারী বিভিন্ন সার্ভারের সাথে ইন্টারঅ্যাক্ট করতে পারে।
MCP গ্রহণ করে, MarkItDown AI এজেন্ট ওয়ার্কফ্লোতে সহজে একীকরণের জন্য ডিজাইন করা সরঞ্জামগুলির একটি ক্রমবর্ধমান ইকোসিস্টেমে যোগ দেয়, যা অ্যানথ্রপিকের ক্লড ডেস্কটপের মতো অ্যাপ্লিকেশনগুলিকে AWS এবং Pydantic-এর মতো প্রদানকারীদের অন্যান্য MCP-সক্ষম পরিষেবাগুলির সাথে সম্ভাব্যভাবে তার বৈশিষ্ট্যগুলি ব্যবহার করার অনুমতি দেয়।
ফাইল রূপান্তরকে AI টুল হিসেবে প্রকাশ করা
MIT লাইসেন্সের অধীনে প্রকাশিত অন্তর্নিহিত MarkItDown টুলটি MCP সার্ভারের মূল কার্যকারিতা প্রদান করে। MarkItDown বিভিন্ন ধরণের ফর্ম্যাট – যার মধ্যে রয়েছে Microsoft Office ডকুমেন্ট (.docx, .pptx, .xlsx), টেক্সট-ভিত্তিক PDF, HTML, JSON, XML, CSV, EPub ফাইল এবং এমনকি YouTube URL – – কে Markdown-এ রূপান্তর করতে সক্ষম।
কাঠামোগত স্পষ্টতা এবং টোকেন দক্ষতার কারণে এই ফর্ম্যাটটি AI ইন্টারঅ্যাকশনের জন্য পছন্দসই। MarkItDown MCP সার্ভার সম্ভবত AI এজেন্টদের ফাইল বা URL পাঠাতে এবং ফলস্বরূপ রূপান্তরিত Markdown টেক্সট গ্রহণ করতে দেয়, যদিও প্রদত্ত নির্দিষ্ট MCP “টুল”-এর উপর বিস্তারিত পাবলিক ডকুমেন্টেশন বর্তমানে সীমিত।
মাল্টি-মডেল কন্টেন্ট এবং PDF পরিচালনা করা
MarkItDown মাল্টি-মডেল প্রক্রিয়াকরণও অন্তর্ভুক্ত করে। এটি একটি কনফিগার করা LLM (যেমন gpt-4o) ব্যবহার করে ইমেজ EXIF ডেটা বের করতে পারে এবং বর্ণনা তৈরি করতে পারে। অডিও ফাইল ট্রান্সক্রিপশন speech_recognition লাইব্রেরির মাধ্যমে পরিচালিত হয়। যদিও MCP সার্ভার সম্ভবত এই ফাংশনগুলি প্রকাশ করে, ব্যবহারকারীদের বেস টুলের সীমাবদ্ধতা সম্পর্কে সচেতন থাকা উচিত, বিশেষ করে ইমেজ-ভিত্তিক PDF-এর জন্য বহিরাগত OCR-এর প্রয়োজনীয়তা এবং PDF রূপান্তরের সময় ফর্ম্যাটিংয়ের সাধারণ ক্ষতি, যা pdfminer.six লাইব্রেরির উপর নির্ভর করে।
কারিগরি প্রয়োজনীয়তা এবং ইকোসিস্টেম অ্যালাইনমেন্ট
মার্কইটডাউন টুল এবং এর MCP সার্ভার ব্যবহার করার জন্য পাইথন 3.10+ প্রয়োজন। যদিও বেস প্যাকেজে মূল লজিক রয়েছে, নির্দিষ্ট ফর্ম্যাট রূপান্তরগুলি ঐচ্ছিক নির্ভরতার উপর নির্ভর করে (যেমন, `mammoth`, `pandas`, `python-pptx`) যা পিপ এক্সট্রা (যেমন [docx], [xlsx]) এর মাধ্যমে ইনস্টল করা যায়। মার্চ মাসে 0.1.0 সংস্করণে প্রবর্তিত একটি প্লাগইন সিস্টেম আরও এক্সটেনশনের অনুমতি দেয়। বর্তমান সংস্করণটি 0.1.1।
একটি MCP সার্ভার সংযোজন MarkItDown কে AI এজেন্ট টুলিং সম্পর্কিত মাইক্রোসফ্টের বিস্তৃত কৌশলের সাথে সারিবদ্ধ করে। কোম্পানিটি পূর্বে Azure AI-তে MCP সমর্থন সংহত করেছে, প্রোটোকলের জন্য অফিসিয়াল C# SDK-তে সহযোগিতা করেছে এবং এপ্রিল মাসে মূল Azure পরিষেবাগুলির জন্য MCP সার্ভারের প্রিভিউ প্রকাশ করেছে। একটি MCP ইন্টারফেস প্রদানের ফলে MarkItDown-এর রূপান্তর ক্ষমতাগুলি সহজেই আবিষ্কারযোগ্য এবং মানসম্মত AI এজেন্ট কাঠামোর মধ্যে ব্যবহারযোগ্য হয়ে ওঠে।
সূত্র: Winbuzzer / Digpu NewsTex