اکوسیستم هوش مصنوعی پزشکی چندوجهی
اکوسیستم هوش مصنوعی پزشکی چندوجهی

ادغام معماری‌های عامل پیشرفته MONAI برای ایجاد اکوسیستم هوش مصنوعی پزشکی چندوجهی

حجم رو به رشد و پیچیدگی داده‌های پزشکی—و نیاز مبرم به تشخیص زودهنگام بیماری و بهبود کارایی مراقبت‌های بهداشتی—پیشرفت‌های بی‌سابقه‌ای را در هوش مصنوعی پزشکی رقم زده است. از جمله تحول‌آفرین‌ترین نوآوری‌ها در این زمینه، مدل‌های هوش مصنوعی چندوجهی هستند که به طور همزمان متن، تصاویر و ویدئو را پردازش می‌کنند. این مدل‌ها درک جامع‌تری از داده‌های بیمار نسبت به سیستم‌های سنتی تک‌وجهی ارائه می‌دهند.

MONAI، سریع‌ترین چارچوب منبع باز در حال رشد برای تصویربرداری پزشکی، در حال تکامل است تا مدل‌های چندوجهی قوی را ادغام کند که قرار است گردش‌های کاری بالینی و دقت تشخیصی را متحول کند. در طول پنج سال گذشته، MONAI به یک پلتفرم پیشرو در هوش مصنوعی پزشکی و چارچوب بالفعل برای تحقیقات هوش مصنوعی تصویربرداری تبدیل شده است. این پلتفرم بیش از 4.5 میلیون بار دانلود شده و در بیش از 3000 مقاله منتشر شده ظاهر شده است.

این پست توضیح می‌دهد که چگونه MONAI با استفاده از هوش مصنوعی عامل پیشرفته (استدلال مستقل و مبتنی بر گردش کار) در حال گسترش فراتر از تصویربرداری به یک اکوسیستم چندوجهی است. این اکوسیستم داده‌های متنوع مراقبت‌های بهداشتی—از سی‌تی اسکن و ام‌آر‌آی گرفته تا سوابق الکترونیکی سلامت (EHR) و مستندات بالینی—را ادغام می‌کند تا توسعه تحقیقات و نوآوری را در حوزه‌های رادیولوژی، جراحی و آسیب‌شناسی هدایت کند.

MONAI Multimodal: پل زدن بین سیلوهای داده‌های مراقبت‌های بهداشتی

با متنوع‌تر و پیچیده‌تر شدن داده‌های پزشکی، نیاز به راه‌حل‌های جامعی که منابع داده ناهمگون را متحد کنند، بیش از هر زمان دیگری احساس می‌شود. MONAI Multimodal نشان‌دهنده تلاشی متمرکز برای گسترش فراتر از تجزیه و تحلیل تصویربرداری سنتی به یک اکوسیستم تحقیقاتی یکپارچه است. این پلتفرم داده‌های متنوع مراقبت‌های بهداشتی—از جمله سی‌تی اسکن، ام‌آر‌آی، اشعه ایکس، سونوگرافی، سوابق الکترونیکی سلامت، مستندات بالینی، استانداردهای DICOM، جریان‌های ویدئویی و تصویربرداری تمام لام (whole slide imaging)—را ترکیب می‌کند تا تجزیه و تحلیل چندوجهی را برای محققان و توسعه‌دهندگان امکان‌پذیر سازد.

بهبودهای کلیدی عبارتند از:

  • چارچوب هوش مصنوعی عامل: از عوامل مستقل برای استدلال چند مرحله‌ای در سراسر تصاویر و متن استفاده می‌کند.
  • مدل‌های LLM و VLM تخصصی: مدل‌های سفارشی‌سازی شده برای کاربردهای پزشکی که از ادغام داده‌های بین‌وجهی پشتیبانی می‌کنند.
  • اجزای Data IO: ادغام خواننده‌های متنوع Data IO از جمله:
    • DICOM برای تصویربرداری پزشکی (به عنوان مثال، سی‌تی اسکن و ام‌آر‌آی)
    • EHR برای داده‌های بالینی ساختاریافته و بدون ساختار
    • ویدئو برای ضبط‌های جراحی و تصویربرداری پویا
    • WSI برای تصاویر پاتولوژی بزرگ و با وضوح بالا
    • متن برای یادداشت‌های بالینی و سایر داده‌های متنی
    • تصاویر (PNG، JPEG، BMP) برای اسلایدهای پاتولوژی یا تصاویر ثابت

پلتفرم Monai Multimodal دارای هوش مصنوعی عامل پیشرفته است که از عوامل مستقل برای استدلال چند مرحله‌ای در سراسر تصاویر و متن و همچنین مدل‌های LLM و VLM تخصصی استفاده می‌کند. این مدل‌ها برای کاربردهای پزشکی طراحی شده‌اند و ادغام داده‌های بین‌وجهی را ساده می‌کنند. این اکوسیستم مشارکتی شامل NVIDIA، مؤسسات تحقیقاتی برتر، سازمان‌های مراقبت‌های بهداشتی و مراکز دانشگاهی است. این رویکرد یکپارچه با ارائه یک چارچوب سازگار و قابل تکرار برای نوآوری در هوش مصنوعی پزشکی، تحقیقات را تسریع می‌کند و همکاری بالینی را بهبود می‌بخشد.

تیم دیر، دکتر رادیولوژیست و شریک مدیریتی در RadImageNet می‌گوید: «با ادغام جریان‌های داده متنوع از طریق مدل‌های چندوجهی پیشرفته، ما فقط دقت تشخیصی را بهبود نمی‌بخشیم—بلکه اساساً نحوه تعامل پزشکان با داده‌های بیمار را متحول می‌کنیم. این نوآوری راه را برای تصمیم‌گیری سریع‌تر و مطمئن‌تر در مراقبت‌های بهداشتی هموار می‌کند.»

بلوک‌های سازنده MONAI Multimodal برای یک پلتفرم تحقیقاتی یکپارچه هوش مصنوعی پزشکی چیست؟

به عنوان بخشی از ابتکار گسترده‌تر، چارچوب MONAI Multimodal شامل چندین جزء اصلی است که برای پشتیبانی از استدلال و ادغام بین‌وجهی طراحی شده‌اند.

چارچوب عامل

چارچوب عامل یک معماری مرجع برای استقرار و سازماندهی عوامل هوش مصنوعی چندوجهی است که استدلال چند مرحله‌ای را با ادغام داده‌های تصویر و متن با منطق انسان‌مانند امکان‌پذیر می‌سازد. این چارچوب از گردش‌های کاری سفارشی از طریق پردازش مبتنی بر عامل قابل تنظیم پشتیبانی می‌کند و با پل زدن بین اجزای بینایی و زبان به آسانی، پیچیدگی ادغام را کاهش می‌دهد.

معماری عامل MONAI استدلال بین‌وجهی را برای هوش مصنوعی پزشکی با استفاده از یک طراحی ماژولار امکان‌پذیر می‌کند. این معماری دارای یک موتور ارکستراسیون مرکزی است که عوامل تخصصی را هماهنگ می‌کند (به عنوان مثال، چارچوب عامل رادیولوژی و چارچوب عامل جراحی)، رابط‌هایی برای استقرار مداوم و یک لایه استدلال و تصمیم‌گیری که خروجی‌های استاندارد شده را ارائه می‌دهد (شکل 1).

معماری عامل MONAI
<em>شکل 1. معماری عامل MONAI</em>

مدل‌های پایه و مشارکت‌های جامعه

پلتفرم MONAI Multimodal توسط مجموعه‌ای از مدل‌های پیشرفته تغذیه می‌شود که چارچوب‌های تحت رهبری NVIDIA را با نوآوری‌های شرکای جامعه ترکیب می‌کند، همانطور که در زیر شرح داده شده است.

چارچوب‌های تحت رهبری NVIDIA

چارچوب‌های تحت رهبری NVIDIA شامل موارد زیر است.

چارچوب عامل رادیولوژی (چارچوب عامل رادیولوژی چندوجهی): یک چارچوب عامل متمرکز بر رادیولوژی که تصاویر پزشکی را با داده‌های متنی ترکیب می‌کند تا به رادیولوژیست‌ها در تشخیص و تفسیر کمک کند.

ویژگی‌های کلیدی:

  • ادغام تصویربرداری سه بعدی CT/MR با داده‌های EHR بیمار
  • استفاده از مدل‌های زبانی بزرگ (LLM) و مدل‌های دید زبانی (VLM) برای تجزیه و تحلیل جامع
  • دسترسی به مدل‌های تخصصی متخصص در صورت تقاضا (VISTA-3D، MONAI BraTS، TorchXRayVision)
  • ساخته شده با Meta Llama 3
  • پردازش جریان‌های داده متعدد برای خروجی‌های دقیق
  • انجام وظایف استدلال پیچیده با تقسیم مسائل به مراحل قابل مدیریت
چارچوب عامل رادیولوژی
<em>شکل 2. چارچوب عامل رادیولوژی</em>

چارچوب عامل جراحی (چارچوب عامل جراحی چندوجهی)

چارچوب عامل جراحی (چارچوب عامل جراحی چندوجهی): ترکیبی سفارشی از VLMها و تولید تقویت‌شده بازیابی (RAG) که برای کاربردهای جراحی طراحی شده است. این چارچوب پشتیبانی سرتاسری را برای گردش‌های کاری جراحی از طریق یک سیستم چند عاملی ارائه می‌دهد.

ویژگی‌های کلیدی:

  • رونویسی گفتار در زمان واقعی از طریق Whisper
  • عوامل تخصصی برای مسیریابی پرس و جو، پرسش و پاسخ، مستندسازی، حاشیه‌نویسی و گزارش‌دهی
  • ادغام بینایی کامپیوتر برای تجزیه و تحلیل تصویر
  • قابلیت‌های پاسخ صوتی اختیاری
  • ادغام داده‌های قبل از عمل خاص بیمار، ترجیحات پزشک و دانش دستگاه پزشکی
  • پردازش داده‌های حین عمل در زمان واقعی
  • عملکرد به عنوان یک دستیار دیجیتال در تمام مراحل جراحی—آموزش، برنامه‌ریزی، راهنمایی و تجزیه و تحلیل
چارچوب عامل جراحی
<em>شکل 3. چارچوب عامل جراحی</em>

مدل‌های شریک تحت رهبری جامعه

مدل‌های شریک تحت رهبری جامعه شامل موارد زیر است.

RadViLLA: RadViLLA که توسط Rad Image Net، مؤسسه مهندسی پزشکی و تصویربرداری زیستی در دانشکده پزشکی ایکان در Mount Sinai و NVIDIA توسعه یافته است، یک VLM سه بعدی برای رادیولوژی است که در پاسخگویی به پرسش‌های بالینی برای قفسه سینه، شکم و لگن برتری دارد. RadViLLA روی 75000 سی‌تی اسکن سه بعدی و بیش از 1 میلیون جفت پرسش و پاسخ تصویری آموزش داده شده است.

این مدل بر روی آناتومی‌هایی که اغلب تصویربرداری می‌شوند مانند قفسه سینه، شکم و لگن تمرکز دارد و از یک استراتژی آموزش دو مرحله‌ای جدید استفاده می‌کند که سی‌تی اسکن‌های سه بعدی را با داده‌های متنی ادغام می‌کند. RadviLLA به طور مستقل به پرسش‌های بالینی پاسخ می‌دهد و عملکرد برتری را در نمره F1 و دقت متعادل در چندین مجموعه داده نشان می‌دهد.

CT-CHAT: CT-CHAT که توسط دانشگاه زوریخ توسعه یافته است، یک مدل چت بنیادی دید زبانی پیشرفته است که به طور خاص برای بهبود تفسیر و قابلیت‌های تشخیصی تصویربرداری سه بعدی CT قفسه سینه طراحی شده است. این مدل از چارچوب CT-CLIP و یک مجموعه داده پرسش و پاسخ بصری (VQA) که از CT-RATE اقتباس شده است، استفاده می‌کند.

این مدل که روی بیش از 2.7 میلیون جفت پرسش و پاسخ از CT-RATE آموزش داده شده است، از اطلاعات فضایی سه بعدی استفاده می‌کند و آن را نسبت به مدل‌های مبتنی بر دو بعدی برتر می‌سازد. CT-CHAT با ترکیب رمزگذار بینایی CT-CLIP با یک مدل زبانی بزرگ از پیش آموزش داده شده، در کاهش زمان تفسیر و ارائه بینش‌های تشخیصی دقیق برتری دارد و آن را به ابزاری قدرتمند برای تصویربرداری پزشکی تبدیل می‌کند.

ادغام Hugging Face

پشتیبانی از خط لوله استاندارد شده برای اتصال MONAI Multimodal با زیرساخت تحقیقاتی Hugging Face:

  • به اشتراک گذاری مدل برای اهداف تحقیقاتی
  • ادغام مدل‌های جدید
  • مشارکت گسترده‌تر در اکوسیستم تحقیقاتی

ادغام جامعه

زیرساخت برای به اشتراک گذاری مدل، اعتبارسنجی و توسعه مشارکتی:

  • کارت‌های مدل استاندارد شده و گردش‌های کاری عامل
  • تبادل دانش و بهترین شیوه‌های به اشتراک گذاشته شده
  • پایه و اساس برای تحقیقات مشارکتی
معماری جامعه MONAI Multimodal
<em>شکل 4. معماری جامعه MONAI Multimodal و اکوسیستم ادغام</em>

آینده هوش مصنوعی پزشکی را با MONAI Multimodal بسازید

MONAI Multimodal نشان دهنده تکامل بعدی MONAI، پلتفرم منبع باز پیشرو برای هوش مصنوعی تصویربرداری پزشکی است. MONAI Multimodal با تکیه بر این پایه، فراتر از تصویربرداری گسترش می‌یابد تا انواع داده‌های متنوع مراقبت‌های بهداشتی—از رادیولوژی و آسیب‌شناسی گرفته تا یادداشت‌های بالینی و EHRها—را ادغام کند.

MONAI Multimodal از طریق یک اکوسیستم مشارکتی از چارچوب‌های تحت رهبری NVIDIA و مشارکت‌های شریک، قابلیت‌های استدلال پیشرفته را از طریق معماری‌های عامل تخصصی ارائه می‌دهد. این ابتکار با شکستن سیلوهای داده و امکان تجزیه و تحلیل بین‌وجهی یکپارچه، چالش‌های حیاتی مراقبت‌های بهداشتی را در تمام تخصص‌ها برطرف می‌کند و نوآوری در تحقیقات و ترجمه بالینی را تسریع می‌کند.

MONAI Multimodal با متحد کردن منابع داده متنوع و استفاده از مدل‌های پیشرفته، در حال تحول در مراقبت‌های بهداشتی است—و به پزشکان، محققان و نوآوران قدرت می‌بخشد تا به نتایج چشمگیری در تصویربرداری پزشکی و دقت تشخیصی دست یابند.

ما با هم چیزی فراتر از نرم‌افزار ایجاد می‌کنیم—ما در حال ساختن یک اکوسیستم هستیم که در آن نوآوری هوش مصنوعی پزشکی شکوفا می‌شود و به محققان، پزشکان و بیماران در سراسر جهان سود می‌رساند. با MONAI شروع کنید.

به ما در NVIDIA GTC 2025 بپیوندید و این جلسات مرتبط را بررسی کنید: