معرفی کاوشگر هوش مصنوعی پزشکی (AMIE) گوگل: یک مدل زبانی بزرگ بهینه‌سازی شده برای استدلال تشخیصی و ارزیابی توانایی آن در تولید تشخیص افتراقی

ایجاد یک تشخیص افتراقی (DDx) دقیق، بخش اساسی مراقبت‌های پزشکی است که معمولاً از طریق یک فرآیند گام به گام انجام می‌شود که شامل ادغام سابقه بیمار، معاینات فیزیکی و تست‌های تشخیصی است. با ظهور مدل‌های زبانی بزرگ (LLM)، پتانسیل رو به رشدی برای پشتیبانی و خودکارسازی بخش‌هایی از این سفر تشخیصی با استفاده از ابزارهای تعاملی مبتنی بر هوش مصنوعی وجود دارد. برخلاف سیستم‌های هوش مصنوعی سنتی که بر تولید یک تشخیص واحد تمرکز دارند، استدلال بالینی دنیای واقعی شامل به‌روزرسانی و ارزیابی مداوم امکانات تشخیصی متعدد با در دسترس قرار گرفتن داده‌های بیشتر بیمار است. اگرچه یادگیری عمیق با موفقیت DDx را در زمینه‌هایی مانند رادیولوژی، چشم پزشکی و پوست تولید کرده است، اما این مدل‌ها عموماً فاقد قابلیت‌های تعاملی و مکالمه‌ای لازم برای تعامل مؤثر با پزشکان هستند.

ظهور LLMها مسیری جدید برای ساخت ابزارهایی ارائه می‌دهد که می‌توانند از DDx از طریق تعامل زبان طبیعی پشتیبانی کنند. این مدل‌ها، از جمله مدل‌های عمومی مانند GPT-4 و مدل‌های خاص پزشکی مانند Med-PaLM 2، عملکرد بالایی در آزمون‌های پزشکی چند گزینه‌ای و استاندارد نشان داده‌اند. در حالی که این معیارها در ابتدا دانش پزشکی یک مدل را ارزیابی می‌کنند، اما سودمندی آن را در محیط‌های بالینی واقعی یا توانایی آن در کمک به پزشکان در طول موارد پیچیده نشان نمی‌دهند. اگرچه برخی از مطالعات اخیر LLMها را در گزارش‌های موردی چالش‌برانگیز آزمایش کرده‌اند، هنوز درک محدودی از چگونگی افزایش تصمیم‌گیری پزشکان یا بهبود مراقبت از بیمار از طریق همکاری در زمان واقعی توسط این مدل‌ها وجود دارد.

محققان گوگل AMIE را معرفی کردند، یک مدل زبانی بزرگ (Large Language Model) که برای استدلال تشخیصی بالینی طراحی شده است، تا اثربخشی آن را در کمک به DDx ارزیابی کنند. عملکرد مستقل AMIE در یک مطالعه شامل 20 پزشک و 302 مورد پزشکی پیچیده در دنیای واقعی، از پزشکان بدون کمک بهتر عمل کرد. هنگامی که AMIE در یک رابط تعاملی ادغام شد، پزشکانی که از AMIE در کنار ابزارهای سنتی استفاده می‌کردند، لیست‌های DDx بسیار دقیق‌تر و جامع‌تری نسبت به کسانی که فقط از منابع استاندارد استفاده می‌کردند، تولید کردند. AMIE نه تنها دقت تشخیصی را بهبود بخشید، بلکه توانایی‌های استدلال پزشکان را نیز افزایش داد. عملکرد آن همچنین از GPT-4 در ارزیابی‌های خودکار فراتر رفت و نویدبخش کاربردهای بالینی در دنیای واقعی و دسترسی گسترده‌تر به پشتیبانی در سطح متخصص است.

AMIE، یک مدل زبانی که برای کارهای پزشکی تنظیم شده است، عملکرد قوی در تولید DDx نشان داد. لیست‌های آن از نظر کیفیت، تناسب و جامعیت رتبه بالایی کسب کردند. در 54 درصد موارد، DDx ارائه شده توسط AMIE شامل تشخیص صحیح بود و به طور قابل توجهی از پزشکان بدون کمک بهتر عمل کرد. این مدل به دقت رتبه 10 برتر 59 درصد دست یافت و تشخیص مناسب در 29 درصد موارد در رتبه اول قرار گرفت. پزشکانی که توسط AMIE کمک می‌شدند نیز در مقایسه با استفاده از ابزارهای جستجو یا کار به تنهایی، دقت تشخیصی خود را بهبود بخشیدند. علیرغم جدید بودن رابط AMIE، پزشکان از آن مشابه روش‌های جستجوی سنتی استفاده کردند که نشان دهنده قابلیت استفاده عملی آن است.

در یک تجزیه و تحلیل تطبیقی بین AMIE و GPT-4 با استفاده از زیرمجموعه‌ای از 70 مورد NEJM CPC، مقایسه‌های مستقیم ارزیابی انسانی به دلیل مجموعه‌های مختلف ارزیاب محدود بود. در عوض، از یک معیار خودکار استفاده شد که نشان داده شد به طور منطقی با قضاوت انسانی مطابقت دارد. در حالی که GPT-4 به طور حاشیه‌ای در دقت رتبه اول از AMIE بهتر عمل کرد (اگرچه از نظر آماری معنی‌دار نبود)، AMIE دقت رتبه n برتر بهتری را برای n > 1 نشان داد، با دستاوردهای قابل توجه برای n > 2. این نشان می‌دهد که AMIE DDx جامع‌تر و مناسب‌تری تولید کرده است، جنبه‌ای حیاتی در استدلال بالینی دنیای واقعی. علاوه بر این، AMIE در وظایف DDx مستقل از پزشکان دارای بورد تخصصی بهتر عمل کرد و عملکرد پزشکان را به عنوان یک ابزار کمکی به طور قابل توجهی بهبود بخشید و دقت رتبه n برتر، کیفیت DDx و جامعیت بالاتری نسبت به کمک مبتنی بر جستجوی سنتی ارائه داد.

مقایسه عملکرد AMIE
مقایسه عملکرد AMIE

فراتر از عملکرد خام، رابط مکالمه‌ای AMIE شهودی و کارآمد بود و پزشکان پس از استفاده از آن، افزایش اعتماد به نفس را در لیست‌های DDx خود گزارش کردند. در حالی که محدودیت‌هایی وجود دارد - مانند عدم دسترسی AMIE به تصاویر و داده‌های جدولی در مطالب پزشکان و ماهیت مصنوعی ارائه موارد به سبک CPC - پتانسیل این مدل برای پشتیبانی آموزشی و کمک تشخیصی امیدوار کننده است، به ویژه در محیط‌های پیچیده یا با منابع محدود. با این وجود، این مطالعه بر نیاز به ادغام دقیق LLMها در جریان‌های کاری بالینی، با توجه به کالیبراسیون اعتماد، بیان عدم قطعیت مدل و پتانسیل لنگر انداختن سوگیری‌ها و توهم‌ها تأکید می‌کند. کارهای آینده باید کاربردپذیری، انصاف و اثرات بلندمدت تشخیص به کمک هوش مصنوعی را به طور جدی ارزیابی کنند.