ایجاد یک تشخیص افتراقی (DDx) دقیق، بخش اساسی مراقبتهای پزشکی است که معمولاً از طریق یک فرآیند گام به گام انجام میشود که شامل ادغام سابقه بیمار، معاینات فیزیکی و تستهای تشخیصی است. با ظهور مدلهای زبانی بزرگ (LLM)، پتانسیل رو به رشدی برای پشتیبانی و خودکارسازی بخشهایی از این سفر تشخیصی با استفاده از ابزارهای تعاملی مبتنی بر هوش مصنوعی وجود دارد. برخلاف سیستمهای هوش مصنوعی سنتی که بر تولید یک تشخیص واحد تمرکز دارند، استدلال بالینی دنیای واقعی شامل بهروزرسانی و ارزیابی مداوم امکانات تشخیصی متعدد با در دسترس قرار گرفتن دادههای بیشتر بیمار است. اگرچه یادگیری عمیق با موفقیت DDx را در زمینههایی مانند رادیولوژی، چشم پزشکی و پوست تولید کرده است، اما این مدلها عموماً فاقد قابلیتهای تعاملی و مکالمهای لازم برای تعامل مؤثر با پزشکان هستند.
ظهور LLMها مسیری جدید برای ساخت ابزارهایی ارائه میدهد که میتوانند از DDx از طریق تعامل زبان طبیعی پشتیبانی کنند. این مدلها، از جمله مدلهای عمومی مانند GPT-4 و مدلهای خاص پزشکی مانند Med-PaLM 2، عملکرد بالایی در آزمونهای پزشکی چند گزینهای و استاندارد نشان دادهاند. در حالی که این معیارها در ابتدا دانش پزشکی یک مدل را ارزیابی میکنند، اما سودمندی آن را در محیطهای بالینی واقعی یا توانایی آن در کمک به پزشکان در طول موارد پیچیده نشان نمیدهند. اگرچه برخی از مطالعات اخیر LLMها را در گزارشهای موردی چالشبرانگیز آزمایش کردهاند، هنوز درک محدودی از چگونگی افزایش تصمیمگیری پزشکان یا بهبود مراقبت از بیمار از طریق همکاری در زمان واقعی توسط این مدلها وجود دارد.
محققان گوگل AMIE را معرفی کردند، یک مدل زبانی بزرگ (Large Language Model) که برای استدلال تشخیصی بالینی طراحی شده است، تا اثربخشی آن را در کمک به DDx ارزیابی کنند. عملکرد مستقل AMIE در یک مطالعه شامل 20 پزشک و 302 مورد پزشکی پیچیده در دنیای واقعی، از پزشکان بدون کمک بهتر عمل کرد. هنگامی که AMIE در یک رابط تعاملی ادغام شد، پزشکانی که از AMIE در کنار ابزارهای سنتی استفاده میکردند، لیستهای DDx بسیار دقیقتر و جامعتری نسبت به کسانی که فقط از منابع استاندارد استفاده میکردند، تولید کردند. AMIE نه تنها دقت تشخیصی را بهبود بخشید، بلکه تواناییهای استدلال پزشکان را نیز افزایش داد. عملکرد آن همچنین از GPT-4 در ارزیابیهای خودکار فراتر رفت و نویدبخش کاربردهای بالینی در دنیای واقعی و دسترسی گستردهتر به پشتیبانی در سطح متخصص است.
AMIE، یک مدل زبانی که برای کارهای پزشکی تنظیم شده است، عملکرد قوی در تولید DDx نشان داد. لیستهای آن از نظر کیفیت، تناسب و جامعیت رتبه بالایی کسب کردند. در 54 درصد موارد، DDx ارائه شده توسط AMIE شامل تشخیص صحیح بود و به طور قابل توجهی از پزشکان بدون کمک بهتر عمل کرد. این مدل به دقت رتبه 10 برتر 59 درصد دست یافت و تشخیص مناسب در 29 درصد موارد در رتبه اول قرار گرفت. پزشکانی که توسط AMIE کمک میشدند نیز در مقایسه با استفاده از ابزارهای جستجو یا کار به تنهایی، دقت تشخیصی خود را بهبود بخشیدند. علیرغم جدید بودن رابط AMIE، پزشکان از آن مشابه روشهای جستجوی سنتی استفاده کردند که نشان دهنده قابلیت استفاده عملی آن است.
در یک تجزیه و تحلیل تطبیقی بین AMIE و GPT-4 با استفاده از زیرمجموعهای از 70 مورد NEJM CPC، مقایسههای مستقیم ارزیابی انسانی به دلیل مجموعههای مختلف ارزیاب محدود بود. در عوض، از یک معیار خودکار استفاده شد که نشان داده شد به طور منطقی با قضاوت انسانی مطابقت دارد. در حالی که GPT-4 به طور حاشیهای در دقت رتبه اول از AMIE بهتر عمل کرد (اگرچه از نظر آماری معنیدار نبود)، AMIE دقت رتبه n برتر بهتری را برای n > 1 نشان داد، با دستاوردهای قابل توجه برای n > 2. این نشان میدهد که AMIE DDx جامعتر و مناسبتری تولید کرده است، جنبهای حیاتی در استدلال بالینی دنیای واقعی. علاوه بر این، AMIE در وظایف DDx مستقل از پزشکان دارای بورد تخصصی بهتر عمل کرد و عملکرد پزشکان را به عنوان یک ابزار کمکی به طور قابل توجهی بهبود بخشید و دقت رتبه n برتر، کیفیت DDx و جامعیت بالاتری نسبت به کمک مبتنی بر جستجوی سنتی ارائه داد.
فراتر از عملکرد خام، رابط مکالمهای AMIE شهودی و کارآمد بود و پزشکان پس از استفاده از آن، افزایش اعتماد به نفس را در لیستهای DDx خود گزارش کردند. در حالی که محدودیتهایی وجود دارد - مانند عدم دسترسی AMIE به تصاویر و دادههای جدولی در مطالب پزشکان و ماهیت مصنوعی ارائه موارد به سبک CPC - پتانسیل این مدل برای پشتیبانی آموزشی و کمک تشخیصی امیدوار کننده است، به ویژه در محیطهای پیچیده یا با منابع محدود. با این وجود، این مطالعه بر نیاز به ادغام دقیق LLMها در جریانهای کاری بالینی، با توجه به کالیبراسیون اعتماد، بیان عدم قطعیت مدل و پتانسیل لنگر انداختن سوگیریها و توهمها تأکید میکند. کارهای آینده باید کاربردپذیری، انصاف و اثرات بلندمدت تشخیص به کمک هوش مصنوعی را به طور جدی ارزیابی کنند.