به دلیل ابهام ذاتی در تصاویر پزشکی مانند اشعه ایکس، رادیولوژیستها اغلب هنگام توصیف وجود یک آسیبشناسی (پاتولوژی) خاص، مانند ذاتالریه، از کلماتی مانند «ممکن است» یا «احتمالاً» استفاده میکنند.
اما آیا کلماتی که رادیولوژیستها برای بیان سطح اطمینان خود به کار میبرند، به درستی منعکسکننده میزان وقوع یک پاتولوژی خاص در بیماران است؟ یک مطالعه جدید نشان میدهد که وقتی رادیولوژیستها با استفاده از عبارتی مانند «بسیار محتمل» اطمینان خود را در مورد یک پاتولوژی خاص بیان میکنند، تمایل به اطمینان بیش از حد دارند و برعکس، زمانی که با استفاده از کلمهای مانند «احتمالاً» اطمینان کمتری را بیان میکنند، کمتر از حد لازم مطمئن هستند.
با استفاده از دادههای بالینی، یک تیم چند رشتهای از محققان MIT با همکاری محققان و پزشکان در بیمارستانهای وابسته به دانشکده پزشکی هاروارد، چارچوبی را برای کمیسازی میزان قابل اعتماد بودن رادیولوژیستها هنگام بیان قطعیت با استفاده از اصطلاحات زبان طبیعی ایجاد کردند.
آنها از این رویکرد برای ارائه پیشنهادهای واضحی استفاده کردند که به رادیولوژیستها کمک میکند عباراتی را برای بیان قطعیت انتخاب کنند که قابلیت اطمینان گزارشدهی بالینی آنها را بهبود بخشد. آنها همچنین نشان دادند که همین تکنیک میتواند به طور مؤثری کالیبراسیون مدلهای زبان بزرگ را با همتراز کردن بهتر کلماتی که مدلها برای بیان اطمینان استفاده میکنند با دقت پیشبینیهایشان، اندازهگیری و بهبود بخشد.
این چارچوب جدید با کمک به رادیولوژیستها برای توصیف دقیقتر احتمال وجود پاتولوژیهای خاص در تصاویر پزشکی، میتواند قابلیت اطمینان اطلاعات بالینی حیاتی را بهبود بخشد.
پِیچی وانگ (Peiqi Wang)، دانشجوی تحصیلات تکمیلی MIT و نویسنده اصلی مقالهای در مورد این تحقیق میگوید: «کلماتی که رادیولوژیستها استفاده میکنند مهم هستند. آنها بر نحوه مداخله پزشکان، از نظر تصمیمگیری برای بیمار، تأثیر میگذارند. اگر این متخصصان بتوانند در گزارشدهی خود قابل اعتمادتر باشند، بیماران ذینفعان نهایی خواهند بود.»
در این مقاله، پولینا گولاند (Polina Golland)، استاد مهندسی برق و علوم کامپیوتر (EECS) در کرسی سانلین و پریسیلا چو، محقق اصلی در آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) و رهبر گروه بینایی پزشکی؛ باربارا دی. لام (Barbara D. Lam)، فلو بالینی در مرکز پزشکی بث ایزرائیل دیکنِس؛ یینگچنگ لیو (Yingcheng Liu)، دانشجوی تحصیلات تکمیلی MIT؛ آمنه عسگری-ترقی (Ameneh Asgari-Targhi)، فلو تحقیقاتی در مرکز ماساچوست جنرال بریگام (MGB)؛ رامشوار پاندا (Rameswar Panda)، عضو هیئت تحقیقاتی در آزمایشگاه هوش مصنوعی MIT-IBM Watson؛ ویلیام ام. ولز (William M. Wells)، استاد رادیولوژی در MGB و دانشمند تحقیقاتی در CSAIL؛ و تینا کاپور (Tina Kapur)، استادیار رادیولوژی در MGB نیز به او پیوستهاند. این تحقیق در کنفرانس بینالمللی بازنماییهای یادگیری ارائه خواهد شد.
رمزگشایی عدم قطعیت در کلمات
یک رادیولوژیست که گزارشی در مورد عکس قفسه سینه مینویسد، ممکن است بگوید که تصویر، ذاتالریه «احتمالی» را نشان میدهد، که عفونتی است که کیسههای هوایی ریهها را ملتهب میکند. در این صورت، پزشک میتواند برای تأیید تشخیص، سیتی اسکن پیگیری تجویز کند.
با این حال، اگر رادیولوژیست بنویسد که عکس اشعه ایکس ذاتالریه «محتمل» را نشان میدهد، پزشک ممکن است فوراً درمان را شروع کند، مثلاً با تجویز آنتیبیوتیک، در حالی که همچنان آزمایشهای اضافی را برای ارزیابی شدت بیماری تجویز میکند.
وانگ میگوید تلاش برای اندازهگیری کالیبراسیون یا قابلیت اطمینان اصطلاحات زبان طبیعی مبهم مانند «احتمالاً» و «محتمل» چالشهای زیادی را به همراه دارد.
روشهای کالیبراسیون موجود معمولاً به امتیاز اطمینان ارائه شده توسط یک مدل هوش مصنوعی متکی هستند که نشاندهنده احتمال تخمینی مدل از صحت پیشبینی آن است.
به عنوان مثال، یک برنامه هواشناسی ممکن است ۸۳ درصد احتمال بارندگی برای فردا را پیشبینی کند. این مدل به خوبی کالیبره شده است اگر در تمام مواردی که ۸۳ درصد احتمال بارندگی را پیشبینی میکند، تقریباً ۸۳ درصد مواقع باران ببارد.
وانگ میگوید: «اما انسانها از زبان طبیعی استفاده میکنند، و اگر این عبارات را به یک عدد واحد نگاشت کنیم، توصیف دقیقی از دنیای واقعی نخواهد بود. اگر فردی بگوید یک رویداد 'محتمل' است، لزوماً به احتمال دقیق، مانند ۷۵ درصد، فکر نمیکند.»
رویکرد محققان به جای تلاش برای نگاشت عبارات قطعیت به یک درصد واحد، آنها را به عنوان توزیعهای احتمال (probability distributions) در نظر میگیرد. یک توزیع، دامنه مقادیر ممکن و احتمال وقوع آنها را توصیف میکند - منحنی زنگولهای کلاسیک در آمار را در نظر بگیرید.
وانگ میافزاید: «این رویکرد جزئیات بیشتری از معنای هر کلمه را در بر میگیرد.»
ارزیابی و بهبود کالیبراسیون
محققان از کارهای قبلی استفاده کردند که از رادیولوژیستها نظرسنجی کرده بودند تا توزیعهای احتمالی مربوط به هر عبارت قطعیت تشخیصی، از «بسیار محتمل» تا «منطبق با» را به دست آورند.
به عنوان مثال، از آنجایی که تعداد بیشتری از رادیولوژیستها معتقدند عبارت «منطبق با» به معنای وجود پاتولوژی در تصویر پزشکی است، توزیع احتمال آن به شدت به یک قله بلند صعود میکند و بیشتر مقادیر در محدوده ۹۰ تا ۱۰۰ درصد جمع میشوند.
در مقابل، عبارت «ممکن است نشاندهنده» عدم قطعیت بیشتری را منتقل میکند که منجر به توزیع گستردهتر و زنگولهای شکل با مرکزیت حدود ۵۰ درصد میشود.
روشهای معمول، کالیبراسیون را با مقایسه میزان همترازی امتیازات احتمال پیشبینیشده یک مدل با تعداد واقعی نتایج مثبت ارزیابی میکنند.
رویکرد محققان از همان چارچوب کلی پیروی میکند اما آن را گسترش میدهد تا این واقعیت را در نظر بگیرد که عبارات قطعیت، توزیعهای احتمال را نشان میدهند نه احتمالات نقطهای را.
برای بهبود کالیبراسیون، محققان یک مسئله بهینهسازی را فرموله و حل کردند که نحوه استفاده از عبارات خاص را تنظیم میکند تا اطمینان را با واقعیت بهتر همتراز کند.
آنها یک نقشه کالیبراسیون استخراج کردند که اصطلاحات قطعیتی را پیشنهاد میکند که یک رادیولوژیست باید برای دقیقتر کردن گزارشها برای یک پاتولوژی خاص استفاده کند.
وانگ توضیح میدهد: «شاید، برای این مجموعه داده، اگر هر بار که رادیولوژیست میگفت ذاتالریه 'وجود دارد'، عبارت را به 'احتمالاً وجود دارد' تغییر میداد، آنگاه کالیبراسیون بهتری پیدا میکرد.»
هنگامی که محققان از چارچوب خود برای ارزیابی گزارشهای بالینی استفاده کردند، دریافتند که رادیولوژیستها به طور کلی هنگام تشخیص شرایط رایج مانند آتلکتازی (atelectasis) کمتر از حد لازم مطمئن بودند، اما در مورد شرایط مبهمتر مانند عفونت، بیش از حد مطمئن بودند.
علاوه بر این، محققان با استفاده از روش خود، قابلیت اطمینان مدلهای زبانی را ارزیابی کردند و نمایشی دقیقتر از اطمینان نسبت به روشهای کلاسیک که به امتیازات اطمینان متکی هستند، ارائه دادند.
وانگ میافزاید: «بسیاری از مواقع، این مدلها از عباراتی مانند 'قطعاً' استفاده میکنند. اما از آنجایی که آنها به پاسخهای خود بسیار مطمئن هستند، این امر افراد را تشویق نمیکند که صحت اظهارات را خودشان تأیید کنند.»
در آینده، محققان قصد دارند به همکاری با پزشکان به امید بهبود تشخیص و درمان ادامه دهند. آنها در حال کار برای گسترش مطالعه خود برای شامل کردن دادههای حاصل از سیتی اسکن شکم هستند.
علاوه بر این، آنها علاقهمند به مطالعه میزان پذیرش رادیولوژیستها نسبت به پیشنهادات بهبود کالیبراسیون و اینکه آیا آنها میتوانند به طور مؤثر استفاده خود از عبارات قطعیت را به صورت ذهنی تنظیم کنند، هستند.
آتول بی. شیناگار (Atul B. Shinagare)، دانشیار رادیولوژی در دانشکده پزشکی هاروارد که در این کار دخالتی نداشته است، میگوید: «بیان قطعیت تشخیصی جنبهای حیاتی از گزارش رادیولوژی است، زیرا بر تصمیمات مدیریتی مهم تأثیر میگذارد. این مطالعه رویکردی نوآورانه برای تجزیه و تحلیل و کالیبره کردن نحوه بیان قطعیت تشخیصی رادیولوژیستها در گزارشهای عکس قفسه سینه اتخاذ میکند و بازخوردی در مورد استفاده از اصطلاحات و نتایج مرتبط ارائه میدهد.» وی میافزاید: «این رویکرد پتانسیل بهبود دقت و ارتباطات رادیولوژیستها را دارد که به بهبود مراقبت از بیمار کمک خواهد کرد.»
این کار، تا حدی، توسط بورسیه تاکدا، آزمایشگاه هوش مصنوعی MIT-IBM Watson، برنامه ویستروم MIT CSAIL و کلینیک جمیل MIT تأمین مالی شده است.