یک روش کالیبراسیون جدید که توسط محققان MIT توسعه یافته است، می‌تواند با کمک به رادیولوژیست‌ها برای بیان مطمئن‌تر میزان قطعیت خود، دقت گزارش‌های بالینی آن‌ها را بهبود بخشد. اعتبار: اخبار ام‌آی‌تی، iStock
یک روش کالیبراسیون جدید که توسط محققان MIT توسعه یافته است، می‌تواند با کمک به رادیولوژیست‌ها برای بیان مطمئن‌تر میزان قطعیت خود، دقت گزارش‌های بالینی آن‌ها را بهبود بخشد. اعتبار: اخبار ام‌آی‌تی، iStock

روش جدیدی قابلیت اطمینان گزارش‌های تشخیصی رادیولوژیست‌ها را ارزیابی و بهبود می‌بخشد

این چارچوب به پزشکان کمک می‌کند عباراتی را انتخاب کنند که احتمال وجود شرایط خاص در تصاویر اشعه ایکس را با دقت بیشتری منعکس کند.

به دلیل ابهام ذاتی در تصاویر پزشکی مانند اشعه ایکس، رادیولوژیست‌ها اغلب هنگام توصیف وجود یک آسیب‌شناسی (پاتولوژی) خاص، مانند ذات‌الریه، از کلماتی مانند «ممکن است» یا «احتمالاً» استفاده می‌کنند.

اما آیا کلماتی که رادیولوژیست‌ها برای بیان سطح اطمینان خود به کار می‌برند، به درستی منعکس‌کننده میزان وقوع یک پاتولوژی خاص در بیماران است؟ یک مطالعه جدید نشان می‌دهد که وقتی رادیولوژیست‌ها با استفاده از عبارتی مانند «بسیار محتمل» اطمینان خود را در مورد یک پاتولوژی خاص بیان می‌کنند، تمایل به اطمینان بیش از حد دارند و برعکس، زمانی که با استفاده از کلمه‌ای مانند «احتمالاً» اطمینان کمتری را بیان می‌کنند، کمتر از حد لازم مطمئن هستند.

با استفاده از داده‌های بالینی، یک تیم چند رشته‌ای از محققان MIT با همکاری محققان و پزشکان در بیمارستان‌های وابسته به دانشکده پزشکی هاروارد، چارچوبی را برای کمی‌سازی میزان قابل اعتماد بودن رادیولوژیست‌ها هنگام بیان قطعیت با استفاده از اصطلاحات زبان طبیعی ایجاد کردند.

آنها از این رویکرد برای ارائه پیشنهادهای واضحی استفاده کردند که به رادیولوژیست‌ها کمک می‌کند عباراتی را برای بیان قطعیت انتخاب کنند که قابلیت اطمینان گزارش‌دهی بالینی آنها را بهبود بخشد. آنها همچنین نشان دادند که همین تکنیک می‌تواند به طور مؤثری کالیبراسیون مدل‌های زبان بزرگ را با هم‌تراز کردن بهتر کلماتی که مدل‌ها برای بیان اطمینان استفاده می‌کنند با دقت پیش‌بینی‌هایشان، اندازه‌گیری و بهبود بخشد.

این چارچوب جدید با کمک به رادیولوژیست‌ها برای توصیف دقیق‌تر احتمال وجود پاتولوژی‌های خاص در تصاویر پزشکی، می‌تواند قابلیت اطمینان اطلاعات بالینی حیاتی را بهبود بخشد.

پِیچی وانگ (Peiqi Wang)، دانشجوی تحصیلات تکمیلی MIT و نویسنده اصلی مقاله‌ای در مورد این تحقیق می‌گوید: «کلماتی که رادیولوژیست‌ها استفاده می‌کنند مهم هستند. آنها بر نحوه مداخله پزشکان، از نظر تصمیم‌گیری برای بیمار، تأثیر می‌گذارند. اگر این متخصصان بتوانند در گزارش‌دهی خود قابل اعتمادتر باشند، بیماران ذینفعان نهایی خواهند بود.»

در این مقاله، پولینا گولاند (Polina Golland)، استاد مهندسی برق و علوم کامپیوتر (EECS) در کرسی سانلین و پریسیلا چو، محقق اصلی در آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) و رهبر گروه بینایی پزشکی؛ باربارا دی. لام (Barbara D. Lam)، فلو بالینی در مرکز پزشکی بث ایزرائیل دیکنِس؛ یینگ‌چنگ لیو (Yingcheng Liu)، دانشجوی تحصیلات تکمیلی MIT؛ آمنه عسگری-ترقی (Ameneh Asgari-Targhi)، فلو تحقیقاتی در مرکز ماساچوست جنرال بریگام (MGB)؛ رامشوار پاندا (Rameswar Panda)، عضو هیئت تحقیقاتی در آزمایشگاه هوش مصنوعی MIT-IBM Watson؛ ویلیام ام. ولز (William M. Wells)، استاد رادیولوژی در MGB و دانشمند تحقیقاتی در CSAIL؛ و تینا کاپور (Tina Kapur)، استادیار رادیولوژی در MGB نیز به او پیوسته‌اند. این تحقیق در کنفرانس بین‌المللی بازنمایی‌های یادگیری ارائه خواهد شد.

رمزگشایی عدم قطعیت در کلمات

یک رادیولوژیست که گزارشی در مورد عکس قفسه سینه می‌نویسد، ممکن است بگوید که تصویر، ذات‌الریه «احتمالی» را نشان می‌دهد، که عفونتی است که کیسه‌های هوایی ریه‌ها را ملتهب می‌کند. در این صورت، پزشک می‌تواند برای تأیید تشخیص، سی‌تی اسکن پیگیری تجویز کند.

با این حال، اگر رادیولوژیست بنویسد که عکس اشعه ایکس ذات‌الریه «محتمل» را نشان می‌دهد، پزشک ممکن است فوراً درمان را شروع کند، مثلاً با تجویز آنتی‌بیوتیک، در حالی که همچنان آزمایش‌های اضافی را برای ارزیابی شدت بیماری تجویز می‌کند.

وانگ می‌گوید تلاش برای اندازه‌گیری کالیبراسیون یا قابلیت اطمینان اصطلاحات زبان طبیعی مبهم مانند «احتمالاً» و «محتمل» چالش‌های زیادی را به همراه دارد.

روش‌های کالیبراسیون موجود معمولاً به امتیاز اطمینان ارائه شده توسط یک مدل هوش مصنوعی متکی هستند که نشان‌دهنده احتمال تخمینی مدل از صحت پیش‌بینی آن است.

به عنوان مثال، یک برنامه هواشناسی ممکن است ۸۳ درصد احتمال بارندگی برای فردا را پیش‌بینی کند. این مدل به خوبی کالیبره شده است اگر در تمام مواردی که ۸۳ درصد احتمال بارندگی را پیش‌بینی می‌کند، تقریباً ۸۳ درصد مواقع باران ببارد.

وانگ می‌گوید: «اما انسان‌ها از زبان طبیعی استفاده می‌کنند، و اگر این عبارات را به یک عدد واحد نگاشت کنیم، توصیف دقیقی از دنیای واقعی نخواهد بود. اگر فردی بگوید یک رویداد 'محتمل' است، لزوماً به احتمال دقیق، مانند ۷۵ درصد، فکر نمی‌کند.»

رویکرد محققان به جای تلاش برای نگاشت عبارات قطعیت به یک درصد واحد، آنها را به عنوان توزیع‌های احتمال (probability distributions) در نظر می‌گیرد. یک توزیع، دامنه مقادیر ممکن و احتمال وقوع آنها را توصیف می‌کند - منحنی زنگوله‌ای کلاسیک در آمار را در نظر بگیرید.

وانگ می‌افزاید: «این رویکرد جزئیات بیشتری از معنای هر کلمه را در بر می‌گیرد.»

ارزیابی و بهبود کالیبراسیون

محققان از کارهای قبلی استفاده کردند که از رادیولوژیست‌ها نظرسنجی کرده بودند تا توزیع‌های احتمالی مربوط به هر عبارت قطعیت تشخیصی، از «بسیار محتمل» تا «منطبق با» را به دست آورند.

به عنوان مثال، از آنجایی که تعداد بیشتری از رادیولوژیست‌ها معتقدند عبارت «منطبق با» به معنای وجود پاتولوژی در تصویر پزشکی است، توزیع احتمال آن به شدت به یک قله بلند صعود می‌کند و بیشتر مقادیر در محدوده ۹۰ تا ۱۰۰ درصد جمع می‌شوند.

در مقابل، عبارت «ممکن است نشان‌دهنده» عدم قطعیت بیشتری را منتقل می‌کند که منجر به توزیع گسترده‌تر و زنگوله‌ای شکل با مرکزیت حدود ۵۰ درصد می‌شود.

روش‌های معمول، کالیبراسیون را با مقایسه میزان هم‌ترازی امتیازات احتمال پیش‌بینی‌شده یک مدل با تعداد واقعی نتایج مثبت ارزیابی می‌کنند.

رویکرد محققان از همان چارچوب کلی پیروی می‌کند اما آن را گسترش می‌دهد تا این واقعیت را در نظر بگیرد که عبارات قطعیت، توزیع‌های احتمال را نشان می‌دهند نه احتمالات نقطه‌ای را.

برای بهبود کالیبراسیون، محققان یک مسئله بهینه‌سازی را فرموله و حل کردند که نحوه استفاده از عبارات خاص را تنظیم می‌کند تا اطمینان را با واقعیت بهتر هم‌تراز کند.

آنها یک نقشه کالیبراسیون استخراج کردند که اصطلاحات قطعیتی را پیشنهاد می‌کند که یک رادیولوژیست باید برای دقیق‌تر کردن گزارش‌ها برای یک پاتولوژی خاص استفاده کند.

وانگ توضیح می‌دهد: «شاید، برای این مجموعه داده، اگر هر بار که رادیولوژیست می‌گفت ذات‌الریه 'وجود دارد'، عبارت را به 'احتمالاً وجود دارد' تغییر می‌داد، آنگاه کالیبراسیون بهتری پیدا می‌کرد.»

هنگامی که محققان از چارچوب خود برای ارزیابی گزارش‌های بالینی استفاده کردند، دریافتند که رادیولوژیست‌ها به طور کلی هنگام تشخیص شرایط رایج مانند آتلکتازی (atelectasis) کمتر از حد لازم مطمئن بودند، اما در مورد شرایط مبهم‌تر مانند عفونت، بیش از حد مطمئن بودند.

علاوه بر این، محققان با استفاده از روش خود، قابلیت اطمینان مدل‌های زبانی را ارزیابی کردند و نمایشی دقیق‌تر از اطمینان نسبت به روش‌های کلاسیک که به امتیازات اطمینان متکی هستند، ارائه دادند.

وانگ می‌افزاید: «بسیاری از مواقع، این مدل‌ها از عباراتی مانند 'قطعاً' استفاده می‌کنند. اما از آنجایی که آنها به پاسخ‌های خود بسیار مطمئن هستند، این امر افراد را تشویق نمی‌کند که صحت اظهارات را خودشان تأیید کنند.»

در آینده، محققان قصد دارند به همکاری با پزشکان به امید بهبود تشخیص و درمان ادامه دهند. آنها در حال کار برای گسترش مطالعه خود برای شامل کردن داده‌های حاصل از سی‌تی اسکن شکم هستند.

علاوه بر این، آنها علاقه‌مند به مطالعه میزان پذیرش رادیولوژیست‌ها نسبت به پیشنهادات بهبود کالیبراسیون و اینکه آیا آنها می‌توانند به طور مؤثر استفاده خود از عبارات قطعیت را به صورت ذهنی تنظیم کنند، هستند.

آتول بی. شیناگار (Atul B. Shinagare)، دانشیار رادیولوژی در دانشکده پزشکی هاروارد که در این کار دخالتی نداشته است، می‌گوید: «بیان قطعیت تشخیصی جنبه‌ای حیاتی از گزارش رادیولوژی است، زیرا بر تصمیمات مدیریتی مهم تأثیر می‌گذارد. این مطالعه رویکردی نوآورانه برای تجزیه و تحلیل و کالیبره کردن نحوه بیان قطعیت تشخیصی رادیولوژیست‌ها در گزارش‌های عکس قفسه سینه اتخاذ می‌کند و بازخوردی در مورد استفاده از اصطلاحات و نتایج مرتبط ارائه می‌دهد.» وی می‌افزاید: «این رویکرد پتانسیل بهبود دقت و ارتباطات رادیولوژیست‌ها را دارد که به بهبود مراقبت از بیمار کمک خواهد کرد.»

این کار، تا حدی، توسط بورسیه تاکدا، آزمایشگاه هوش مصنوعی MIT-IBM Watson، برنامه ویستروم MIT CSAIL و کلینیک جمیل MIT تأمین مالی شده است.