وقتی صحبت از استقرار مدلهای زبانی بزرگ (LLM) در مراقبتهای بهداشتی میشود، دقت فقط یک هدف نیست، بلکه یک ضرورت است. تعداد کمی بهتر از David Talby و تیمش در John Snow Labs، یک ارائه دهنده پیشرو در LLMهای خاص پزشکی، این موضوع را درک میکنند. کار آنها یک استاندارد طلایی برای ادغام پردازش زبان طبیعی پیشرفته (NLP) در محیطهای بالینی تعیین کرده است.
مخاطرات در مراقبتهای بهداشتی زیاد است و دقت بسیار فراتر از مدلهای هوش مصنوعی با هدف کلی را میطلبد. تفسیر نادرست پرونده بیمار یا نادیده گرفتن تداخل دارویی میتواند عواقب تهدید کننده زندگی داشته باشد. این مقاله به بررسی دو مورد استفاده واقعی از John Snow Labs - درک اسناد بالینی و استدلال در مورد جدول زمانی بیماران - برای کشف درسهای مهم برای متخصصان داده که با مدلهای زبانی بزرگ در مراقبتهای بهداشتی کار میکنند، میپردازد.
سنجش موفقیت LLM
ارزیابی مدلهای زبانی بزرگ در مراقبتهای بهداشتی اغلب با موارد زیر شروع میشود:
- عملکرد معیار در مجموعه دادههای استاندارد NLP.
- تحقیقات بررسی شده توسط همتایان برای تأیید صحت نظری.
- مطالعات موردی و استقرارهای دنیای واقعی اغلب سختترین اما آشکارترین آزمایشها هستند.
در حالی که معیارها و مقالات بینشهای ارزشمندی را ارائه میدهند، آزمایش واقعی زمانی فرا میرسد که LLMها با بههمریختگی دادههای بالینی مواجه میشوند - یادداشتهای دستنویس، اختصارات و گزارشهای مملو از اصطلاحات تخصصی - همه اینها تحت سنگینی مقررات حفظ حریم خصوصی مانند HIPAA. موفقیت در این تنظیمات نه تنها تعالی فنی، بلکه سیستمهای قوی برای انطباق، مقیاسپذیری و مدیریت دادههای ناقص یا ناسازگار را نیز میطلبد.
مورد استفاده 1: درک اسناد بالینی
استخراج رویدادهای نامطلوب از متن بدون ساختار
رویدادهای نامطلوب دارویی، به ویژه مواردی که با مواد افیونی مرتبط هستند، اغلب کمتر گزارش میشوند. John Snow Labs با FDA همکاری کرد تا با تجزیه و تحلیل یادداشتهای پیشرفت متن آزاد برای تشخیص رویدادهای نامطلوب مرتبط با مواد افیونی، این مشکل را حل کند.
پیچیدگی فنی در اینجا بسیار زیاد است:
- یادداشتهای پزشکی اغلب آنچه را که اتفاق نیفتاده است توصیف میکنند، بنابراین تشخیص نفی بسیار مهم است.
- تعیین علیت - تشخیص اینکه آیا یک بیماری ناشی از دارو است یا از قبل وجود داشته است - به همان اندازه چالش برانگیز است.
- این فرآیند شامل سه وظیفه مجزا NLP است: طبقهبندی رویداد، تشخیص نهاد نامگذاری شده (NER) و استخراج رابطه.
مدلهای GPT در استخراج اطلاعات کوتاهی میکنند
علیرغم هیاهوی پیرامون مدلهای GPT مانند GPT-4، عملکرد آنها در این وظایف استخراج تخصصی از مدلهای وظیفهمحور و دقیق، عقب است. مطالعات بررسی شده توسط همتایان به طور مداوم نشان دادهاند که LLMهای با هدف کلی برای استخراج دقیق اطلاعات ساختاریافته از متن بالینی مشکل دارند.
عوامل اجتماعی مؤثر بر سلامت (SDOH)
SDOH - عواملی مانند ثبات مسکن یا اشتغال - به طور قابل توجهی بر نتایج سلامت تأثیر میگذارند. در یک مطالعه، GPT-4 نسبت به مدلهای دقیق، اشتباهات بسیار بیشتری در هنگام استخراج SDOH از یادداشتهای بالینی مرتکب شد. مشکل؟ GPT-4 برای مدیریت تغییرات ظریف در متن پزشکی خاص زمینه اجتماعی آموزش ندیده بود.
تشخیص موجودیت بالینی (CER)
گزارشهای آسیبشناسی حاوی دادههای مهمی در مورد مرحلهبندی سرطان، اندازه تومور و نشانگرهای زیستی است. در اینجا نیز، GPT-4 عملکرد ضعیفتری داشت - حتی با تنظیم سریع، دو برابر مدلهای خاص وظیفه اشتباه کرد.
نگاشت اصطلاحات به کدهای پزشکی
دقت در مراقبتهای بهداشتی مستلزم نگاشت اصطلاحات استخراج شده به واژگان استاندارد مانند ICD-10 یا SNOMED نیز میباشد. مدلهای GPT برای این سطح از همسویی دادههای ساختاریافته طراحی نشدهاند و بیشتر سودمندی آنها را در این زمینه کاهش میدهند.
حذف شناسایی
محافظت از حریم خصوصی بیمار غیرقابل مذاکره است. John Snow Labs مدلهای GPT را با سیستمهای حذف شناسایی تخصصی مقایسه کرد و شکاف آشکاری در دقت پیدا کرد. بدتر از آن، راهحلهای مبتنی بر GPT به دلیل قیمتگذاری مبتنی بر توکن، هزینههای گزافی داشتند و آنها را برای ناشناسسازی دادههای در مقیاس بزرگ ناکارآمد میکرد.
مورد استفاده 2: استدلال در مورد جدول زمانی کل بیمار
چرا جدول زمانی مهم است
تصمیمات مراقبتهای بهداشتی به ندرت به یک ویزیت واحد بستگی دارد. شرایط مزمن، عوارض جانبی داروها یا پاسخهای درمانی در طول ماهها یا سالها آشکار میشوند. تجزیه و تحلیل سابقه طولی بیمار اغلب کلید شناسایی الگوها است.
مطالعه مونتلوکاست (Singulair)
John Snow Labs با همکاری Oracle و برنامه FDA Sentinel، عوارض جانبی سلامت روان را در کودکانی که مونتلوکاست مصرف میکنند، بررسی کرد. این مطالعه مستلزم استخراج یادداشتهای بدون ساختار برای رویدادهای روانپزشکی بود - دادههایی که در کدهای صورتحساب استاندارد ثبت نشدهاند. این امر ضرورت ترکیب موارد زیر را برجسته کرد:
- دادههای ساختاریافته (سوابق دارویی، تشخیصها)
- دادههای بدون ساختار (یادداشتهای پیشرفت، ارزیابیهای روانپزشکی)
ایجاد یک جدول زمانی واحد بیمار
ادغام دادهها در بین روشها، بازههای زمانی و سیستمهای کدگذاری در یک جدول زمانی واحد بیمار ضروری است. این رویکرد امکان پرسشهای زبان طبیعی مانند "آیا این بیمار از زمان شروع مونتلوکاست نشانههای افسردگی نشان داده است؟" را فراهم میکند - و نحوه تعامل پزشکان با دادهها را متحول میکند.
یادگیریهای کلیدی از سیستمهای جدول زمانی بیمار
1. ادغام دادههای چندوجهی حیاتی است
تکیه صرفاً بر دادههای EHR ساختاریافته خطر از دست دادن تا 80٪ از زمینه بیمار را به همراه دارد. ترکیب یادداشتها، نتایج آزمایشگاهی، دادههای تصویربرداری و سوابق نسخهها تصویر کاملتری ارائه میدهد - برای پیشبینی دقیق خطر و پشتیبانی از تصمیمگیری حیاتی است.
2. MVPها در مراقبتهای بهداشتی ساده نیستند
متخصصان مراقبتهای بهداشتی به ندرت سؤالات یک بعدی میپرسند. پرسشهای دنیای واقعی اغلب مستلزم ارجاع متقابل علائم، داروها و نتایج آزمایشها در طول زمان است - که سیستمهایی را میطلبد که سؤالات پیچیده را در بر گیرنده انواع مختلف دادهها را مدیریت کنند.
3. LLMهای با هدف کلی برای این کار ساخته نشدهاند
در حالی که مدلهای GPT در خلاصهسازی و پیشنویس متن عالی هستند، اما در استدلال بالینی ناکام میمانند:
- دقت: GPT-4 اغلب هنگام پاسخ دادن به سؤالات در سطح بیمار از دادههای سلامت ساختاریافته، پرس و جوهای SQL نادرستی تولید میکند.
- سازگاری: تغییرپذیری در پاسخها اعتماد پزشکان را تضعیف میکند.
- سرعت: مدیریت سوابق بزرگ بیمار، مدلهای GPT را حتی با پنجرههای زمینه طولانی تحت فشار قرار میدهد و پایگاه دادههای از پیش بهینهسازیشده را میطلبد.
رسیدگی به حساسیت LLM در مراقبتهای بهداشتی
تطبیق مدلها با پزشکی
LLMهای با هدف کلی اغلب در درک تفاوتهای ظریف زبان پزشکی - مانند اختصارات یا اصطلاحات خاص تخصصی - ناکام میمانند. توسعه مدلهای خاص مراقبتهای بهداشتی مستلزم:
- پیش آموزش بر روی دادههای بالینی.
- تولید مثال مصنوعی برای تقویت موارد حاشیهای.
- هرس دقیق برای حذف دادههای کم کیفیت.
- قرار گرفتن در معرض سبکهای نوشتاری خاص تخصصی (به عنوان مثال، انکولوژی در مقابل روانپزشکی).
تنوع سبکهای یادداشتبرداری پزشکان یک چالش منحصربهفرد است. یک LLM مراقبتهای بهداشتی قوی باید در بین تخصصهای فرعی سازگار شود - چیزی که مدلهای عمومی GPT با آن مشکل دارند.
نکات کلیدی
- LLMهای خاص مراقبتهای بهداشتی در استخراج اطلاعات و استدلال بالینی از مدلهای GPT بهتر عمل میکنند.
- ترکیب دادههای ساختاریافته و بدون ساختار برای بینشهای دقیق ضروری است.
- مدلهای با هدف کلی فاقد دقت و سازگاری لازم برای استفاده بالینی در دنیای واقعی هستند.
- استدلال در سطح بیمار نیازمند راهحلهای تخصصی، با همجوشی دادههای چندوجهی و موتورهای پرس و جو سفارشی است.
نتیجهگیری در مورد مدلهای زبانی بزرگ در مراقبتهای بهداشتی
استفاده از مدلهای زبانی بزرگ در مراقبتهای بهداشتی مستلزم چیزی بیشتر از پذیرش آخرین تکرار GPT است. موفقیت در توسعه مدلهای تخصصی آموزشدیده بر روی دادههای پزشکی، آزمایششده در برابر پیچیدگی دنیای واقعی و ادغامشده در جریانهای کاری بیمارمحور نهفته است.
آینده هوش مصنوعی مراقبتهای بهداشتی نه توسط مدلهای یکاندازه برای همه، بلکه با همکاری بین دانشمندان داده و پزشکان، و سفارشیسازی ابزارها برای خواستههای منحصربهفرد مراقبت از بیمار هدایت خواهد شد.