در حالی که مدلهای زبانی بزرگ (LLM) پیشرفتهای چشمگیری در برنامههای کاربردی عمومی نشان دادهاند، توسعه آنها برای زمینههای تخصصی مانند پزشکی همچنان محدود است. پیچیدگی دانش پزشکی و کمبود دادههای با کیفیت بالا و خاص دامنه، ایجاد مدلهای زبانی بزرگ پزشکی بسیار کارآمد را چالشبرانگیز میکند. اگرچه مدلهایی مانند GPT-4 و DeepseekR1 قابلیتهای چشمگیری را در صنایع مختلف نشان دادهاند، اما انطباق آنها با حوزه پزشکی به دلیل ماهیت پیچیده اصطلاحات پزشکی، رشتههای گوناگون و ادبیات دائماً در حال تحول، با مانع مواجه میشود. برخلاف برنامههای کاربردی عمومی، هوش مصنوعی پزشکی باید زبان بسیار فنی را تفسیر کند و پاسخهای دقیق و متناسب با زمینه را ارائه دهد، که مدلهای زبانی بزرگ سنتی برای دستیابی به آن تلاش میکنند.
یکی از موانع اصلی در ساخت مدلهای زبانی بزرگ پزشکی مؤثر، دسترسی محدود به دادههای آموزشی با کیفیت بالا است که به دلیل نگرانیهای مربوط به حریم خصوصی و موانع نظارتی محدود شده است. مجموعههای داده پزشکی شامل اطلاعات ساختاریافته و بدون ساختار، از جمله یادداشتهای بالینی، کتابهای درسی و مقالات تحقیقاتی است که آموزش جامع مدل را دشوار میکند. در حالی که رویکردهایی مانند تنظیم دقیق مدلهای زبانی بزرگ عمومی بر روی مجموعههای داده پزشکی و استفاده از یادگیری انتقالی مورد بررسی قرار گرفتهاند، این روشها اغلب در درک کامل عمق دانش پزشکی ناکام میمانند. در نتیجه، چنین مدلهایی ممکن است در وظایف خاص عملکرد خوبی داشته باشند، اما فاقد درک ظریف لازم برای پرسشهای پیچیده پزشکی هستند و نیاز به استراتژیهای آموزشی اصلاحشده را برجسته میکنند.
محققان Baichuan Inc.، Baichuan-M1 را معرفی کردند، یک مجموعه مدل زبانی بزرگ تخصصی که بهطور خاص برای برنامههای کاربردی پزشکی طراحی شده است. برخلاف مدلهای سنتی که معماریهای موجود را از طریق پیشآموزش یا پسآموزش اضافی اصلاح میکنند، Baichuan-M1 از ابتدا با تمرکز قوی بر تخصص پزشکی ساخته شده است. این مدل که بر روی 20 تریلیون توکن، از جمله دادههای عمومی و خاص پزشکی آموزش داده شده است، درک گسترده زبان را با دقت خاص دامنه متعادل میکند. این مدل در وظایف عمومی مانند کدنویسی و ریاضیات و در برنامههای کاربردی پزشکی مانند تشخیص و توصیههای درمانی عالی است. Baichuan-M1 با معماری Transformer بهینهسازیشده، معیار جدیدی را برای پیشرفتهای مبتنی بر هوش مصنوعی در مراقبتهای بهداشتی تعیین میکند.
معماری مدل از Llama و چارچوبهای مشابه پیروی میکند و RMSNorm پیشنرمال، SwishGlu در لایه FFN و جاسازیهای موقعیتی چرخشی را در خود جای داده است. این مطالعه توجه جهانی و پنجره کشویی را برای بهینهسازی کارایی استنتاج ادغام میکند و ابعاد سر را برای لایههای جهانی به 256 افزایش میدهد. علاوه بر این، کانولوشنهای کوتاه زمانی بر روی توجه کلیدی-مقدار، یادگیری درون متنی را افزایش میدهد. این مدل از یک توکنساز ترکیبی برای متن پزشکی و عمومی، یک استراتژی آموزشی مبتنی بر برنامه درسی با پیچیدگی داده پیشرونده و برش گرادیان تطبیقی برای پایداری استفاده میکند. تنظیم دقیق نظارتشده، استدلال عمومی و وظایف خاص پزشکی را اصلاح میکند و درک قوی زبان، استدلال پزشکی و قابلیتهای مدیریت اسناد طولانی را در عین حفظ کارایی استنتاج تضمین میکند.
با استفاده از معیارهای مختلف، تواناییهای کد و ریاضی baichuan-M1-14B-Base در برابر مدلهای سری Qwen2.5 ارزیابی شد. عملکرد تولید کد با چارچوب EvalPlus و Bigcodebench آزمایش شد، در حالی که مهارت ریاضی با استفاده از مجموعههای داده MATH و CMATH ارزیابی شد. اگرچه نوع 14B-Instruct هنوز از مدلهای اختصاصی مانند Claude-3.5-Sonnet و GPT-4o عقب است، اما این شکاف به طور قابل توجهی کاهش یافته است. نتایج نشان میدهد که Baichuan-M1-14B-Base در وظایف خاص رقابتی عمل میکند و نقاط قوت تولید کد و استدلال ریاضی خود را در مقایسه با سایر مدلهای پیشرفته به نمایش میگذارد.
در پایان، روشهای سنتی برای تطبیق مدلهای زبانی بزرگ با زمینههای تخصصی اغلب شامل تنظیم دقیق مدلهای موجود است. با این حال، آزمایشها نشان میدهند که آموزش بیشتر بر روی مدلهای از پیش موجود میتواند مانع از پیشرفتهای خاص دامنه بدون قربانی کردن عملکرد عمومی شود. در حوزه پزشکی، تنظیم دقیق مدلهای عمومی با دادههای خاص دامنه ممکن است کمتر از آموزش از ابتدا مؤثر باشد. Baichuan-M1 با این رویکرد توسعه یافت و از 20 تریلیون توکن برای افزایش تخصص پزشکی ضمن حفظ قابلیتهای عمومی استفاده کرد. متنباز کردن Baichuan-M1-14B امکان تحقیقات بیشتر را فراهم میکند، اگرچه چالشها در تشخیص بیماریهای نادر و کاربردهای دنیای واقعی باقی میمانند. تکامل مستمر آن میتواند به طور قابل توجهی تصمیمگیری پزشکی مبتنی بر هوش مصنوعی را پیشرفت دهد.
مقاله، Baichuan-M1-14B-Base و Baichuan-M1-14B-Instruct را بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه میرسد. همچنین، در توییتر ما را دنبال کنید و فراموش نکنید که به انجمن 75k+ ML SubReddit ما بپیوندید.