تصویر مفهومی هوش مصنوعی در توسعه دارو
تصویر مفهومی هوش مصنوعی در توسعه دارو

گوگل AI مدل TxGemma را منتشر کرد: مجموعه‌ای از LLMهای 2B، 9B و 27B برای وظایف درمانی متعدد در توسعه دارو با قابلیت تنظیم دقیق با ترانسفورمرها

توسعه‌ی درمان‌ها همچنان یک تلاش ذاتاً پرهزینه و چالش‌برانگیز است که با نرخ بالای شکست و زمان‌بندی‌های طولانی توسعه مشخص می‌شود. فرآیند سنتی کشف دارو نیازمند اعتبارسنجی‌های تجربی گسترده از شناسایی اولیه هدف تا کارآزمایی‌های بالینی مراحل پایانی است که منابع و زمان قابل توجهی را مصرف می‌کند. روش‌شناسی‌های محاسباتی، به‌ویژه یادگیری ماشین و مدل‌سازی پیش‌بینی‌کننده، به عنوان ابزارهای محوری برای ساده‌سازی این فرآیند ظهور کرده‌اند. با این حال، مدل‌های محاسباتی موجود معمولاً بسیار تخصصی هستند و اثربخشی آن‌ها را در پرداختن به وظایف درمانی متنوع محدود می‌کنند و قابلیت‌های استدلال تعاملی محدودی را که برای تحقیق و تحلیل علمی مورد نیاز است، ارائه می‌دهند.

برای رفع این محدودیت‌ها، گوگل AI مدل TxGemma را معرفی کرده است، مجموعه‌ای از مدل‌های زبان بزرگ (LLM) عمومی که به طور خاص برای تسهیل وظایف مختلف درمانی در توسعه دارو طراحی شده‌اند. TxGemma با ادغام مجموعه داده‌های متنوع، شامل مولکول‌های کوچک، پروتئین‌ها، اسیدهای نوکلئیک، بیماری‌ها و رده‌های سلولی، خود را متمایز می‌کند که به آن امکان می‌دهد مراحل متعددی را در خط لوله توسعه درمانی پوشش دهد. مدل‌های TxGemma، که با پارامترهای ۲ میلیارد (2B)، ۹ میلیارد (9B) و ۲۷ میلیارد (27B) در دسترس هستند، با استفاده از مجموعه داده‌های درمانی جامع از معماری Gemma-2 تنظیم دقیق (fine-tuned) شده‌اند. علاوه بر این، این مجموعه شامل TxGemma-Chat است، یک نوع مدل محاوره‌ای تعاملی، که دانشمندان را قادر می‌سازد تا در بحث‌های دقیق و تفاسیر مکانیکی نتایج پیش‌بینی‌شده مشارکت کنند و شفافیت در استفاده از مدل را تقویت کنند.

از دیدگاه فنی، TxGemma از مجموعه داده‌های مشترک درمانی (Therapeutic Data Commons - TDC) گسترده بهره می‌برد، یک مجموعه داده‌ی منتخب حاوی بیش از ۱۵ میلیون نقطه داده در ۶۶ مجموعه داده مرتبط با درمان. TxGemma-Predict، نوع پیش‌بینی‌کننده مجموعه مدل، عملکرد قابل توجهی را در این مجموعه داده‌ها نشان می‌دهد و با عملکرد مدل‌های عمومی و تخصصی که در حال حاضر در مدل‌سازی درمانی به کار می‌روند، مطابقت دارد یا از آن‌ها فراتر می‌رود. قابل ذکر است که رویکرد تنظیم دقیق به کار رفته در TxGemma، دقت پیش‌بینی را با نمونه‌های آموزشی بسیار کمتری بهینه می‌کند و مزیت حیاتی در حوزه‌هایی که کمبود داده شایع است، فراهم می‌کند. Agentic-Tx که توسط Gemini 2.0 قدرت گرفته است، با گسترش بیشتر قابلیت‌های خود، پرس‌وجوهای درمانی پیچیده را با ترکیب بینش‌های پیش‌بینی‌کننده از TxGemma-Predict و بحث‌های تعاملی از TxGemma-Chat با ابزارهای خارجی خاص دامنه، به صورت پویا هماهنگ می‌کند.

ارزیابی‌های تجربی بر قابلیت TxGemma تأکید دارند. در ۶۶ وظیفه‌ی انتخاب شده توسط TDC، TxGemma-Predict به طور مداوم عملکردی قابل مقایسه یا فراتر از مدل‌های پیشرفته (state-of-the-art) موجود را به دست آورد. به طور خاص، مدل‌های پیش‌بینی‌کننده TxGemma در ۴۵ وظیفه از مدل‌های عمومی پیشرفته و در ۲۶ وظیفه از مدل‌های تخصصی پیشی گرفتند، با کارایی قابل توجه در پیش‌بینی عوارض جانبی کارآزمایی‌های بالینی. در بنچمارک‌های چالش‌برانگیز مانند ChemBench و Humanity’s Last Exam، Agentic-Tx مزایای آشکاری نسبت به مدل‌های پیشرو قبلی نشان داد و دقت را به ترتیب تقریباً ۵.۶٪ و ۱۷.۹٪ افزایش داد. علاوه بر این، قابلیت‌های محاوره‌ای تعبیه شده در TxGemma-Chat، استدلال تعاملی ضروری را برای پشتیبانی از تحلیل‌ها و بحث‌های علمی عمیق فراهم کرد.

کاربرد عملی TxGemma به ویژه در پیش‌بینی عوارض جانبی در طول کارآزمایی‌های بالینی، جنبه‌ای ضروری از ارزیابی ایمنی درمانی، مشهود است. TxGemma-27B-Predict عملکرد پیش‌بینی قوی را در حالی نشان داد که در مقایسه با مدل‌های مرسوم، از نمونه‌های آموزشی به طور قابل توجهی کمتری استفاده می‌کرد که نشان‌دهنده افزایش کارایی و قابلیت اطمینان داده‌ها است. علاوه بر این، ارزیابی‌های عملکرد محاسباتی نشان می‌دهد که سرعت استنتاج (inference speed) TxGemma از کاربردهای عملی بلادرنگ، مانند غربالگری مجازی (virtual screening) پشتیبانی می‌کند، به طوری که بزرگترین نوع آن (با ۲۷ میلیارد پارامتر) قادر است حجم نمونه‌های بزرگ را به صورت روزانه هنگام استقرار بر روی زیرساخت‌های مقیاس‌پذیر، به طور کارآمد پردازش کند.

به طور خلاصه، معرفی TxGemma توسط گوگل AI نشان‌دهنده پیشرفت روشمند در تحقیقات محاسباتی درمانی است که اثربخشی پیش‌بینی، استدلال تعاملی و کارایی بهبود یافته داده‌ها را ترکیب می‌کند. گوگل با در دسترس قرار دادن عمومی TxGemma، اعتبارسنجی و انطباق بیشتر بر روی مجموعه داده‌های متنوع و اختصاصی را امکان‌پذیر می‌سازد و در نتیجه کاربرد گسترده‌تر و تکرارپذیری در تحقیقات درمانی را ترویج می‌کند. این مجموعه با قابلیت‌های محاوره‌ای پیشرفته از طریق TxGemma-Chat و ادغام گردش کار پیچیده از طریق Agentic-Tx، ابزارهای محاسباتی پیشرفته‌ای را در اختیار محققان قرار می‌دهد که قادر به بهبود قابل توجه فرآیندهای تصمیم‌گیری در توسعه درمانی هستند.

مقاله و مدل‌ها در Hugging Face را بررسی کنید. تمام اعتبار این تحقیق متعلق به محققان این پروژه است.