توسعهی درمانها همچنان یک تلاش ذاتاً پرهزینه و چالشبرانگیز است که با نرخ بالای شکست و زمانبندیهای طولانی توسعه مشخص میشود. فرآیند سنتی کشف دارو نیازمند اعتبارسنجیهای تجربی گسترده از شناسایی اولیه هدف تا کارآزماییهای بالینی مراحل پایانی است که منابع و زمان قابل توجهی را مصرف میکند. روششناسیهای محاسباتی، بهویژه یادگیری ماشین و مدلسازی پیشبینیکننده، به عنوان ابزارهای محوری برای سادهسازی این فرآیند ظهور کردهاند. با این حال، مدلهای محاسباتی موجود معمولاً بسیار تخصصی هستند و اثربخشی آنها را در پرداختن به وظایف درمانی متنوع محدود میکنند و قابلیتهای استدلال تعاملی محدودی را که برای تحقیق و تحلیل علمی مورد نیاز است، ارائه میدهند.
برای رفع این محدودیتها، گوگل AI مدل TxGemma را معرفی کرده است، مجموعهای از مدلهای زبان بزرگ (LLM) عمومی که به طور خاص برای تسهیل وظایف مختلف درمانی در توسعه دارو طراحی شدهاند. TxGemma با ادغام مجموعه دادههای متنوع، شامل مولکولهای کوچک، پروتئینها، اسیدهای نوکلئیک، بیماریها و ردههای سلولی، خود را متمایز میکند که به آن امکان میدهد مراحل متعددی را در خط لوله توسعه درمانی پوشش دهد. مدلهای TxGemma، که با پارامترهای ۲ میلیارد (2B)، ۹ میلیارد (9B) و ۲۷ میلیارد (27B) در دسترس هستند، با استفاده از مجموعه دادههای درمانی جامع از معماری Gemma-2 تنظیم دقیق (fine-tuned) شدهاند. علاوه بر این، این مجموعه شامل TxGemma-Chat است، یک نوع مدل محاورهای تعاملی، که دانشمندان را قادر میسازد تا در بحثهای دقیق و تفاسیر مکانیکی نتایج پیشبینیشده مشارکت کنند و شفافیت در استفاده از مدل را تقویت کنند.
از دیدگاه فنی، TxGemma از مجموعه دادههای مشترک درمانی (Therapeutic Data Commons - TDC) گسترده بهره میبرد، یک مجموعه دادهی منتخب حاوی بیش از ۱۵ میلیون نقطه داده در ۶۶ مجموعه داده مرتبط با درمان. TxGemma-Predict، نوع پیشبینیکننده مجموعه مدل، عملکرد قابل توجهی را در این مجموعه دادهها نشان میدهد و با عملکرد مدلهای عمومی و تخصصی که در حال حاضر در مدلسازی درمانی به کار میروند، مطابقت دارد یا از آنها فراتر میرود. قابل ذکر است که رویکرد تنظیم دقیق به کار رفته در TxGemma، دقت پیشبینی را با نمونههای آموزشی بسیار کمتری بهینه میکند و مزیت حیاتی در حوزههایی که کمبود داده شایع است، فراهم میکند. Agentic-Tx که توسط Gemini 2.0 قدرت گرفته است، با گسترش بیشتر قابلیتهای خود، پرسوجوهای درمانی پیچیده را با ترکیب بینشهای پیشبینیکننده از TxGemma-Predict و بحثهای تعاملی از TxGemma-Chat با ابزارهای خارجی خاص دامنه، به صورت پویا هماهنگ میکند.
ارزیابیهای تجربی بر قابلیت TxGemma تأکید دارند. در ۶۶ وظیفهی انتخاب شده توسط TDC، TxGemma-Predict به طور مداوم عملکردی قابل مقایسه یا فراتر از مدلهای پیشرفته (state-of-the-art) موجود را به دست آورد. به طور خاص، مدلهای پیشبینیکننده TxGemma در ۴۵ وظیفه از مدلهای عمومی پیشرفته و در ۲۶ وظیفه از مدلهای تخصصی پیشی گرفتند، با کارایی قابل توجه در پیشبینی عوارض جانبی کارآزماییهای بالینی. در بنچمارکهای چالشبرانگیز مانند ChemBench و Humanity’s Last Exam، Agentic-Tx مزایای آشکاری نسبت به مدلهای پیشرو قبلی نشان داد و دقت را به ترتیب تقریباً ۵.۶٪ و ۱۷.۹٪ افزایش داد. علاوه بر این، قابلیتهای محاورهای تعبیه شده در TxGemma-Chat، استدلال تعاملی ضروری را برای پشتیبانی از تحلیلها و بحثهای علمی عمیق فراهم کرد.
کاربرد عملی TxGemma به ویژه در پیشبینی عوارض جانبی در طول کارآزماییهای بالینی، جنبهای ضروری از ارزیابی ایمنی درمانی، مشهود است. TxGemma-27B-Predict عملکرد پیشبینی قوی را در حالی نشان داد که در مقایسه با مدلهای مرسوم، از نمونههای آموزشی به طور قابل توجهی کمتری استفاده میکرد که نشاندهنده افزایش کارایی و قابلیت اطمینان دادهها است. علاوه بر این، ارزیابیهای عملکرد محاسباتی نشان میدهد که سرعت استنتاج (inference speed) TxGemma از کاربردهای عملی بلادرنگ، مانند غربالگری مجازی (virtual screening) پشتیبانی میکند، به طوری که بزرگترین نوع آن (با ۲۷ میلیارد پارامتر) قادر است حجم نمونههای بزرگ را به صورت روزانه هنگام استقرار بر روی زیرساختهای مقیاسپذیر، به طور کارآمد پردازش کند.
به طور خلاصه، معرفی TxGemma توسط گوگل AI نشاندهنده پیشرفت روشمند در تحقیقات محاسباتی درمانی است که اثربخشی پیشبینی، استدلال تعاملی و کارایی بهبود یافته دادهها را ترکیب میکند. گوگل با در دسترس قرار دادن عمومی TxGemma، اعتبارسنجی و انطباق بیشتر بر روی مجموعه دادههای متنوع و اختصاصی را امکانپذیر میسازد و در نتیجه کاربرد گستردهتر و تکرارپذیری در تحقیقات درمانی را ترویج میکند. این مجموعه با قابلیتهای محاورهای پیشرفته از طریق TxGemma-Chat و ادغام گردش کار پیچیده از طریق Agentic-Tx، ابزارهای محاسباتی پیشرفتهای را در اختیار محققان قرار میدهد که قادر به بهبود قابل توجه فرآیندهای تصمیمگیری در توسعه درمانی هستند.
مقاله و مدلها در Hugging Face را بررسی کنید. تمام اعتبار این تحقیق متعلق به محققان این پروژه است.