گوگل دیپمایند از TxGemma، مجموعه جدیدی از مدلهای زبانی متنباز که برای پشتیبانی از توسعه درمان ساخته شدهاند، رونمایی کرد. هدف از این مدلها، بهبود وظایفی مانند ارزیابی کاندیداهای دارویی، پیشبینی خصوصیات مولکولی و تخمین نتایج آزمایشهای بالینی با استفاده از قابلیتهای مدل زبانی بزرگ (Large Language Model) در دادههای زیستپزشکی است.
TxGemma از طریق Vertex AI Model Garden و Hugging Face در دسترس است. گوگل دیپمایند از جامعه پژوهشگران دعوت کرده است تا با این مدلها آزمایش کنند، آنها را با دادههای اختصاصی خود تنظیم دقیق (fine-tune) کنند و نتایج را به اشتراک بگذارند.
TxGemma بر اساس خانواده مدلهای Gemma ساخته شده است و جانشین Tx-LLM است که در اکتبر ۲۰۲۴ معرفی شد. این مدل بر روی ۷ میلیون نمونه آموزش داده شده و در سه اندازه ۲B، ۹B و ۲۷B در دسترس است. هر نسخه شامل یک مدل "predict" برای وظایف خاص، مانند تعیین سمیت مولکولی، و یک مدل "chat" برای تجزیه و تحلیل مکالمهای است.
"TxGemma به طور خاص برای درک و پیشبینی خواص موجودیتهای درمانی در طول فرآیند کشف آموزش داده شده است." این را شکوفه عزیزی، دانشمند پژوهشی در گوگل دیپمایند، گفت. "این میتواند به طور بالقوه زمان انتقال از آزمایشگاه به بالین بیمار را کوتاه کند و هزینههای مرتبط با روشهای سنتی را کاهش دهد."
مدل پیشبینی ۲۷B عملکرد بهتری داشت یا همتراز با مدل قبلی خود Tx-LLM و مدلهای تخصصی بود. این مدل در ۴۵ مورد از ۶۶ وظیفه محک، از Tx-LLM بهتر عمل کرد و در ۵۰ مورد از آنها با مدلهای خاص وظیفه مطابقت داشت یا از آنها فراتر رفت.
علاوه بر مدلهای پیشبینیکننده، TxGemma شامل نسخههای مبتنی بر چت با تنظیم دستورالعمل (instruction tuning) است که میتواند به سؤالات پیچیده علمی پاسخ دهد. این نسخهها از محققان در تفسیر پیشبینیها پشتیبانی میکنند. به عنوان مثال، این مدل میتواند پیشبینیهای سمیت را بر اساس ساختار یک مولکول توضیح دهد.
این انتشار همچنین شامل ابزارهایی برای پشتیبانی از تنظیم دقیق است. یک نوتبوک Colab با استفاده از مجموعه داده TrialBench نشان میدهد که چگونه توسعهدهندگان میتوانند TxGemma را برای وظایفی مانند پیشبینی رویدادهای نامطلوب در آزمایشهای بالینی تطبیق دهند. عزیزی گفت: "تنظیم دقیق به محققان اجازه میدهد تا از دادههای اختصاصی خود برای ایجاد مدلهایی متناسب با نیازهای تحقیقاتی منحصر به فرد خود استفاده کنند."
دیپمایند همچنین Agentic-Tx، یک سیستم هماهنگشده با Gemini 2.0 Pro را معرفی کرده است تا دامنه دسترسی مدل را گسترش دهد. این چارچوب عاملمحور (agentic framework)، TxGemma را با ۱۸ ابزار - از جمله ابزارهای جستجو، مراجع ژن و پروتئین و ماژولهای تجزیه و تحلیل مولکولی - ادغام میکند تا وظایف استدلال چند مرحلهای را در زیستشناسی و شیمی انجام دهد.
Agentic-Tx عملکرد قوی در بنچمارکهای دشواری مانند ChemBench و Humanity's Last Exam نشان داد. یک نوتبوک Colab جداگانه نشان میدهد که چگونه این سیستم میتواند گردشهای کاری درمانی پیچیده را مدیریت کند.
عزیزی گفت: "ما هیجانزده هستیم که ببینیم جامعه چگونه از TxGemma برای تسریع کشف درمان استفاده خواهد کرد."