انتشار TxGemma توسط Google DeepMind برای تسریع توسعه دارو

گوگل دیپ‌مایند از TxGemma، مجموعه جدیدی از مدل‌های زبانی متن‌باز که برای پشتیبانی از توسعه درمان ساخته شده‌اند، رونمایی کرد. هدف از این مدل‌ها، بهبود وظایفی مانند ارزیابی کاندیداهای دارویی، پیش‌بینی خصوصیات مولکولی و تخمین نتایج آزمایش‌های بالینی با استفاده از قابلیت‌های مدل زبانی بزرگ (Large Language Model) در داده‌های زیست‌پزشکی است.

TxGemma از طریق Vertex AI Model Garden و Hugging Face در دسترس است. گوگل دیپ‌مایند از جامعه پژوهشگران دعوت کرده است تا با این مدل‌ها آزمایش کنند، آنها را با داده‌های اختصاصی خود تنظیم دقیق (fine-tune) کنند و نتایج را به اشتراک بگذارند.

TxGemma بر اساس خانواده مدل‌های Gemma ساخته شده است و جانشین Tx-LLM است که در اکتبر ۲۰۲۴ معرفی شد. این مدل بر روی ۷ میلیون نمونه آموزش داده شده و در سه اندازه ۲B، ۹B و ۲۷B در دسترس است. هر نسخه شامل یک مدل "predict" برای وظایف خاص، مانند تعیین سمیت مولکولی، و یک مدل "chat" برای تجزیه و تحلیل مکالمه‌ای است.

"TxGemma به طور خاص برای درک و پیش‌بینی خواص موجودیت‌های درمانی در طول فرآیند کشف آموزش داده شده است." این را شکوفه عزیزی، دانشمند پژوهشی در گوگل دیپ‌مایند، گفت. "این می‌تواند به طور بالقوه زمان انتقال از آزمایشگاه به بالین بیمار را کوتاه کند و هزینه‌های مرتبط با روش‌های سنتی را کاهش دهد."

مدل پیش‌بینی ۲۷B عملکرد بهتری داشت یا همتراز با مدل قبلی خود Tx-LLM و مدل‌های تخصصی بود. این مدل در ۴۵ مورد از ۶۶ وظیفه محک، از Tx-LLM بهتر عمل کرد و در ۵۰ مورد از آنها با مدل‌های خاص وظیفه مطابقت داشت یا از آنها فراتر رفت.

علاوه بر مدل‌های پیش‌بینی‌کننده، TxGemma شامل نسخه‌های مبتنی بر چت با تنظیم دستورالعمل (instruction tuning) است که می‌تواند به سؤالات پیچیده علمی پاسخ دهد. این نسخه‌ها از محققان در تفسیر پیش‌بینی‌ها پشتیبانی می‌کنند. به عنوان مثال، این مدل می‌تواند پیش‌بینی‌های سمیت را بر اساس ساختار یک مولکول توضیح دهد.

این انتشار همچنین شامل ابزارهایی برای پشتیبانی از تنظیم دقیق است. یک نوت‌بوک Colab با استفاده از مجموعه داده TrialBench نشان می‌دهد که چگونه توسعه‌دهندگان می‌توانند TxGemma را برای وظایفی مانند پیش‌بینی رویدادهای نامطلوب در آزمایش‌های بالینی تطبیق دهند. عزیزی گفت: "تنظیم دقیق به محققان اجازه می‌دهد تا از داده‌های اختصاصی خود برای ایجاد مدل‌هایی متناسب با نیازهای تحقیقاتی منحصر به فرد خود استفاده کنند."

دیپ‌مایند همچنین Agentic-Tx، یک سیستم هماهنگ‌شده با Gemini 2.0 Pro را معرفی کرده است تا دامنه دسترسی مدل را گسترش دهد. این چارچوب عامل‌محور (agentic framework)، TxGemma را با ۱۸ ابزار - از جمله ابزارهای جستجو، مراجع ژن و پروتئین و ماژول‌های تجزیه و تحلیل مولکولی - ادغام می‌کند تا وظایف استدلال چند مرحله‌ای را در زیست‌شناسی و شیمی انجام دهد.

Agentic-Tx عملکرد قوی در بنچمارک‌های دشواری مانند ChemBench و Humanity's Last Exam نشان داد. یک نوت‌بوک Colab جداگانه نشان می‌دهد که چگونه این سیستم می‌تواند گردش‌های کاری درمانی پیچیده را مدیریت کند.

عزیزی گفت: "ما هیجان‌زده هستیم که ببینیم جامعه چگونه از TxGemma برای تسریع کشف درمان استفاده خواهد کرد."