یک تیم تحقیقاتی Evo 2 را توسعه دادهاند که آن را بزرگترین مدل هوش مصنوعی ایجاد شده تاکنون برای کاربردهای بیولوژیکی توصیف میکنند. این سیستم میتواند کروموزومهای کامل را تولید کند و تغییرات ژنتیکی پیچیده را در اشکال مختلف زندگی درک کند.
Evo 2 بر اساس یک اطلس ژنومی گسترده ساخته شده است که شامل 9.3 تریلیون جفت باز DNA از باکتریها، آرکئونها و یوکاریوتها است - که نشان دهنده بیش از 100000 گونه است. محققان موسسه Arc، دانشگاه استنفورد، UC Berkeley، UC San Francisco و Nvidia میگویند این آموزش گسترده به مدل اجازه میدهد تا توالیهای بیولوژیکی را از مقیاس مولکولی تا ژنومی در تمام اشکال حیات پیشبینی و طراحی کند.
این تیم دو نسخه از Evo 2 را توسعه دادند که به ترتیب دارای 7 و 40 میلیارد پارامتر هستند. هر دو میتوانند متون توالی را تا 1 میلیون جفت باز پردازش کنند. به گفته محققان، این مدل یاد میگیرد که به طور دقیق پیشبینی کند که چگونه انواع ژنتیکی بر عملکرد تأثیر میگذارند، فقط با تجزیه و تحلیل توالیهای DNA، بدون نیاز به آموزش خاص کار اضافی.
مدل توانایی تولید ساختارهای ژنتیکی پیچیده را نشان میدهد
آزمایشها نشان میدهد که Evo 2 به طور مستقل ویژگیهای بیولوژیکی مختلف را درک میکند و میتواند ژنومهای میتوکندریایی کامل، ژنومهای پروکاریوتی و کروموزومهای یوکاریوتی مطابق با طول و پیچیدگی نمونههای طبیعی را تولید کند. هنگام تجزیه و تحلیل جهشها در ژن سرطان سینه BRCA1، این سیستم تقریباً با دقت بهترین مدلهای هوش مصنوعی موجود در شناسایی تغییرات ایجاد کننده بیماری مطابقت داشت.
محققان کشف کردند که استفاده از جستجوی زمان استنتاج - که در آن Evo 2 چندین توالی ممکن را تولید میکند و آنها را از طریق یک تابع ارزیابی فیلتر میکند - امکان کنترل دقیق بر ساختارهای اپی ژنومی پیچیده مانند دسترسی کروماتین را فراهم میکند. این اولین نمایش نتایج مقیاسبندی برای محاسبات زمان استنتاج در زیستشناسی است.
توانایی کنترل دسترسی کروماتین - چگونگی بستهبندی محکم DNA در هسته سلول - از اهمیت ویژهای برخوردار است. این بستهبندی تعیین میکند که آیا ژنها میتوانند توسط پروتئینهای سلولی دسترسی و فعال شوند یا غیرفعال باقی بمانند. Evo 2 از طریق استفاده ترکیبی از مدلسازی تولیدی و جستجوی زمان استنتاج، میتواند توالیهای DNA را با الگوهای تنظیمی اپی ژنتیکی خاص طراحی کند و به طور دقیق مشخص کند که کدام مناطق باید در دسترس یا غیرفعال باشند.
انتشار متن باز با هدف تسریع تحقیقات بیولوژیکی
برای کمک به پیشبرد تحقیقات و طراحی بیولوژیکی، این تیم Evo 2 را به طور کامل به صورت متن باز درآورده است، از جمله پارامترهای مدل، کد آموزش و استنتاج و مجموعه داده OpenGenome2. این امر آن را به یکی از بزرگترین مدلهای کاملاً باز در این زمینه تبدیل میکند. مانند سلف خود Evo 1، از یک معماری ترکیبی از سری StripedHyena استفاده میکند.
Evo 2 یک جهش بزرگ رو به جلو از Evo 1 است. مدل جدید 30 برابر بیشتر داده آموزش دیده است و با گنجاندن یوکاریوتها، دامنه بسیار وسیعتری از اشکال حیات را پوشش میدهد. متن توالی آن از 8000 به 1 میلیون جفت باز افزایش یافته است که تا حدی توسط معماری جدید "StripedHyena 2" امکان پذیر شده است. در حالی که Evo 1 فقط میتواند با پروکاریوتها کار کند، Evo 2 پیشبینیهای کل ژنوم را در تمام حوزههای زندگی با دقت بهبود یافته انجام میدهد.
هنوز کارهای زیادی برای انجام دادن وجود دارد
Anshul Kundaje، زیستشناس محاسباتی استنفورد، معماری فنی این مدل را تحسین کرد، اما این سوال را مطرح کرد که آیا واقعاً توالیهای غیرکدگذاری دوردست که فعالیت ژن را تنظیم میکنند را درک میکند یا خیر.
Brian Hie از استنفورد و موسسه Arc اذعان میکند که در حالی که ژنومهای تولید شده توسط Evo 2 نسبت به کار سلف خود بهبود یافتهاند، احتمالاً هنوز در سلولهای زنده عمل نخواهند کرد. این تیم به دلایل اخلاقی و ایمنی، پاتوژنهای انسانی و ارگانیسمهای پیچیده را عمداً از دادههای آموزشی حذف کرد و اطمینان حاصل کرد که این مدل پاسخهای مفیدی در مورد این پاتوژنها ارائه نمیدهد.
خلاصه
- محققان در موسسه Arc، دانشگاه استنفورد و Nvidia، Evo 2 را توسعه دادهاند، جامعترین مدل هوش مصنوعی برای کاربردهای بیولوژیکی تا به امروز، که بر روی یک اطلس ژنومی از 9.3 تریلیون جفت باز DNA آموزش دیده است.
- Evo 2 میتواند به طور مستقل تعداد زیادی از ویژگیهای بیولوژیکی را بیاموزد، ژنومهای کامل تولید کند و ساختارهای اپی ژنومی پیچیده مانند دسترسی کروماتین را به روشی کنترلشده با استفاده از جستجوی زمان استنتاج طراحی کند.
- توسعهدهندگان Evo 2 را به عنوان یکی از بزرگترین مدلهای زبان هوش مصنوعی کاملاً باز به صورت رایگان در دسترس قرار میدهند، اما فضایی برای بهبود میبینند و در حال برنامهریزی آزمایشهای آزمایشگاهی برای اعتبارسنجی و در درازمدت، مدلسازی هوش مصنوعی کل سلول هستند.