Arc Institute
Arc Institute

Evo 2: یک مدل هوش مصنوعی که زبان حیات را می‌فهمد

یک تیم تحقیقاتی Evo 2 را توسعه داده‌اند که آن را بزرگترین مدل هوش مصنوعی ایجاد شده تاکنون برای کاربردهای بیولوژیکی توصیف می‌کنند. این سیستم می‌تواند کروموزوم‌های کامل را تولید کند و تغییرات ژنتیکی پیچیده را در اشکال مختلف زندگی درک کند.

Evo 2 بر اساس یک اطلس ژنومی گسترده ساخته شده است که شامل 9.3 تریلیون جفت باز DNA از باکتری‌ها، آرکئون‌ها و یوکاریوت‌ها است - که نشان دهنده بیش از 100000 گونه است. محققان موسسه Arc، دانشگاه استنفورد، UC Berkeley، UC San Francisco و Nvidia می‌گویند این آموزش گسترده به مدل اجازه می‌دهد تا توالی‌های بیولوژیکی را از مقیاس مولکولی تا ژنومی در تمام اشکال حیات پیش‌بینی و طراحی کند.

این تیم دو نسخه از Evo 2 را توسعه دادند که به ترتیب دارای 7 و 40 میلیارد پارامتر هستند. هر دو می‌توانند متون توالی را تا 1 میلیون جفت باز پردازش کنند. به گفته محققان، این مدل یاد می‌گیرد که به طور دقیق پیش‌بینی کند که چگونه انواع ژنتیکی بر عملکرد تأثیر می‌گذارند، فقط با تجزیه و تحلیل توالی‌های DNA، بدون نیاز به آموزش خاص کار اضافی.

مدل توانایی تولید ساختارهای ژنتیکی پیچیده را نشان می‌دهد

آزمایش‌ها نشان می‌دهد که Evo 2 به طور مستقل ویژگی‌های بیولوژیکی مختلف را درک می‌کند و می‌تواند ژنوم‌های میتوکندریایی کامل، ژنوم‌های پروکاریوتی و کروموزوم‌های یوکاریوتی مطابق با طول و پیچیدگی نمونه‌های طبیعی را تولید کند. هنگام تجزیه و تحلیل جهش‌ها در ژن سرطان سینه BRCA1، این سیستم تقریباً با دقت بهترین مدل‌های هوش مصنوعی موجود در شناسایی تغییرات ایجاد کننده بیماری مطابقت داشت.

محققان کشف کردند که استفاده از جستجوی زمان استنتاج - که در آن Evo 2 چندین توالی ممکن را تولید می‌کند و آنها را از طریق یک تابع ارزیابی فیلتر می‌کند - امکان کنترل دقیق بر ساختارهای اپی ژنومی پیچیده مانند دسترسی کروماتین را فراهم می‌کند. این اولین نمایش نتایج مقیاس‌بندی برای محاسبات زمان استنتاج در زیست‌شناسی است.

توانایی کنترل دسترسی کروماتین - چگونگی بسته‌بندی محکم DNA در هسته سلول - از اهمیت ویژه‌ای برخوردار است. این بسته‌بندی تعیین می‌کند که آیا ژن‌ها می‌توانند توسط پروتئین‌های سلولی دسترسی و فعال شوند یا غیرفعال باقی بمانند. Evo 2 از طریق استفاده ترکیبی از مدل‌سازی تولیدی و جستجوی زمان استنتاج، می‌تواند توالی‌های DNA را با الگوهای تنظیمی اپی ژنتیکی خاص طراحی کند و به طور دقیق مشخص کند که کدام مناطق باید در دسترس یا غیرفعال باشند.

انتشار متن باز با هدف تسریع تحقیقات بیولوژیکی

برای کمک به پیشبرد تحقیقات و طراحی بیولوژیکی، این تیم Evo 2 را به طور کامل به صورت متن باز درآورده است، از جمله پارامترهای مدل، کد آموزش و استنتاج و مجموعه داده OpenGenome2. این امر آن را به یکی از بزرگترین مدل‌های کاملاً باز در این زمینه تبدیل می‌کند. مانند سلف خود Evo 1، از یک معماری ترکیبی از سری StripedHyena استفاده می‌کند.

Evo 2 یک جهش بزرگ رو به جلو از Evo 1 است. مدل جدید 30 برابر بیشتر داده آموزش دیده است و با گنجاندن یوکاریوت‌ها، دامنه بسیار وسیع‌تری از اشکال حیات را پوشش می‌دهد. متن توالی آن از 8000 به 1 میلیون جفت باز افزایش یافته است که تا حدی توسط معماری جدید "StripedHyena 2" امکان پذیر شده است. در حالی که Evo 1 فقط می‌تواند با پروکاریوت‌ها کار کند، Evo 2 پیش‌بینی‌های کل ژنوم را در تمام حوزه‌های زندگی با دقت بهبود یافته انجام می‌دهد.

هنوز کارهای زیادی برای انجام دادن وجود دارد

Anshul Kundaje، زیست‌شناس محاسباتی استنفورد، معماری فنی این مدل را تحسین کرد، اما این سوال را مطرح کرد که آیا واقعاً توالی‌های غیرکدگذاری دوردست که فعالیت ژن را تنظیم می‌کنند را درک می‌کند یا خیر.

Brian Hie از استنفورد و موسسه Arc اذعان می‌کند که در حالی که ژنوم‌های تولید شده توسط Evo 2 نسبت به کار سلف خود بهبود یافته‌اند، احتمالاً هنوز در سلول‌های زنده عمل نخواهند کرد. این تیم به دلایل اخلاقی و ایمنی، پاتوژن‌های انسانی و ارگانیسم‌های پیچیده را عمداً از داده‌های آموزشی حذف کرد و اطمینان حاصل کرد که این مدل پاسخ‌های مفیدی در مورد این پاتوژن‌ها ارائه نمی‌دهد.

خلاصه

  • محققان در موسسه Arc، دانشگاه استنفورد و Nvidia، Evo 2 را توسعه داده‌اند، جامع‌ترین مدل هوش مصنوعی برای کاربردهای بیولوژیکی تا به امروز، که بر روی یک اطلس ژنومی از 9.3 تریلیون جفت باز DNA آموزش دیده است.
  • Evo 2 می‌تواند به طور مستقل تعداد زیادی از ویژگی‌های بیولوژیکی را بیاموزد، ژنوم‌های کامل تولید کند و ساختارهای اپی ژنومی پیچیده مانند دسترسی کروماتین را به روشی کنترل‌شده با استفاده از جستجوی زمان استنتاج طراحی کند.
  • توسعه‌دهندگان Evo 2 را به عنوان یکی از بزرگترین مدل‌های زبان هوش مصنوعی کاملاً باز به صورت رایگان در دسترس قرار می‌دهند، اما فضایی برای بهبود می‌بینند و در حال برنامه‌ریزی آزمایش‌های آزمایشگاهی برای اعتبارسنجی و در درازمدت، مدل‌سازی هوش مصنوعی کل سلول هستند.

منابع

Evo 2 (مقاله) | Nature | Arc Institute