برایان های، دانشمند کامپیوتر، رهبری تیمی را بر عهده داشت که Evo را توسعه دادند، یک مدل زبانی بزرگ که بر روی 2.7 میلیون ژنوم باکتریایی، باستانی و ویروسی آموزش داده شده است. این ابزار هوش مصنوعی می‌تواند توالی‌های DNA اصلی را بنویسد که ماشین‌های بیولوژیکی کاربردی را رمزگذاری می‌کنند.
                    
                    Rachel Bujalski for Quanta Magazine
برایان های، دانشمند کامپیوتر، رهبری تیمی را بر عهده داشت که Evo را توسعه دادند، یک مدل زبانی بزرگ که بر روی 2.7 میلیون ژنوم باکتریایی، باستانی و ویروسی آموزش داده شده است. این ابزار هوش مصنوعی می‌تواند توالی‌های DNA اصلی را بنویسد که ماشین‌های بیولوژیکی کاربردی را رمزگذاری می‌کنند. Rachel Bujalski for Quanta Magazine

طرفدار شعر که به یک LLM خواندن و نوشتن DNA را آموخت

با برخورد با DNA به عنوان یک زبان، «ChatGPT برای ژنوم‌ها» برایان های می‌تواند الگوهایی را شناسایی کند که انسان‌ها نمی‌توانند ببینند، و طراحی بیولوژیکی را تسریع می‌کند.

DNA اغلب با یک زبان نوشتاری مقایسه می‌شود. این استعاره به سرعت به ذهن می‌رسد: مانند حروف الفبا، مولکول‌ها (بازهای نوکلئوتیدی A، T، C و G، برای آدنین، تیمین، سیتوزین و گوانین) در توالی‌هایی مرتب شده‌اند - کلمات، پاراگراف‌ها، فصل‌ها، شاید - در هر ارگانیسم، از باکتری‌ها تا انسان‌ها. مانند یک زبان، آنها اطلاعات را رمزگذاری می‌کنند. اما انسان‌ها نمی‌توانند به راحتی این دستورالعمل‌ها را برای زندگی بخوانند یا تفسیر کنند. ما نمی‌توانیم، در یک نگاه، تفاوت بین یک توالی DNA که در یک ارگانیسم عمل می‌کند و یک رشته تصادفی از A، T، C و G را تشخیص دهیم.

برایان های، دانشمند کامپیوتر برایان های، که ریاست آزمایشگاه طراحی تکاملی در دانشگاه استنفورد را بر عهده دارد، واقع در موسسه غیرانتفاعی موسسه آرک، گفت: «برای انسان‌ها واقعاً دشوار است که توالی بیولوژیکی را درک کنند.» این انگیزه پشت اختراع جدید او بود، به نام Evo: یک مدل زبانی بزرگ ژنومی (LLM)، که او آن را ChatGPT برای DNA توصیف می‌کند.

ChatGPT بر روی حجم زیادی از متن انگلیسی نوشتاری آموزش داده شده است، که از آن الگوریتم الگوهایی را آموخته است که به آن اجازه می‌دهد جملات اصلی را بخواند و بنویسد. به طور مشابه، Evo آموزش داده شده است بر روی حجم زیادی از DNA - 300 میلیارد جفت باز از 2.7 میلیون ژنوم باکتریایی، باستانی و ویروسی - برای جمع‌آوری اطلاعات عملکردی از قطعات DNA که یک کاربر به عنوان اعلان وارد می‌کند. های گفت، درک کامل‌تر از کد زندگی می‌تواند طراحی بیولوژیکی را تسریع کند: ایجاد ابزارهای بیولوژیکی بهتر برای بهبود پزشکی و محیط زیست.

های در طول تحصیلات تکمیلی به استفاده از مدل‌های زبانی برای زیست‌شناسی علاقه‌مند شد، زمانی که شروع به ساخت LLMهای پروتئینی کرد، که می‌توانند پیش‌بینی کنند چگونه پروتئین‌ها تا می‌شوند و به طراحی پروتئین‌های جدید کمک می‌کنند. پروتئین‌ها ماشین‌های مولکولی هستند که توسط DNA در بخش‌های کلمه‌مانندی که ما ژن می‌نامیم، رمزگذاری می‌شوند. اما ژنوم یک ارگانیسم - کل طول DNA آن - اطلاعات بیشتری نسبت به لیستی از پروتئین‌ها نشان می‌دهد، درست مانند یک جمله که اطلاعات بیشتری نسبت به لیستی از کلمات دارد. زیست‌شناسان هنوز در تلاش برای درک دستور زبان DNA هستند. علاوه بر این، ژنوم‌ها شامل بسیاری از مناطقی هستند که برای پروتئین‌ها کدگذاری نمی‌شوند. های تعجب کرد: چه می‌شود اگر یادگیری ماشین بتواند به درک کتابخانه ژنتیکی کمک کند؟

Evo از غوطه‌ور شدن در زبان نوکلئوتیدها، الگوهایی را جمع‌آوری می‌کند که انسان‌ها نمی‌توانند ببینند. از این الگوها برای پیش‌بینی چگونگی تأثیر تغییرات در DNA بر عملکرد محصولات پایین‌دستی آن، RNA و پروتئین‌ها استفاده می‌کند. LLM همچنین توالی‌های جدیدی را برای نسخه‌های جایگزین مولکول‌ها نوشته است. در برخی موارد، این مجموعه‌های ساخته شده توسط Evo وظیفه خود را به خوبی یا بهتر از نسخه‌های طبیعت انجام می‌دهند.

های گفت: «این تغییرات مانند مسیرهای جایگزینی هستند که می‌توانستند توسط تکامل طی شوند، اما نشدند.» «اکنون ما مدلی داریم که به ما امکان می‌دهد این جهان‌های تکاملی جایگزین را کشف کنیم.»

فرمول موفقیت Evo در اصل اساسی است. این مدل بزرگ است، با 7 میلیارد متغیر که در علم کامپیوتر به عنوان پارامتر شناخته می‌شوند، و بر روی بارهای داده آموزش داده شده است. هدف آن ساده است: پیش‌بینی جفت باز بعدی در توالی DNA. از یک مدل بزرگ و یک هدف ساده، خواص پیچیده به وجود می‌آیند. های گفت: «این یک الگوی بسیار قدرتمند است که در چند سال گذشته در یادگیری ماشین ظهور کرده است.» تحت آن الگو، Evo استعداد عجیبی برای تشخیص اینکه کدام توالی‌ها با زندگی سازگار هستند و برای چرخاندن تغییرات مفیدی از مولکول‌های طبیعت به دست می‌آورد. Evo حتی یک ژنوم کامل از طراحی خود نوشت، اگرچه نه ژنومی که بتواند در یک ارگانیسم عمل کند، به گفته او - حداقل هنوز نه.

های گفت: «طراحی بیولوژیکی در حال حاضر بسیار دستی است. بسیار تصادفی است و نرخ موفقیت بسیار پایینی دارد.» «ما امیدواریم با یادگیری ماشین همه این جنبه‌ها را بهبود بخشیم.»

Quanta با های در مورد شباهت‌های بین DNA و زبان انسان، کارهایی که Evo می‌تواند و نمی‌تواند انجام دهد، و شعر در برنامه‌نویسی صحبت کرد. این مصاحبه برای وضوح خلاصه و ویرایش شده است.

به چه چیزی ابتدا علاقه‌مند بودید: کامپیوتر، زیست‌شناسی یا زبان؟

من علایق بسیار گسترده‌ای دارم و مسیرهای شغلی زیادی را بررسی کردم. در یک مقطع از زندگی‌ام، می‌خواستم در رشته ادبیات انگلیسی دکترا بگیرم. در دبیرستان و کالج، یاد گرفتم که از شعر قدردانی کنم. نوع شعری که واقعاً دوست داشتم اشعاری داشت که ساختار زیادی دارند و مفاهیم بزرگ و از زبان به روش‌های بسیار جدید و جالبی استفاده می‌کنند.

گرایش به اسکن یک سونات یا شناسایی ساختار در یک شعر انگلیسی خوش‌ساخته شبیه به تمایل به توسعه مدل‌هایی است که توالی‌های ژنومی یا پروتئینی را قابل تفسیرتر می‌کنند و ساختار پنهان آنها را آشکار می‌کنند. این تقریباً مانند نقد ادبی بر روی توالی‌های زیست‌شناسی است. به این ترتیب، من هنوز در حال انجام نقد ادبی هستم.

چه چیزی باعث شد فکر کنید می‌توان با DNA مانند یک زبان رفتار کرد؟

خود DNA مانند زبان طبیعی انسان متوالی است. این یک توالی از «نشانه‌ها» یا بلوک‌های ساختمانی گسسته است. ما زبان طبیعی انسان را به کلمات، حروف الفبا یا نویسه‌های چینی نشانه‌گذاری می‌کنیم. در زیست‌شناسی، یک نشانه می‌تواند مربوط به یک جفت باز DNA یا یک آمینو اسید باشد [بلوک‌های ساختمانی مولکولی برای پروتئین‌ها].

و مانند زبان طبیعی، DNA دارای ساختار طبیعی است. توالی‌ها تصادفی نیستند. ساختار زیادی در زبان طبیعی نیز غیررسمی است. می‌تواند مبهم باشد و همیشه در حال تغییر است. به همین ترتیب، توالی‌های DNA دارای ابهاماتی هستند. همان توالی در یک زمینه متفاوت می‌تواند معانی متفاوتی داشته باشد.

چگونه به استفاده از مدل‌های زبانی بزرگ برای DNA علاقه‌مند شدید؟

این درست در آغاز موقعیت فعلی من در دانشکده، در پاییز سال 2023 بود. چیزی در مورد تغییر شغل باعث می‌شود که فرد بخواهد چیزها را دوباره بررسی کند. من در تعطیلات با دوستانم در توکیو بودم. من دچار جت لگ شده بودم، بنابراین زود بیدار شدم. از آنجایی که همه خواب بودند، به تنهایی پیاده‌روی طولانی کردم. من در مورد مدل‌سازی زبان DNA فکر می‌کردم.

اصل مرکزی در زیست‌شناسی مولکولی چیز بسیار زیبایی است. بیان می‌کند که DNA برای RNA کدگذاری می‌کند، که برای پروتئین کدگذاری می‌کند. بنابراین اگر شما یک مدل را در DNA آموزش دهید، و آن یک مدل خوب باشد، مدل‌سازی زبان RNA و پروتئین را به صورت رایگان دریافت می‌کنید زیرا یک مطابقت مستقیم بین DNA و توالی پروتئین وجود دارد.

همچنین می‌توانید روی خود ژنوم آموزش ببینید: ژن‌ها همانطور که هستند، در کنار یکدیگر روی ژنوم. وقتی یک مدل زبانی پروتئین را آموزش می‌دهید، اساساً یک ژنوم کامل را برمی‌دارید و تمام قسمت‌هایی را که برای پروتئین‌ها کدگذاری می‌کنند، برش می‌دهید و روی تمام آن قسمت‌های کوچک به طور جداگانه آموزش می‌دهید. اما شما زمینه ژنتیکی وسیعی را که پروتئین‌ها در آن قرار دارند نادیده می‌گیرید. به ویژه در ژنوم‌های میکروبی، پروتئین‌هایی با عملکردهای مرتبط مستقیماً در کنار یکدیگر روی ژنوم قرار دارند, بنابراین ترتیب این مناطق کدگذاری کننده پروتئین روی ژنوم مهم است. شما آن اطلاعات را در یک مدل زبانی پروتئین از دست می‌دهید.

من متوجه شدم که آموزش یک مدل در یک سطح اساسی‌تر - رفتن از پروتئین به DNA - می‌تواند قابلیت‌های یک مدل را گسترش دهد.

چگونه Evo را برای «خواندن» DNA آموزش دادید؟

یکی از تفاوت‌های مهم بین مدل‌های زبانی پروتئین و DNA طول توالی است که مدل برای پیش‌بینی‌های جفت باز بعدی خود استفاده می‌کند، که ما آن را «طول زمینه» می‌نامیم. طول زمینه شبیه به یک یا دو صفحه از یک رمان است که یک فرد می‌تواند در یک زمان ببیند. Evo بر روی یک «رمان» متشکل از بسیاری از ژنوم‌ها آموزش داده شده است - ژنوم E. coli به تنهایی 2 میلیون تا 4 میلیون جفت باز است - اما با حداکثر طول زمینه 131000 نشانه. در مقایسه، مدل‌های زبانی پروتئین اصلی با طول زمینه 1000 آمینو اسید آموزش داده شده‌اند.

این امر نیازمند توسعه فناوری بود زیرا طول زمینه‌های طولانی قدرت محاسباتی زیادی مصرف می‌کنند. این نیاز به قدرت، که به طور درجه دو با طول زمینه افزایش می‌یافت، نسخه‌های اصلی ChatGPT را محدود می‌کرد. اما تا زمانی که ما به Evo فکر می‌کردیم، محققان - از جمله، خوشبختانه، تیمی در استنفورد - راهی برای کاهش محاسبات مورد نیاز برای طول زمینه‌های طولانی‌تر پیدا کرده بودند. یک دانشجو از آن آزمایشگاه استنفورد به ما کمک کرد تا آن پیشرفت‌ها را در مدل DNA خود اعمال کنیم.

مجموعه داده آموزشی Evo نیز مهم بود: قرار گرفتن آن در معرض 2.7 میلیون ژنوم از باکتری‌ها، آرکائا و ویروس‌ها. من از مدل‌سازی زبان پروتئین خود آموختم که تنوع توالی مهم است. این مدل جایگزین‌های تکاملی برای زندگی را نشان می‌دهد - راه‌های مختلفی برای بیان یک ایده یکسان - که مدل می‌تواند از آن برای یادگیری قوانین کلی، مثلاً برای ساخت پروتئین‌هایی که یک عملکرد خاص را انجام می‌دهند، استفاده کند.

ما آموزش Evo را در دسامبر 2023، چند هفته قبل از شروع آزمایشگاه خود، آغاز کردیم. ما به آن اعلان‌های مختلف DNA دادیم و از آن خواستیم که نشانه بعدی (در این مورد، یک جفت باز DNA) را در یک توالی پیش‌بینی کند. در ژانویه، تصمیم گرفتم آزمایش کنم که آیا کار می‌کند یا خیر.

چگونه آن را آزمایش کردید و چگونه عمل کرد؟

من به آن توالی‌های DNA کدگذاری کننده پروتئین دادم که دارای جهش‌های مختلف بودند: جفت بازهایی که با توالی ژن معمولی متفاوت بودند. وظیفه این بود که «احتمال تکاملی» این جهش‌ها را پیش‌بینی کنیم، احتمال اینکه آنها در طبیعت وجود داشته باشند. جهش‌هایی که محتمل تلقی می‌شوند باید عملکرد یک پروتئین را در آزمایشگاه حفظ یا بهبود بخشند. جهش‌های غیرمحتمل باید با عملکرد ضعیف مرتبط باشند.

Evo هیچ دانش صریحی از عملکرد نداشت. فقط می‌دانست که چه جهش‌هایی در گذشته توسط تکامل استفاده شده‌اند. علاوه بر این، این مدل فقط روی DNA بدون هیچ گونه دستورالعملی در مورد اینکه کدام قسمت‌های DNA با پروتئین‌ها مطابقت دارند آموزش داده شده بود. بنابراین مجبور بود بفهمد که چگونه DNA برای پروتئین‌ها کدگذاری می‌کند و پروتئین‌ها کجا در ژنوم شروع و متوقف می‌شوند.

ما احتمالات را از مدل با استفاده از آزمایش‌های تجربی عملکرد پروتئین امتیازدهی کردیم. ما دریافتیم که اگر یک جفت باز دارای احتمال بالایی تحت Evo باشد، احتمالاً آن جفت باز عملکرد پروتئین را حفظ یا بهبود می‌بخشد. اما اگر آن جفت باز دارای احتمال پایینی باشد، قرار دادن آن جفت باز در یک توالی پروتئینی احتمالاً عملکرد را از بین می‌برد.

ما همچنین نتایج مدل را با نتایج مدل‌های زبانی پروتئین پیشرفته مقایسه کردیم. ما دریافتیم که Evo با عملکرد مدل‌های پروتئین مطابقت دارد، علیرغم اینکه هرگز یک توالی پروتئینی را ندیده است. این اولین نشانه بود که, خوب، شاید ما به چیزی رسیده بودیم.

چه کار دیگری از Evo خواستید انجام دهد؟

ما از آن برای تولید توالی‌های DNA استفاده کردیم، درست مانند ChatGPT که می‌تواند متن تولید کند. یکی از دانشجویانم، برایان کانگ، به من کمک کرد تا مدل Evo را بر روی DNA که برای یک پروتئین و همچنین حداقل یک مولکول RNA کدگذاری می‌کرد، تنظیم کنم. آنها به هم متصل می‌شوند تا یک مجموعه به نام CRISPR-Cas ایجاد کنند. CRISPR-Cas DNA را در نقاط خاصی می‌شکند، که به باکتری‌ها کمک می‌کند در برابر ویروس‌ها دفاع کنند. دانشمندان از آنها برای ویرایش ژنوم استفاده می‌کنند.

ما به Evo یک اعلان متشکل از 70000 توالی DNA طبیعی دادیم که تغییراتی از مجموعه CRISPR-Cas تولید می‌کنند. سپس از آن خواستیم که تعدادی از آنها را بنویسد. ما 11 مورد از اختراعات Evo را در آزمایشگاه ایجاد کردیم. یکی از آنها کار کرد.

این یک لحظه بسیار هیجان‌انگیز بود. این نشان داد که می‌توانیم از مدل‌های زبانی برای طراحی مولکول‌های بیولوژیکی کاربردی استفاده کنیم. ما اکنون در تلاش برای بهبود نرخ موفقیت هستیم.

محدودیت‌های Evo چیست؟

Evo یک هوش مصنوعی با هدف کلی نیست. قرار نیست برای شما شعر بنویسد یا یک کتاب را خلاصه کند. فقط می‌تواند کارهایی را انجام دهد که مربوط به توالی‌های DNA هستند. همچنین توسط داده‌هایی که بر روی آن آموزش داده شده محدود می‌شود. اگر از آن بخواهید پروتئینی را طراحی کند که بسیار متفاوت از هر چیزی باشد که در طبیعت وجود دارد، نمی‌تواند این کار را انجام دهد.

یکی دیگر از محدودیت‌ها این است که Evo فیزیک مولکول‌ها را درک نمی‌کند. نمی‌داند چگونه مولکول‌ها تا می‌شوند یا با یکدیگر تعامل می‌کنند. فقط توالی‌های DNA و RNA را می‌داند. بنابراین نمی‌تواند مولکول‌هایی را طراحی کند که دارای خواص فیزیکی خاصی باشند.

در نهایت، Evo جایگزینی برای تخصص انسانی نیست. این ابزاری است که می‌تواند به دانشمندان کمک کند مولکول‌های بهتری طراحی کنند، اما جایگزین آنها نخواهد شد. دانشمندان همچنان باید از دانش و شهود خود برای تفسیر نتایج Evo و تصمیم‌گیری در مورد اینکه کدام مولکول‌ها را بسازند استفاده کنند.

کاربردهای بالقوه Evo چیست؟

Evo می‌تواند برای طراحی داروهای جدید، سوخت‌های زیستی جدید و مواد جدید استفاده شود. همچنین می‌تواند برای بهبود کارایی فرآیندهای بیولوژیکی موجود استفاده شود. به عنوان مثال، می‌تواند برای طراحی آنزیم‌هایی استفاده شود که در تجزیه سلولز کارآمدتر هستند، که می‌تواند به ما کمک کند سوخت‌های زیستی بیشتری از گیاهان تولید کنیم.

Evo همچنین می‌تواند برای ایجاد ابزارهای تشخیصی جدید استفاده شود. به عنوان مثال، می‌تواند برای طراحی توالی‌های DNA استفاده شود که می‌توانند وجود پاتوژن‌های خاص را در یک نمونه تشخیص دهند. این می‌تواند به ما کمک کند بیماری‌ها را سریع‌تر و دقیق‌تر تشخیص دهیم.

در نهایت، Evo می‌تواند برای ایجاد ابزارهای تحقیقاتی جدید استفاده شود. به عنوان مثال، می‌تواند برای طراحی توالی‌های DNA استفاده شود که می‌توانند برای مطالعه عملکرد ژن‌های خاص استفاده شوند. این می‌تواند به ما کمک کند بفهمیم ژن‌ها چگونه کار می‌کنند و چگونه در بیماری نقش دارند.

اهداف بلندمدت شما برای Evo چیست؟

هدف بلندمدت من ایجاد یک هوش مصنوعی با هدف کلی برای زیست‌شناسی است. من می‌خواهم یک هوش مصنوعی ایجاد کنم که بتواند فیزیک مولکول‌ها، عملکرد ژن‌ها و تعاملات بین سیستم‌های بیولوژیکی مختلف را درک کند. من می‌خواهم یک هوش مصنوعی ایجاد کنم که بتواند مولکول‌های جدید، داروهای جدید و مواد جدید طراحی کند. من می‌خواهم یک هوش مصنوعی ایجاد کنم که بتواند به ما در حل برخی از مهم‌ترین مشکلات جهان، مانند تغییرات آب و هوایی، بیماری و گرسنگی کمک کند.

من فکر می‌کنم این یک هدف بسیار بلندپروازانه است، اما معتقدم که این امکان وجود دارد. من فکر می‌کنم ما ابزارها و دانش لازم برای ایجاد یک هوش مصنوعی با هدف کلی برای زیست‌شناسی را داریم. کار سختی خواهد بود، اما من فکر می‌کنم ارزشش را دارد.

بعدی برای آزمایشگاه شما چیست؟

ما روی تعدادی از پروژه‌های مختلف کار می‌کنیم. یکی از پروژه‌ها بهبود نرخ موفقیت Evo است. ما در تلاش برای فهمیدن این هستیم که چرا برخی از طرح‌های Evo کار می‌کنند و چرا برخی دیگر کار نمی‌کنند. ما همچنین در تلاش برای توسعه روش‌های جدید برای آموزش Evo هستیم تا بتواند مولکول‌های بهتری طراحی کند.

پروژه دیگر استفاده از Evo برای طراحی داروهای جدید است. ما با تعدادی از شرکت‌های داروسازی مختلف برای استفاده از Evo برای طراحی داروهای جدید برای سرطان، بیماری آلزایمر و سایر بیماری‌ها همکاری می‌کنیم.

ما همچنین روی پروژه‌ای برای استفاده از Evo برای طراحی سوخت‌های زیستی جدید کار می‌کنیم. ما با تعدادی از شرکت‌های انرژی مختلف برای استفاده از Evo برای طراحی آنزیم‌های جدید که می‌توانند سلولز را کارآمدتر تجزیه کنند همکاری می‌کنیم.

در نهایت، ما روی پروژه‌ای برای استفاده از Evo برای طراحی مواد جدید کار می‌کنیم. ما با تعدادی از شرکت‌های مواد مختلف برای استفاده از Evo برای طراحی پلیمرهای جدید، سرامیک‌های جدید و فلزات جدید همکاری می‌کنیم.

امیدوارید مردم چه چیزی از کار شما برداشت کنند؟

امیدوارم مردم این ایده را برداشت کنند که از هوش مصنوعی می‌توان برای حل برخی از مهم‌ترین مشکلات جهان استفاده کرد. امیدوارم مردم ببینند که هوش مصنوعی فقط ابزاری برای کسب درآمد یا انجام بازی نیست. امیدوارم مردم ببینند که از هوش مصنوعی می‌توان برای بهبود زندگی مردم در سراسر جهان استفاده کرد.

همچنین امیدوارم مردم این ایده را برداشت کنند که زیست‌شناسی یک چیز بسیار پیچیده و زیبا است. امیدوارم مردم ببینند که هنوز چیزهای زیادی وجود دارد که ما در مورد زیست‌شناسی نمی‌دانیم. امیدوارم مردم الهام بگیرند تا بیشتر در مورد زیست‌شناسی بیاموزند و به ما در حل برخی از مهم‌ترین مشکلات جهان کمک کنند.

وقتی مشغول علم نیستید چه کار می‌کنید؟

من دوست دارم شعر بخوانم. دوست دارم به موسیقی گوش کنم. دوست دارم به پیاده‌روی بروم. دوست دارم با دوستان و خانواده‌ام وقت بگذرانم. دوست دارم سفر کنم. دوست دارم چیزهای جدید یاد بگیرم. دوست دارم خلاق باشم. دوست دارم به چالش کشیده شوم. دوست دارم الهام بگیرم. دوست دارم خوشحال باشم.