DNA اغلب با یک زبان نوشتاری مقایسه میشود. این استعاره به سرعت به ذهن میرسد: مانند حروف الفبا، مولکولها (بازهای نوکلئوتیدی A، T، C و G، برای آدنین، تیمین، سیتوزین و گوانین) در توالیهایی مرتب شدهاند - کلمات، پاراگرافها، فصلها، شاید - در هر ارگانیسم، از باکتریها تا انسانها. مانند یک زبان، آنها اطلاعات را رمزگذاری میکنند. اما انسانها نمیتوانند به راحتی این دستورالعملها را برای زندگی بخوانند یا تفسیر کنند. ما نمیتوانیم، در یک نگاه، تفاوت بین یک توالی DNA که در یک ارگانیسم عمل میکند و یک رشته تصادفی از A، T، C و G را تشخیص دهیم.
برایان های، دانشمند کامپیوتر برایان های، که ریاست آزمایشگاه طراحی تکاملی در دانشگاه استنفورد را بر عهده دارد، واقع در موسسه غیرانتفاعی موسسه آرک، گفت: «برای انسانها واقعاً دشوار است که توالی بیولوژیکی را درک کنند.» این انگیزه پشت اختراع جدید او بود، به نام Evo: یک مدل زبانی بزرگ ژنومی (LLM)، که او آن را ChatGPT برای DNA توصیف میکند.
ChatGPT بر روی حجم زیادی از متن انگلیسی نوشتاری آموزش داده شده است، که از آن الگوریتم الگوهایی را آموخته است که به آن اجازه میدهد جملات اصلی را بخواند و بنویسد. به طور مشابه، Evo آموزش داده شده است بر روی حجم زیادی از DNA - 300 میلیارد جفت باز از 2.7 میلیون ژنوم باکتریایی، باستانی و ویروسی - برای جمعآوری اطلاعات عملکردی از قطعات DNA که یک کاربر به عنوان اعلان وارد میکند. های گفت، درک کاملتر از کد زندگی میتواند طراحی بیولوژیکی را تسریع کند: ایجاد ابزارهای بیولوژیکی بهتر برای بهبود پزشکی و محیط زیست.
های در طول تحصیلات تکمیلی به استفاده از مدلهای زبانی برای زیستشناسی علاقهمند شد، زمانی که شروع به ساخت LLMهای پروتئینی کرد، که میتوانند پیشبینی کنند چگونه پروتئینها تا میشوند و به طراحی پروتئینهای جدید کمک میکنند. پروتئینها ماشینهای مولکولی هستند که توسط DNA در بخشهای کلمهمانندی که ما ژن مینامیم، رمزگذاری میشوند. اما ژنوم یک ارگانیسم - کل طول DNA آن - اطلاعات بیشتری نسبت به لیستی از پروتئینها نشان میدهد، درست مانند یک جمله که اطلاعات بیشتری نسبت به لیستی از کلمات دارد. زیستشناسان هنوز در تلاش برای درک دستور زبان DNA هستند. علاوه بر این، ژنومها شامل بسیاری از مناطقی هستند که برای پروتئینها کدگذاری نمیشوند. های تعجب کرد: چه میشود اگر یادگیری ماشین بتواند به درک کتابخانه ژنتیکی کمک کند؟
Evo از غوطهور شدن در زبان نوکلئوتیدها، الگوهایی را جمعآوری میکند که انسانها نمیتوانند ببینند. از این الگوها برای پیشبینی چگونگی تأثیر تغییرات در DNA بر عملکرد محصولات پاییندستی آن، RNA و پروتئینها استفاده میکند. LLM همچنین توالیهای جدیدی را برای نسخههای جایگزین مولکولها نوشته است. در برخی موارد، این مجموعههای ساخته شده توسط Evo وظیفه خود را به خوبی یا بهتر از نسخههای طبیعت انجام میدهند.
های گفت: «این تغییرات مانند مسیرهای جایگزینی هستند که میتوانستند توسط تکامل طی شوند، اما نشدند.» «اکنون ما مدلی داریم که به ما امکان میدهد این جهانهای تکاملی جایگزین را کشف کنیم.»
فرمول موفقیت Evo در اصل اساسی است. این مدل بزرگ است، با 7 میلیارد متغیر که در علم کامپیوتر به عنوان پارامتر شناخته میشوند، و بر روی بارهای داده آموزش داده شده است. هدف آن ساده است: پیشبینی جفت باز بعدی در توالی DNA. از یک مدل بزرگ و یک هدف ساده، خواص پیچیده به وجود میآیند. های گفت: «این یک الگوی بسیار قدرتمند است که در چند سال گذشته در یادگیری ماشین ظهور کرده است.» تحت آن الگو، Evo استعداد عجیبی برای تشخیص اینکه کدام توالیها با زندگی سازگار هستند و برای چرخاندن تغییرات مفیدی از مولکولهای طبیعت به دست میآورد. Evo حتی یک ژنوم کامل از طراحی خود نوشت، اگرچه نه ژنومی که بتواند در یک ارگانیسم عمل کند، به گفته او - حداقل هنوز نه.
های گفت: «طراحی بیولوژیکی در حال حاضر بسیار دستی است. بسیار تصادفی است و نرخ موفقیت بسیار پایینی دارد.» «ما امیدواریم با یادگیری ماشین همه این جنبهها را بهبود بخشیم.»
Quanta با های در مورد شباهتهای بین DNA و زبان انسان، کارهایی که Evo میتواند و نمیتواند انجام دهد، و شعر در برنامهنویسی صحبت کرد. این مصاحبه برای وضوح خلاصه و ویرایش شده است.
به چه چیزی ابتدا علاقهمند بودید: کامپیوتر، زیستشناسی یا زبان؟
من علایق بسیار گستردهای دارم و مسیرهای شغلی زیادی را بررسی کردم. در یک مقطع از زندگیام، میخواستم در رشته ادبیات انگلیسی دکترا بگیرم. در دبیرستان و کالج، یاد گرفتم که از شعر قدردانی کنم. نوع شعری که واقعاً دوست داشتم اشعاری داشت که ساختار زیادی دارند و مفاهیم بزرگ و از زبان به روشهای بسیار جدید و جالبی استفاده میکنند.
گرایش به اسکن یک سونات یا شناسایی ساختار در یک شعر انگلیسی خوشساخته شبیه به تمایل به توسعه مدلهایی است که توالیهای ژنومی یا پروتئینی را قابل تفسیرتر میکنند و ساختار پنهان آنها را آشکار میکنند. این تقریباً مانند نقد ادبی بر روی توالیهای زیستشناسی است. به این ترتیب، من هنوز در حال انجام نقد ادبی هستم.
چه چیزی باعث شد فکر کنید میتوان با DNA مانند یک زبان رفتار کرد؟
خود DNA مانند زبان طبیعی انسان متوالی است. این یک توالی از «نشانهها» یا بلوکهای ساختمانی گسسته است. ما زبان طبیعی انسان را به کلمات، حروف الفبا یا نویسههای چینی نشانهگذاری میکنیم. در زیستشناسی، یک نشانه میتواند مربوط به یک جفت باز DNA یا یک آمینو اسید باشد [بلوکهای ساختمانی مولکولی برای پروتئینها].
و مانند زبان طبیعی، DNA دارای ساختار طبیعی است. توالیها تصادفی نیستند. ساختار زیادی در زبان طبیعی نیز غیررسمی است. میتواند مبهم باشد و همیشه در حال تغییر است. به همین ترتیب، توالیهای DNA دارای ابهاماتی هستند. همان توالی در یک زمینه متفاوت میتواند معانی متفاوتی داشته باشد.
چگونه به استفاده از مدلهای زبانی بزرگ برای DNA علاقهمند شدید؟
این درست در آغاز موقعیت فعلی من در دانشکده، در پاییز سال 2023 بود. چیزی در مورد تغییر شغل باعث میشود که فرد بخواهد چیزها را دوباره بررسی کند. من در تعطیلات با دوستانم در توکیو بودم. من دچار جت لگ شده بودم، بنابراین زود بیدار شدم. از آنجایی که همه خواب بودند، به تنهایی پیادهروی طولانی کردم. من در مورد مدلسازی زبان DNA فکر میکردم.
اصل مرکزی در زیستشناسی مولکولی چیز بسیار زیبایی است. بیان میکند که DNA برای RNA کدگذاری میکند، که برای پروتئین کدگذاری میکند. بنابراین اگر شما یک مدل را در DNA آموزش دهید، و آن یک مدل خوب باشد، مدلسازی زبان RNA و پروتئین را به صورت رایگان دریافت میکنید زیرا یک مطابقت مستقیم بین DNA و توالی پروتئین وجود دارد.
همچنین میتوانید روی خود ژنوم آموزش ببینید: ژنها همانطور که هستند، در کنار یکدیگر روی ژنوم. وقتی یک مدل زبانی پروتئین را آموزش میدهید، اساساً یک ژنوم کامل را برمیدارید و تمام قسمتهایی را که برای پروتئینها کدگذاری میکنند، برش میدهید و روی تمام آن قسمتهای کوچک به طور جداگانه آموزش میدهید. اما شما زمینه ژنتیکی وسیعی را که پروتئینها در آن قرار دارند نادیده میگیرید. به ویژه در ژنومهای میکروبی، پروتئینهایی با عملکردهای مرتبط مستقیماً در کنار یکدیگر روی ژنوم قرار دارند, بنابراین ترتیب این مناطق کدگذاری کننده پروتئین روی ژنوم مهم است. شما آن اطلاعات را در یک مدل زبانی پروتئین از دست میدهید.
من متوجه شدم که آموزش یک مدل در یک سطح اساسیتر - رفتن از پروتئین به DNA - میتواند قابلیتهای یک مدل را گسترش دهد.
چگونه Evo را برای «خواندن» DNA آموزش دادید؟
یکی از تفاوتهای مهم بین مدلهای زبانی پروتئین و DNA طول توالی است که مدل برای پیشبینیهای جفت باز بعدی خود استفاده میکند، که ما آن را «طول زمینه» مینامیم. طول زمینه شبیه به یک یا دو صفحه از یک رمان است که یک فرد میتواند در یک زمان ببیند. Evo بر روی یک «رمان» متشکل از بسیاری از ژنومها آموزش داده شده است - ژنوم E. coli به تنهایی 2 میلیون تا 4 میلیون جفت باز است - اما با حداکثر طول زمینه 131000 نشانه. در مقایسه، مدلهای زبانی پروتئین اصلی با طول زمینه 1000 آمینو اسید آموزش داده شدهاند.
این امر نیازمند توسعه فناوری بود زیرا طول زمینههای طولانی قدرت محاسباتی زیادی مصرف میکنند. این نیاز به قدرت، که به طور درجه دو با طول زمینه افزایش مییافت، نسخههای اصلی ChatGPT را محدود میکرد. اما تا زمانی که ما به Evo فکر میکردیم، محققان - از جمله، خوشبختانه، تیمی در استنفورد - راهی برای کاهش محاسبات مورد نیاز برای طول زمینههای طولانیتر پیدا کرده بودند. یک دانشجو از آن آزمایشگاه استنفورد به ما کمک کرد تا آن پیشرفتها را در مدل DNA خود اعمال کنیم.
مجموعه داده آموزشی Evo نیز مهم بود: قرار گرفتن آن در معرض 2.7 میلیون ژنوم از باکتریها، آرکائا و ویروسها. من از مدلسازی زبان پروتئین خود آموختم که تنوع توالی مهم است. این مدل جایگزینهای تکاملی برای زندگی را نشان میدهد - راههای مختلفی برای بیان یک ایده یکسان - که مدل میتواند از آن برای یادگیری قوانین کلی، مثلاً برای ساخت پروتئینهایی که یک عملکرد خاص را انجام میدهند، استفاده کند.
ما آموزش Evo را در دسامبر 2023، چند هفته قبل از شروع آزمایشگاه خود، آغاز کردیم. ما به آن اعلانهای مختلف DNA دادیم و از آن خواستیم که نشانه بعدی (در این مورد، یک جفت باز DNA) را در یک توالی پیشبینی کند. در ژانویه، تصمیم گرفتم آزمایش کنم که آیا کار میکند یا خیر.
چگونه آن را آزمایش کردید و چگونه عمل کرد؟
من به آن توالیهای DNA کدگذاری کننده پروتئین دادم که دارای جهشهای مختلف بودند: جفت بازهایی که با توالی ژن معمولی متفاوت بودند. وظیفه این بود که «احتمال تکاملی» این جهشها را پیشبینی کنیم، احتمال اینکه آنها در طبیعت وجود داشته باشند. جهشهایی که محتمل تلقی میشوند باید عملکرد یک پروتئین را در آزمایشگاه حفظ یا بهبود بخشند. جهشهای غیرمحتمل باید با عملکرد ضعیف مرتبط باشند.
Evo هیچ دانش صریحی از عملکرد نداشت. فقط میدانست که چه جهشهایی در گذشته توسط تکامل استفاده شدهاند. علاوه بر این، این مدل فقط روی DNA بدون هیچ گونه دستورالعملی در مورد اینکه کدام قسمتهای DNA با پروتئینها مطابقت دارند آموزش داده شده بود. بنابراین مجبور بود بفهمد که چگونه DNA برای پروتئینها کدگذاری میکند و پروتئینها کجا در ژنوم شروع و متوقف میشوند.
ما احتمالات را از مدل با استفاده از آزمایشهای تجربی عملکرد پروتئین امتیازدهی کردیم. ما دریافتیم که اگر یک جفت باز دارای احتمال بالایی تحت Evo باشد، احتمالاً آن جفت باز عملکرد پروتئین را حفظ یا بهبود میبخشد. اما اگر آن جفت باز دارای احتمال پایینی باشد، قرار دادن آن جفت باز در یک توالی پروتئینی احتمالاً عملکرد را از بین میبرد.
ما همچنین نتایج مدل را با نتایج مدلهای زبانی پروتئین پیشرفته مقایسه کردیم. ما دریافتیم که Evo با عملکرد مدلهای پروتئین مطابقت دارد، علیرغم اینکه هرگز یک توالی پروتئینی را ندیده است. این اولین نشانه بود که, خوب، شاید ما به چیزی رسیده بودیم.
چه کار دیگری از Evo خواستید انجام دهد؟
ما از آن برای تولید توالیهای DNA استفاده کردیم، درست مانند ChatGPT که میتواند متن تولید کند. یکی از دانشجویانم، برایان کانگ، به من کمک کرد تا مدل Evo را بر روی DNA که برای یک پروتئین و همچنین حداقل یک مولکول RNA کدگذاری میکرد، تنظیم کنم. آنها به هم متصل میشوند تا یک مجموعه به نام CRISPR-Cas ایجاد کنند. CRISPR-Cas DNA را در نقاط خاصی میشکند، که به باکتریها کمک میکند در برابر ویروسها دفاع کنند. دانشمندان از آنها برای ویرایش ژنوم استفاده میکنند.
ما به Evo یک اعلان متشکل از 70000 توالی DNA طبیعی دادیم که تغییراتی از مجموعه CRISPR-Cas تولید میکنند. سپس از آن خواستیم که تعدادی از آنها را بنویسد. ما 11 مورد از اختراعات Evo را در آزمایشگاه ایجاد کردیم. یکی از آنها کار کرد.
این یک لحظه بسیار هیجانانگیز بود. این نشان داد که میتوانیم از مدلهای زبانی برای طراحی مولکولهای بیولوژیکی کاربردی استفاده کنیم. ما اکنون در تلاش برای بهبود نرخ موفقیت هستیم.
محدودیتهای Evo چیست؟
Evo یک هوش مصنوعی با هدف کلی نیست. قرار نیست برای شما شعر بنویسد یا یک کتاب را خلاصه کند. فقط میتواند کارهایی را انجام دهد که مربوط به توالیهای DNA هستند. همچنین توسط دادههایی که بر روی آن آموزش داده شده محدود میشود. اگر از آن بخواهید پروتئینی را طراحی کند که بسیار متفاوت از هر چیزی باشد که در طبیعت وجود دارد، نمیتواند این کار را انجام دهد.
یکی دیگر از محدودیتها این است که Evo فیزیک مولکولها را درک نمیکند. نمیداند چگونه مولکولها تا میشوند یا با یکدیگر تعامل میکنند. فقط توالیهای DNA و RNA را میداند. بنابراین نمیتواند مولکولهایی را طراحی کند که دارای خواص فیزیکی خاصی باشند.
در نهایت، Evo جایگزینی برای تخصص انسانی نیست. این ابزاری است که میتواند به دانشمندان کمک کند مولکولهای بهتری طراحی کنند، اما جایگزین آنها نخواهد شد. دانشمندان همچنان باید از دانش و شهود خود برای تفسیر نتایج Evo و تصمیمگیری در مورد اینکه کدام مولکولها را بسازند استفاده کنند.
کاربردهای بالقوه Evo چیست؟
Evo میتواند برای طراحی داروهای جدید، سوختهای زیستی جدید و مواد جدید استفاده شود. همچنین میتواند برای بهبود کارایی فرآیندهای بیولوژیکی موجود استفاده شود. به عنوان مثال، میتواند برای طراحی آنزیمهایی استفاده شود که در تجزیه سلولز کارآمدتر هستند، که میتواند به ما کمک کند سوختهای زیستی بیشتری از گیاهان تولید کنیم.
Evo همچنین میتواند برای ایجاد ابزارهای تشخیصی جدید استفاده شود. به عنوان مثال، میتواند برای طراحی توالیهای DNA استفاده شود که میتوانند وجود پاتوژنهای خاص را در یک نمونه تشخیص دهند. این میتواند به ما کمک کند بیماریها را سریعتر و دقیقتر تشخیص دهیم.
در نهایت، Evo میتواند برای ایجاد ابزارهای تحقیقاتی جدید استفاده شود. به عنوان مثال، میتواند برای طراحی توالیهای DNA استفاده شود که میتوانند برای مطالعه عملکرد ژنهای خاص استفاده شوند. این میتواند به ما کمک کند بفهمیم ژنها چگونه کار میکنند و چگونه در بیماری نقش دارند.
اهداف بلندمدت شما برای Evo چیست؟
هدف بلندمدت من ایجاد یک هوش مصنوعی با هدف کلی برای زیستشناسی است. من میخواهم یک هوش مصنوعی ایجاد کنم که بتواند فیزیک مولکولها، عملکرد ژنها و تعاملات بین سیستمهای بیولوژیکی مختلف را درک کند. من میخواهم یک هوش مصنوعی ایجاد کنم که بتواند مولکولهای جدید، داروهای جدید و مواد جدید طراحی کند. من میخواهم یک هوش مصنوعی ایجاد کنم که بتواند به ما در حل برخی از مهمترین مشکلات جهان، مانند تغییرات آب و هوایی، بیماری و گرسنگی کمک کند.
من فکر میکنم این یک هدف بسیار بلندپروازانه است، اما معتقدم که این امکان وجود دارد. من فکر میکنم ما ابزارها و دانش لازم برای ایجاد یک هوش مصنوعی با هدف کلی برای زیستشناسی را داریم. کار سختی خواهد بود، اما من فکر میکنم ارزشش را دارد.
بعدی برای آزمایشگاه شما چیست؟
ما روی تعدادی از پروژههای مختلف کار میکنیم. یکی از پروژهها بهبود نرخ موفقیت Evo است. ما در تلاش برای فهمیدن این هستیم که چرا برخی از طرحهای Evo کار میکنند و چرا برخی دیگر کار نمیکنند. ما همچنین در تلاش برای توسعه روشهای جدید برای آموزش Evo هستیم تا بتواند مولکولهای بهتری طراحی کند.
پروژه دیگر استفاده از Evo برای طراحی داروهای جدید است. ما با تعدادی از شرکتهای داروسازی مختلف برای استفاده از Evo برای طراحی داروهای جدید برای سرطان، بیماری آلزایمر و سایر بیماریها همکاری میکنیم.
ما همچنین روی پروژهای برای استفاده از Evo برای طراحی سوختهای زیستی جدید کار میکنیم. ما با تعدادی از شرکتهای انرژی مختلف برای استفاده از Evo برای طراحی آنزیمهای جدید که میتوانند سلولز را کارآمدتر تجزیه کنند همکاری میکنیم.
در نهایت، ما روی پروژهای برای استفاده از Evo برای طراحی مواد جدید کار میکنیم. ما با تعدادی از شرکتهای مواد مختلف برای استفاده از Evo برای طراحی پلیمرهای جدید، سرامیکهای جدید و فلزات جدید همکاری میکنیم.
امیدوارید مردم چه چیزی از کار شما برداشت کنند؟
امیدوارم مردم این ایده را برداشت کنند که از هوش مصنوعی میتوان برای حل برخی از مهمترین مشکلات جهان استفاده کرد. امیدوارم مردم ببینند که هوش مصنوعی فقط ابزاری برای کسب درآمد یا انجام بازی نیست. امیدوارم مردم ببینند که از هوش مصنوعی میتوان برای بهبود زندگی مردم در سراسر جهان استفاده کرد.
همچنین امیدوارم مردم این ایده را برداشت کنند که زیستشناسی یک چیز بسیار پیچیده و زیبا است. امیدوارم مردم ببینند که هنوز چیزهای زیادی وجود دارد که ما در مورد زیستشناسی نمیدانیم. امیدوارم مردم الهام بگیرند تا بیشتر در مورد زیستشناسی بیاموزند و به ما در حل برخی از مهمترین مشکلات جهان کمک کنند.
وقتی مشغول علم نیستید چه کار میکنید؟
من دوست دارم شعر بخوانم. دوست دارم به موسیقی گوش کنم. دوست دارم به پیادهروی بروم. دوست دارم با دوستان و خانوادهام وقت بگذرانم. دوست دارم سفر کنم. دوست دارم چیزهای جدید یاد بگیرم. دوست دارم خلاق باشم. دوست دارم به چالش کشیده شوم. دوست دارم الهام بگیرم. دوست دارم خوشحال باشم.