از تشکیل فیبرهای ماهیچهای گرفته تا محافظت از ما در برابر بیماریها، پروتئینها نقش اساسی در تقریباً تمام فرایندهای بیولوژیکی در انسان و سایر اشکال حیات به طور یکسان ایفا میکنند. در سالهای اخیر، پیشرفتهای فوقالعادهای در جهت درک بهتر ساختارهای پروتئینی با استفاده از یادگیری عمیق حاصل شده است که پیشبینی دقیق ساختارهای پروتئینی از توالیهای اسید آمینه آنها را امکانپذیر میسازد. با این حال، پیشبینی یک ساختار پروتئینی واحد از توالی اسید آمینه آن مانند نگاه کردن به یک فریم واحد از یک فیلم است—این فقط یک تصویر فوری از یک مولکول بسیار انعطافپذیر را ارائه میدهد. Biomolecular Emulator-1 (BioEmu-1) یک مدل یادگیری عمیق است که به دانشمندان نگاهی اجمالی به دنیای غنی ساختارهای مختلفی که هر پروتئین میتواند اتخاذ کند، یا مجموعههای ساختاری، ارائه میدهد و ما را یک قدم به درک نحوه عملکرد پروتئینها نزدیکتر میکند. درک عمیقتر پروتئینها به ما امکان میدهد داروهای مؤثرتری طراحی کنیم، زیرا بسیاری از داروها با تأثیرگذاری بر ساختارهای پروتئینی برای تقویت عملکرد آنها یا جلوگیری از ایجاد آسیب، عمل میکنند.
یکی از راههای مدلسازی ساختارهای مختلف پروتئینی از طریق شبیهسازیهای دینامیک مولکولی (MD) است. این ابزارها نحوه حرکت و تغییر شکل پروتئینها در طول زمان را شبیهسازی میکنند و به طور گسترده در دانشگاه و صنعت مورد استفاده قرار میگیرند. با این حال، به منظور شبیهسازی تغییرات عملکردی مهم در ساختار، شبیهسازیهای MD باید برای مدت طولانی اجرا شوند. این یک کار از نظر محاسباتی سخت است و تلاش قابل توجهی برای تسریع شبیهسازیها انجام شده است، تا آنجا که معماریهای رایانهای سفارشی طراحی شدهاند. با این حال، حتی با این پیشرفتها، بسیاری از پروتئینها فراتر از چیزی هستند که در حال حاضر امکان شبیهسازی آن وجود دارد و نیاز به زمان شبیهسازی سالها یا حتی دههها دارند.
وارد BioEmu-1 شوید—یک مدل یادگیری عمیق که میتواند هزاران ساختار پروتئینی را در ساعت بر روی یک واحد پردازش گرافیکی تولید کند. امروز، ما BioEmu-1 را متنباز میکنیم، پس از پیشانتشار خود از دسامبر گذشته، تا دانشمندان پروتئینی را در مطالعه مجموعههای ساختاری با مدل خود توانمند کنیم. در مقایسه با شبیهسازیهای MD کلاسیک، کارایی محاسباتی بسیار بیشتری را فراهم میکند، بنابراین دری را به بینشهایی باز میکند که تا کنون خارج از دسترس بودهاند. BioEmu-1 در Azure AI Foundry Labs، یک مرکز برای توسعهدهندگان، استارتآپها و شرکتها برای کشف نوآوریهای پیشگامانه از تحقیقات در مایکروسافت، نمایش داده میشود.
ما این را با آموزش BioEmu-1 بر روی سه نوع مجموعه داده فعال کردهایم: (1) ساختارهای پایگاه داده AlphaFold (AFDB) (2) یک مجموعه داده شبیهسازی MD گسترده، و (3) یک مجموعه داده پایداری تاشدگی پروتئینی تجربی. آموزش BioEmu-1 بر روی ساختارهای AFDB مانند نقشهبرداری از جزایر مجزا در یک اقیانوس وسیع از ساختارهای ممکن است. هنگام تهیه این مجموعه داده، توالیهای پروتئینی مشابه را خوشهبندی کردیم تا BioEmu-1 بتواند تشخیص دهد که یک توالی پروتئینی به چندین ساختار متمایز نگاشت میشود. مجموعه داده شبیهسازی MD به BioEmu-1 کمک میکند تا تغییرات ساختاری از نظر فیزیکی معقول را در اطراف این جزایر پیشبینی کند و انبوهی از ساختارهای ممکن را که یک پروتئین واحد میتواند اتخاذ کند، نقشهبرداری کند. در نهایت، از طریق تنظیم دقیق بر روی مجموعه داده پایداری تاشدگی پروتئینی، BioEmu-1 یاد میگیرد که ساختارهای تاشده و باز نشده را با احتمالات صحیح نمونهبرداری کند.
BioEmu-1 با ترکیب این پیشرفتها، با موفقیت به توالیهای پروتئینی دیده نشده تعمیم مییابد و ساختارهای متعددی را پیشبینی میکند. در شکل 1، نشان میدهیم که BioEmu-1 میتواند ساختارهای پروتئین LapD را از باکتری Vibrio cholerae که باعث وبا میشود، پیشبینی کند. BioEmu-1 ساختارهای LapD را زمانی که با مولکولهای c-di-GMP متصل و غیرمتصل است، پیشبینی میکند، که هر دوی آنها از نظر تجربی شناخته شدهاند اما در مجموعه آموزشی نیستند. علاوه بر این، مدل ما دیدگاهی را در مورد ساختارهای میانی ارائه میدهد که هرگز به صورت تجربی مشاهده نشدهاند، و فرضیههای قابل دوامی را در مورد نحوه عملکرد این پروتئین ارائه میدهد. بینش در مورد نحوه عملکرد پروتئینها راه را برای پیشرفتهای بیشتر در زمینههایی مانند توسعه دارو هموار میکند.
علاوه بر این، BioEmu-1 توزیعهای تعادل MD را با کسری کوچک از هزینه محاسباتی به طور دقیق بازتولید میکند. در شکل 2، طرحهای 2 بعدی توزیع ساختاری شبیهسازی تحقیقات D. E. Shaw (DESRES) از پروتئین G و نمونههایی از BioEmu-1 را مقایسه میکنیم. BioEmu-1 توزیع MD را به طور دقیق بازتولید میکند، در حالی که به 10000-100000 برابر ساعتهای GPU کمتری نیاز دارد.
علاوه بر این، BioEmu-1 پایداری پروتئین را به طور دقیق پیشبینی میکند، که ما با محاسبه انرژیهای آزاد تاشدگی اندازهگیری میکنیم—روشی برای تعیین کمیت نسبت بین حالتهای تاشده و باز نشده یک پروتئین. پایداری پروتئین یک عامل مهم در هنگام طراحی پروتئینها است، به عنوان مثال، برای اهداف درمانی. شکل 3 انرژیهای آزاد تاشدگی پیشبینی شده توسط BioEmu-1 را نشان میدهد، که با نمونهبرداری از ساختارهای پروتئینی و شمارش ساختارهای پروتئینی تاشده در مقابل باز نشده، در مقایسه با اندازهگیریهای تجربی انرژی آزاد تاشدگی به دست میآیند. ما میبینیم که حتی در توالیهایی که BioEmu-1 در طول آموزش هرگز ندیده است، مقادیر انرژی آزاد پیشبینی شده به خوبی با مقادیر تجربی همبستگی دارند.
پروفسور مارتین اشتاینگر از دانشگاه ملی سئول، که بخشی از این مطالعه نبود، میگوید: "با پیشبینی ساختار بسیار دقیق، دینامیک پروتئین مرز بعدی در کشف است. BioEmu با امکان نمونهبرداری سریع از چشمانداز انرژی آزاد پروتئینها از طریق یادگیری عمیق مولد، گام مهمی در این راستا برمیدارد."
ما معتقدیم که BioEmu-1 اولین گام در جهت تولید کل مجموعه ساختارهایی است که یک پروتئین میتواند به خود بگیرد. در این روزهای اولیه، ما از محدودیتهای آن نیز آگاه هستیم. با این انتشار متنباز، امیدواریم دانشمندان شروع به آزمایش با BioEmu-1 کنند و به ما کمک کنند تا پتانسیلها و کاستیهای آن را مشخص کنیم تا بتوانیم آن را در آینده بهبود بخشیم. ما مشتاقانه منتظر شنیدن نحوه عملکرد آن بر روی پروتئینهای مختلفی هستیم که به آنها اهمیت میدهید.
تقدیر و تشکر
BioEmu-1 نتیجه یک تلاش تیمی بسیار مشارکتی در Microsoft Research AI for Science است. نویسندگان کامل: Sarah Lewis, Tim Hempel, José Jiménez-Luna, Michael Gastegger, Yu Xie, Andrew Y. K. Foong, Victor García Satorras, Osama Abdin, Bastiaan S. Veeling, Iryna Zaporozhets, Yaoyi Chen, Soojung Yang, Arne Schneuing, Jigyasa Nigam, Federico Barbero, Vincent Stimper, Andrew Campbell, Jason Yim, Marten Lienen, Yu Shi, Shuxin Zheng, Hannes Schulz, Usman Munir, Ryota Tomioka, Cecilia Clementi, Frank Noé