کاوش در تغییرات ساختاری پیش‌برنده عملکرد پروتئین با BioEmu-1

از تشکیل فیبرهای ماهیچه‌ای گرفته تا محافظت از ما در برابر بیماری‌ها، پروتئین‌ها نقش اساسی در تقریباً تمام فرایندهای بیولوژیکی در انسان و سایر اشکال حیات به طور یکسان ایفا می‌کنند. در سال‌های اخیر، پیشرفت‌های فوق‌العاده‌ای در جهت درک بهتر ساختارهای پروتئینی با استفاده از یادگیری عمیق حاصل شده است که پیش‌بینی دقیق ساختارهای پروتئینی از توالی‌های اسید آمینه آن‌ها را امکان‌پذیر می‌سازد. با این حال، پیش‌بینی یک ساختار پروتئینی واحد از توالی اسید آمینه آن مانند نگاه کردن به یک فریم واحد از یک فیلم است—این فقط یک تصویر فوری از یک مولکول بسیار انعطاف‌پذیر را ارائه می‌دهد. Biomolecular Emulator-1 (BioEmu-1) یک مدل یادگیری عمیق است که به دانشمندان نگاهی اجمالی به دنیای غنی ساختارهای مختلفی که هر پروتئین می‌تواند اتخاذ کند، یا مجموعه‌های ساختاری، ارائه می‌دهد و ما را یک قدم به درک نحوه عملکرد پروتئین‌ها نزدیک‌تر می‌کند. درک عمیق‌تر پروتئین‌ها به ما امکان می‌دهد داروهای مؤثرتری طراحی کنیم، زیرا بسیاری از داروها با تأثیرگذاری بر ساختارهای پروتئینی برای تقویت عملکرد آن‌ها یا جلوگیری از ایجاد آسیب، عمل می‌کنند.

یکی از راه‌های مدل‌سازی ساختارهای مختلف پروتئینی از طریق شبیه‌سازی‌های دینامیک مولکولی (MD) است. این ابزارها نحوه حرکت و تغییر شکل پروتئین‌ها در طول زمان را شبیه‌سازی می‌کنند و به طور گسترده در دانشگاه و صنعت مورد استفاده قرار می‌گیرند. با این حال، به منظور شبیه‌سازی تغییرات عملکردی مهم در ساختار، شبیه‌سازی‌های MD باید برای مدت طولانی اجرا شوند. این یک کار از نظر محاسباتی سخت است و تلاش قابل توجهی برای تسریع شبیه‌سازی‌ها انجام شده است، تا آنجا که معماری‌های رایانه‌ای سفارشی طراحی شده‌اند. با این حال، حتی با این پیشرفت‌ها، بسیاری از پروتئین‌ها فراتر از چیزی هستند که در حال حاضر امکان شبیه‌سازی آن وجود دارد و نیاز به زمان شبیه‌سازی سال‌ها یا حتی دهه‌ها دارند.

وارد BioEmu-1 شوید—یک مدل یادگیری عمیق که می‌تواند هزاران ساختار پروتئینی را در ساعت بر روی یک واحد پردازش گرافیکی تولید کند. امروز، ما BioEmu-1 را متن‌باز می‌کنیم، پس از پیش‌انتشار خود از دسامبر گذشته، تا دانشمندان پروتئینی را در مطالعه مجموعه‌های ساختاری با مدل خود توانمند کنیم. در مقایسه با شبیه‌سازی‌های MD کلاسیک، کارایی محاسباتی بسیار بیشتری را فراهم می‌کند، بنابراین دری را به بینش‌هایی باز می‌کند که تا کنون خارج از دسترس بوده‌اند. BioEmu-1 در Azure AI Foundry Labs، یک مرکز برای توسعه‌دهندگان، استارت‌آپ‌ها و شرکت‌ها برای کشف نوآوری‌های پیشگامانه از تحقیقات در مایکروسافت، نمایش داده می‌شود.

ما این را با آموزش BioEmu-1 بر روی سه نوع مجموعه داده فعال کرده‌ایم: (1) ساختارهای پایگاه داده AlphaFold (AFDB) (2) یک مجموعه داده شبیه‌سازی MD گسترده، و (3) یک مجموعه داده پایداری تاشدگی پروتئینی تجربی. آموزش BioEmu-1 بر روی ساختارهای AFDB مانند نقشه‌برداری از جزایر مجزا در یک اقیانوس وسیع از ساختارهای ممکن است. هنگام تهیه این مجموعه داده، توالی‌های پروتئینی مشابه را خوشه‌بندی کردیم تا BioEmu-1 بتواند تشخیص دهد که یک توالی پروتئینی به چندین ساختار متمایز نگاشت می‌شود. مجموعه داده شبیه‌سازی MD به BioEmu-1 کمک می‌کند تا تغییرات ساختاری از نظر فیزیکی معقول را در اطراف این جزایر پیش‌بینی کند و انبوهی از ساختارهای ممکن را که یک پروتئین واحد می‌تواند اتخاذ کند، نقشه‌برداری کند. در نهایت، از طریق تنظیم دقیق بر روی مجموعه داده پایداری تاشدگی پروتئینی، BioEmu-1 یاد می‌گیرد که ساختارهای تاشده و باز نشده را با احتمالات صحیح نمونه‌برداری کند.

BioEmu-1 با ترکیب این پیشرفت‌ها، با موفقیت به توالی‌های پروتئینی دیده نشده تعمیم می‌یابد و ساختارهای متعددی را پیش‌بینی می‌کند. در شکل 1، نشان می‌دهیم که BioEmu-1 می‌تواند ساختارهای پروتئین LapD را از باکتری Vibrio cholerae که باعث وبا می‌شود، پیش‌بینی کند. BioEmu-1 ساختارهای LapD را زمانی که با مولکول‌های c-di-GMP متصل و غیرمتصل است، پیش‌بینی می‌کند، که هر دوی آن‌ها از نظر تجربی شناخته شده‌اند اما در مجموعه آموزشی نیستند. علاوه بر این، مدل ما دیدگاهی را در مورد ساختارهای میانی ارائه می‌دهد که هرگز به صورت تجربی مشاهده نشده‌اند، و فرضیه‌های قابل دوامی را در مورد نحوه عملکرد این پروتئین ارائه می‌دهد. بینش در مورد نحوه عملکرد پروتئین‌ها راه را برای پیشرفت‌های بیشتر در زمینه‌هایی مانند توسعه دارو هموار می‌کند.

شکل شبیه‌سازی دینامیک مولکولی (MD) و BioEmu-1 را مقایسه می‌کند و نشان می‌دهد که BioEmu-1 می‌تواند توزیع تعادل را 100000 برابر سریع‌تر از اجرای شبیه‌سازی MD تا همگرایی کامل شبیه‌سازی کند. قسمت میانی شکل نشان می‌دهد که طرح‌های 2 بعدی توزیع‌های ساختاری به دست آمده از شبیه‌سازی MD و BioEmu-1 تقریباً یکسان هستند. قسمت پایینی شکل سه ساختار نماینده از توزیع تعادل را نشان می‌دهد.
شکل 2: BioEmu-1 شبیه‌سازی تحقیقات D. E. Shaw (DESRES) از پروتئین G را با دقت و با کسری از هزینه محاسباتی بازتولید می‌کند. در بالا، توزیع ساختارهای به دست آمده از شبیه‌سازی MD گسترده (سمت چپ) و نمونه‌برداری مستقل از BioEmu-1 (سمت راست) را مقایسه می‌کنیم. سه ساختار نمونه نماینده در پایین نشان داده شده است.

علاوه بر این، BioEmu-1 توزیع‌های تعادل MD را با کسری کوچک از هزینه محاسباتی به طور دقیق بازتولید می‌کند. در شکل 2، طرح‌های 2 بعدی توزیع ساختاری شبیه‌سازی تحقیقات D. E. Shaw (DESRES) از پروتئین G و نمونه‌هایی از BioEmu-1 را مقایسه می‌کنیم. BioEmu-1 توزیع MD را به طور دقیق بازتولید می‌کند، در حالی که به 10000-100000 برابر ساعت‌های GPU کمتری نیاز دارد.

پانل سمت چپ شکل یک نمودار پراکندگی از انرژی‌های آزاد تاشدگی تجربی ?G در برابر آنهایی که توسط BioEmu-1 پیش‌بینی شده‌اند را نشان می‌دهد. این نمودار همبستگی خوبی بین این دو نشان می‌دهد. پانل سمت راست شکل ساختارهای تاشده و باز نشده یک پروتئین را نشان می‌دهد.
شکل 3: BioEmu-1 پایداری پروتئین را به طور دقیق پیش‌بینی می‌کند. در سمت چپ، تفاوت‌های انرژی آزاد اندازه‌گیری شده تجربی ?G را در برابر آنهایی که توسط BioEmu-1 پیش‌بینی شده‌اند، ترسیم می‌کنیم. در سمت راست، یک پروتئین را در ساختارهای تاشده و باز نشده نشان می‌دهیم.

علاوه بر این، BioEmu-1 پایداری پروتئین را به طور دقیق پیش‌بینی می‌کند، که ما با محاسبه انرژی‌های آزاد تاشدگی اندازه‌گیری می‌کنیم—روشی برای تعیین کمیت نسبت بین حالت‌های تاشده و باز نشده یک پروتئین. پایداری پروتئین یک عامل مهم در هنگام طراحی پروتئین‌ها است، به عنوان مثال، برای اهداف درمانی. شکل 3 انرژی‌های آزاد تاشدگی پیش‌بینی شده توسط BioEmu-1 را نشان می‌دهد، که با نمونه‌برداری از ساختارهای پروتئینی و شمارش ساختارهای پروتئینی تاشده در مقابل باز نشده، در مقایسه با اندازه‌گیری‌های تجربی انرژی آزاد تاشدگی به دست می‌آیند. ما می‌بینیم که حتی در توالی‌هایی که BioEmu-1 در طول آموزش هرگز ندیده است، مقادیر انرژی آزاد پیش‌بینی شده به خوبی با مقادیر تجربی همبستگی دارند.

پروفسور مارتین اشتاینگر از دانشگاه ملی سئول، که بخشی از این مطالعه نبود، می‌گوید: "با پیش‌بینی ساختار بسیار دقیق، دینامیک پروتئین مرز بعدی در کشف است. BioEmu با امکان نمونه‌برداری سریع از چشم‌انداز انرژی آزاد پروتئین‌ها از طریق یادگیری عمیق مولد، گام مهمی در این راستا برمی‌دارد."

ما معتقدیم که BioEmu-1 اولین گام در جهت تولید کل مجموعه ساختارهایی است که یک پروتئین می‌تواند به خود بگیرد. در این روزهای اولیه، ما از محدودیت‌های آن نیز آگاه هستیم. با این انتشار متن‌باز، امیدواریم دانشمندان شروع به آزمایش با BioEmu-1 کنند و به ما کمک کنند تا پتانسیل‌ها و کاستی‌های آن را مشخص کنیم تا بتوانیم آن را در آینده بهبود بخشیم. ما مشتاقانه منتظر شنیدن نحوه عملکرد آن بر روی پروتئین‌های مختلفی هستیم که به آنها اهمیت می‌دهید.

تقدیر و تشکر

BioEmu-1 نتیجه یک تلاش تیمی بسیار مشارکتی در Microsoft Research AI for Science است. نویسندگان کامل: Sarah Lewis, Tim Hempel, José Jiménez-Luna, Michael Gastegger, Yu Xie, Andrew Y. K. Foong, Victor García Satorras, Osama Abdin, Bastiaan S. Veeling, Iryna Zaporozhets, Yaoyi Chen, Soojung Yang, Arne Schneuing, Jigyasa Nigam, Federico Barbero, Vincent Stimper, Andrew Campbell, Jason Yim, Marten Lienen, Yu Shi, Shuxin Zheng, Hannes Schulz, Usman Munir, Ryota Tomioka, Cecilia Clementi, Frank Noé