در سال 2009، جاناتان وایسمن به دنبال راهی جدید برای جاسوسی از آنچه در داخل سلول اتفاق می افتد بود. به طور خاص، زیست شناس سلولی مولکولی می خواست بداند چه پروتئین هایی در هر لحظه تولید می شوند. بنابراین آزمایشگاه او راهی برای اندازه گیری مستقیم خروجی ریبوزوم ها - کارخانه های پروتئین سازی سلول - ارائه کرد.
این روش که با همکاری نیکلاس اینگولیا، دانشجوی فوق دکترا در آن زمان، که اکنون در دانشگاه کالیفرنیا، برکلی است، توسعه داده شد، شامل جمع آوری تمام ریبوزوم های سلول ها و تعیین توالی رشته های منفرد RNA پیام رسان است که به آنها متصل هستند. محققان امیدوار بودند که این ابزار، که پروفایل ریبوزوم نامیده می شود، شمارش دقیقی از تمام پروتئین های تولید شده توسط یک سلول و مقادیر نسبی آنها را ارائه دهد.
اما، هنگامی که وایسمن و دیگران شروع به آزمایش این روش کردند، با یک شگفتی بزرگ مواجه شدند. ریبوزومها نه تنها به طور فعال پروتئینهای کدگذاریشده توسط ژنهای شناختهشده در ژنوم یک سلول را تولید میکردند، بلکه به نظر میرسید هزاران هزار «پروتئین تاریک» را نیز تولید میکنند که به بخشهایی از ژنوم که تصور نمیشد پروتئین تولید کنند، نگاشت میشوند1. وایسمن، که در موسسه وایتهد در کمبریج، ماساچوست مستقر است، می گوید: "این لحظه 'آها!' برای ما بود." به زودی، آزمایشگاه او و دیگران رویدادهای ترجمه غیرمنتظره ای را در تقریباً هر موجود زنده ای که بررسی کردند، کشف کردند.
پانزده سال بعد، دانشمندان هنوز در مورد اینکه چه چیزی از این پروتئین ها بسازند، گیج شده اند.
پروتئین های تاریک تمایل به کوتاه بودن دارند - اغلب فقط چند ده اسید آمینه یا کمتر. و بسیاری ناآشنا هستند - آنها خویشاوندان نزدیکی در ژنوم سایر موجودات ندارند. مطالعات نشان می دهد که برخی می توانند نقش های اساسی در سلول داشته باشند و ممکن است بر سلامت انسان تأثیر بگذارند. به نظر می رسد که آنها در برخی از سرطان ها فراوان هستند و چندین شرکت امیدوارند درمان هایی را توسعه دهند که پروتئین های تاریک را هدف قرار می دهند. اما برای بسیاری از این موجودات مرموز، شواهد مبنی بر اینکه آنها کار مهمی انجام می دهند - یا حتی اینکه آیا برای مدت طولانی در سلول زنده می مانند - مبهم است.
ماری برونت، که پروتئومیکس را در دانشگاه شربروک در کانادا مطالعه می کند، می گوید مشکل این است که دانشمندان واقعاً نمی دانند چه چیزی را ممکن است از دست بدهند. او می گوید: "اگر پروتئینی از مخزن وجود نداشته باشد، شما حتی به دنبال آن نیستید."

معمای شمارش ژن
برونت بخشی از یک تلاش جهانی برای مستندسازی تمام پروتئینهای تاریک کدگذاری شده توسط ژنوم انسان است (به «کاوش در پروتئوم تاریک» مراجعه کنید). هدف این است که توجه محققان را به این ماده تاریک جلب کنیم تا آنها بتوانند مولکول به مولکول شروع به کار کنند تا بفهمند پروتئین ها چه کاری انجام می دهند.
سباستین ون هیش، زیست شناس سیستم ها در مرکز سرطان کودکان پرنسس ماکسیما در اوترخت، هلند، که او نیز بخشی از این تلاش است، می گوید: "قطعا زیست شناسی جدیدی در آنجا وجود دارد."
منتهی به اولین نشریات ژنوم انسان در اوایل دهه 2000، محققان به شدت در حال بررسی داده های توالی نوظهور بودند تا تعداد ژن های کد کننده پروتئین را تخمین بزنند. به طور معمول، آنها به دنبال چیزی بودند که به عنوان چارچوب های خوانش باز (ORF) شناخته می شود، کشش هایی از کد با توالی های سه حرفی خاص یا کدون ها که می توانند حاوی دستورالعمل هایی برای ساخت پروتئین باشند. متخصصان ژنوم برای یافتن سرنخ های بیشتر، مانند شواهدی مبنی بر اینکه یک توالی در بین سایر موجودات زنده حفظ شده است و طول معقولی دارد، جستجو کردند، که همگی نشان می دهند که پروتئین حاصل ممکن است عملکردی در سلول ها داشته باشد.
بسیاری از ORF هایی که این معیارها را برآورده نمی کردند نادیده گرفته می شدند یا به سادگی از دست می رفتند زیرا زیست شناسان تخمین های خود را اصلاح می کردند. کنسرسیوم هایی که لیست های ژن های پیش بینی شده را نگهداری می کنند، مانند پروژه GENCODE، در حال حاضر کمی کمتر از 20000 ژن کد کننده پروتئین را فهرست می کنند. حدود 90 درصد از اینها از طریق تلاش های دیگر تأیید شده اند، تا پروتئین های مربوطه را تولید کنند (ژن های منفرد می توانند با گنجاندن یا حذف کشش های کد به نام اگزون ها، پروتئین های مختلف متعددی را رمزگذاری کنند). GENCODE و سایر پروژه ها با ظهور داده ها، تنظیمات دوره ای را در لیست های خود انجام می دهند.
اما به گفته جان پرنسنر، زیست شناس سرطان در دانشکده پزشکی دانشگاه میشیگان در آن آربر، حسابداری ناقص است. این ایده که محققان می توانند به زودی در سال 2001 فهرست کاملی از ژن های کد کننده پروتئین تهیه کنند، یک تصور غلط رایج بود. پرنسنر می گوید: «رهبران پروژه ژنوم انسانی همیشه می دانستند که تازه شروع یک گفتگو هستند.»
توانایی اندازه گیری مستقیم خروجی ریبوزوم ها منجر به انفجار علاقه به ORF های نادیده گرفته شده و پتانسیل آنها برای رمزگذاری پروتئین های کارآمد شد. در یک مکاتبه در سال 2022 با Nature Biotechnology، تیمی به سرپرستی پرنسنر، ون هیش و دیگران، فهرستی از بیش از 7000 مورد از این ORF های "غیر متعارف" را گردآوری کردند، که عموماً الزامات لازم برای در نظر گرفته شدن به عنوان ژن های کد کننده پروتئین را ندارند و بنابراین از پایگاه های داده حذف شده اند2. (به گفته ون هیش، این یک کران پایین است. سایر مطالعات ده ها هزار پروتئین تاریک بالقوه کدگذاری شده توسط ژنوم انسان را شناسایی کرده اند.)
بیشتر ORFهای غیرمتعارفی که دانشمندان فهرست کردهاند، یا نزدیک به ژنهای کدکننده پروتئین متعارف یا همپوشانی با آنها هستند (به «پروتئینهای تاریک کجا هستند؟» مراجعه کنید). حدود یک سوم از آنها در توالی هایی به نام RNA های طولانی غیر کد کننده یافت می شدند، که - همانطور که از نامش پیداست - انتظار نمی رفت پروتئین ها را رمزگذاری کنند، اما تصور می شد نقش های تنظیمی داشته باشند.

اما فقط به این دلیل که یک ORF به پروتئین ترجمه می شود به این معنی نیست که پروتئین ها پایدار هستند یا مشاغل مهمی در سلول دارند. ترجمه برخی از ORFهای غیرمتعارف، که توسط ریبوزوم ها انجام می شود، می تواند راهی برای سلول ها برای کنترل فعالیت یک ژن در مجاورت خود باشد، به عنوان مثال، با چسباندن ماشین آلات ریبوزومی با محصولاتی که به سرعت تخریب می شوند، به گفته پرنسنر و دیگران. این نوع کنترل در برخی از ORF های بالادستی که قبل از یک توالی کد کننده پروتئین ظاهر می شوند رخ می دهد.
در یک مطالعه پیش از چاپ که پیگیری انتشار سال 2022 آنهاست، پرنسنر، ون هیش و یک کنسرسیوم گسترده از متخصصان ژنومیک و پروتئومیکس، صدها مجموعه داده پروتئومیکس - شامل میلیاردها نقطه داده - و یافتههای مطالعاتی را که از طیفسنجی جرمی و رویکردهای دیگر برای شناسایی محتوای پروتئین سلولها استفاده میکردند، بررسی کردند3. محققان قطعات پروتئینی مطابق با بیش از 1700 مورد از ORFهای غیرمتعارفی را که در سال 2022 شناسایی کرده بودند، پیدا کردند. برای 15 مورد از آنها، محققان استدلال کردند که شواهد به اندازه کافی قوی است تا دلیلی برای افزودن پروتئین ها و ژن های مربوطه آنها به آمار رسمی ژن های کد کننده پروتئین باشد.
اما، برای بیشتر ORFهای غیرمتعارف، شواهد واضح مبنی بر اینکه آنها می توانند پروتئین تولید کنند وجود ندارد. بخشی از چالش، اندازه کوچک پروتئین های بالقوه است - محققان آنها را میکروپروتئین می نامند زیرا تمایل دارند بسیار کوتاهتر از 100 اسید آمینه باشند (به طور متوسط پروتئین های انسانی حاوی چندین صد اسید آمینه هستند و بسیاری از آنها بسیار طولانی تر هستند). طول کوتاه آنها یافتن قطعات مطابق را دشوار می کند - که در آزمایشاتی ایجاد می شوند که پروتئین ها را از هم جدا می کنند و قطعات حاصل را با جرم خود شناسایی می کنند. به گفته ون هیش، نمونه های سلولی قطعات پروتئین های طولانی تر را بیش از حد نشان می دهند، به ویژه اگر میکروپروتئین ها کمتر فراوان باشند.
هنگامی که دانشمندان از ابزار هوش مصنوعی به نام آلفافولد برای پیشبینی ساختار پروتئینهای تاریک استفاده کردهاند، مولکولها اغلب شباهت کمی به پروتئینهای خوشتاخورده و معتبر دارند. اما پرسنر میگوید: «مثالهای واضحی وجود دارد که بسیار شبیه پروتئینهای متعارف هستند و نادیده گرفته شدهاند». GENCODE و سایر سازمان هایی که مخازن را مدیریت می کنند، شروع به افزودن این پروتئین های نادیده گرفته شده به لیست های خود کرده اند.
جاناتان ماج، که در پروژه GENCODE در آزمایشگاه زیست شناسی مولکولی اروپا در موسسه بیوانفورماتیک اروپا در هینتون، بریتانیا کار می کند و یکی از نویسندگان پیش نویس است، می گوید که حدود 50 توالی شناسایی شده از طریق پروفایل ریبوزوم در فهرست ژن های کد کننده پروتئین انسانی آن گنجانده شده است.
اما آنها با احتیاط حرکت می کنند، او اضافه می کند. این فقط زیست شناسان آزمایشگاهی نیستند که برای درک آزمایش ها به تلاش هایی مانند GENCODE متکی هستند. پزشکان نیز به چنین پایگاه های داده ای متکی هستند و افزودن انبوهی از ژن های مشکوک کد کننده پروتئین می تواند تلاش ها برای شناسایی انواع مضر موجود در ژنوم بیماران را پیچیده کند، می گوید ماج. او میگوید: «ما شکاک نیستیم. ما فقط محتاط هستیم.»
ویرایش ها برای وضوح
تقریباً در زمانی که محققان شروع به برجسته کردن پتانسیل ژنوم ها برای رمزگذاری پروتئین های تاریک کردند، پیشرفت دیگری امکان مطالعه سیستماتیک اثرات آنها را در سلول ها فراهم کرد: ویرایش ژن CRISPR-Cas9. وایسمن می گوید: «ناگهان ما می توانستیم به طور جراحی توالی کدگذاری این پروتئین های غیرمتعارف را حذف کنیم و بپرسیم، آیا آنها برای عملکرد سلول مهم هستند؟»
در مقاله ای در سال 2020 در مجله Science، تیم وایسمن دقیقاً این موضوع را نشان داد. محققان از ویرایش ژن CRISPR برای قطع هزاران ORF غیرمتعارف استفاده کردند و از ترجمه آنها به پروتئین ها در سلول های پرتوان القایی انسانی و همچنین توسط یک رده سلولی سرطانی جلوگیری کردند4. در صدها مورد، ویرایش CRISPR باعث نقص رشد در سلول ها شد. وایسمن می گوید: «بسیاری از میکروپروتئین ها برای سلول ها واقعاً مهم بودند.»
با آزمایشهای بیشتر، آنها توانستند دلیل آن را دریابند. در برخی موارد، پروتئینهای کدگذاریشده توسط یک ORF غیرمتعارف با پروتئینی که در همان رشته mRNA کدگذاری شده بود، تعامل داشتند. وایسمن می گوید: این یادآور روشی است که ژن های باکتریایی که به طور مشترک تنظیم می شوند، تمایل دارند در واحدهایی به نام اپرون در کنار یکدیگر قرار بگیرند. پروتئینهای تاریک عملکردی که تیم او شناسایی کرد، نقشهای متنوعی را در سلولها برعهده گرفتند: یکی به نظر میرسید در چرخه سلولی، دیگری در فیزیولوژی میتوکندری نقش داشته باشد.
سلول های سرطانی ممکن است به ویژه غنی از پروتئین های تاریک باشند. پرنسنر که متخصص مغز و اعصاب اطفال نیز هست، در حال مطالعه این احتمال است که ORF های غیر متعارف موجود در تمام ژنوم های انسانی می توانند در برخی از سرطان ها دچار اختلال شوند و به طور بالقوه در نتایج مختلف درمانی که او و سایر پزشکان سرطان در بیماران خود می بینند، نقش داشته باشند. او می گوید: «ما این سوال اساسی را می پرسیم که چرا سرطان ها این چیزها را می سازند.»
در آزمایشهایی مشابه آزمایشهای وایسمن، تیمی به سرپرستی پرنسنر دریافتند که حدود 10 درصد از بیش از 500 ORF غیرمتعارفی که با CRISPR غیرفعال کردهاند، باعث نقص رشد در انواع مختلف سلولهای سرطانی انسان شدهاند5. پرنسنر و همکارانش پروتئین تاریکی را شناسایی کردند که در سطوح بالایی در ردههای سلولی سرطان سینه بیان میشد و به نظر میرسید که رشد آنها را نیز هدایت میکند.
در مطالعه ای که سال گذشته منتشر شد، پرنسنر، ون هیش و همکارانشان چندین پروتئین تاریک را شناسایی کردند که در مدولوبلاستوماها، سرطان های مغزی گاه کشنده کودکان، نقش دارند6. در یک مثال، محققان نشان دادند که یک پروتئین تاریک - مستقل از یک پروتئین متعارف کدگذاری شده توسط یک ORF مجاور - رشد اشکال به ویژه تهاجمی مدولوبلاستوما را که نسخه بیش از حد فعال ژن سرطان به نام MYC را حمل می کنند، هدایت می کرد.