چقدر آسان است که یک فرد بدخواه، بدون تخصص علمی و با انگیزه شخصی، یک عامل بیماریزا خطرناک را ایجاد و گسترش دهد؟ موانع بهطور مداوم کاهش مییابند. پیشرفتها در توالییابی ژنتیکی، دستورالعملهای عوامل بیولوژیکی را بهطور گستردهای در دسترس قرار داده است؛ ابزارهای ویرایش ژن مانند CRISPR میتوانند بهطور نظری میکروبهای بیضرر را به چیزی کشنده تبدیل کنند؛ و کیتهای ابزاری مورد نیاز برای مونتاژ و رشد پروتئینها و ویروسهای خطرناک را میتوان با چند صد دلار به صورت آنلاین خریداری کرد.
اکنون مدلهای زبان بزرگ (LLMها) وارد میدان شدهاند. متخصصان امنیت زیستی، که در ماههای اخیر ترسشان افزایش یافته است، نگرانند که مدلهای هوش مصنوعی (AI) با آموزش بر روی حجم وسیعی از دانش علمی، از جمله اطلاعات تخصصی ویروسشناسی و باکتریشناسی، میتوانند کاربران مبتدی را به کارشناسان یکشبه تبدیل کنند. سال گذشته، OpenAI، Anthropic و Google همگی اقدامات احتیاطی ایمنی را افزایش دادند. این شرکتها دیگر نمیتوانستند این احتمال را رد کنند که مدلهایشان به افرادی با پیشینه علمی اندک در توسعه سلاحهای بیولوژیکی کمک کنند (اگرچه Anthropic اعلام کرد که "هدف ما ایجاد وحشت نیست"). طبیعی است که این سوال مطرح شود که آیا جهان در آستانه عصر کابوسوار بیوتروریسم مبتنی بر هوش مصنوعی است—و اگر چنین است، چه کارهایی میتوان در این زمینه انجام داد.
یک بیوتروریست بالقوه که مایل به دستیابی به یک عامل بیماریزا مناسب باشد، قطعاً میتواند اطلاعات مفیدی را از یک مدل هوش مصنوعی دریافت کند. در دسامبر ۲۰۲۵، موسسه امنیت هوش مصنوعی بریتانیا گزارش داد که مدلهای اصلی میتوانند بهطور قابل اعتماد پروتکلهای علمی برای سنتز ویروسها و باکتریها از قطعات ژنتیکی را تولید کنند. در همان ماه، دو دانشمند در شرکت RAND (یک اتاق فکر آمریکایی) نشان دادند که مدلهای تجاری موجود میتوانند در پیچیدهترین مرحله مونتاژ RNA پولیوویروس کمک کنند.
اما رها کردن یک عامل کشنده "به سادگی وارد کردن یک مولکول DNA یا RNA به سلولها و امیدواری به تولید ویروس نیست"، به گفته مایکل ایمپریال، استاد بازنشسته میکروبیولوژی و ایمونولوژی در دانشکده پزشکی دانشگاه میشیگان. بخشی از چالش، گذار از نظریه به عمل است. دانستن اینکه وقتی یک آزمایش حساس ویروسشناسی شکست میخورد چه چیزی اشتباه رفته و چگونه مشکل را در آزمایش بعدی برطرف کرد، یک مهارت ضروری است که نمیتوان آن را تنها از یک کتاب درسی به دست آورد. اما LLMها در حال کمک هستند.
آزمون قابلیتهای ویروسشناسی را در نظر بگیرید، یک ارزیابی پرکاربرد که توسط SecureBio، یک سازمان غیرانتفاعی مستقر در کمبریج، ماساچوست توسعه یافته است. این آزمون شامل ۳۲۲ سوال پیچیده رفع اشکال است که مهارتهای تجربی یک کاربر را میسنجد. سال گذشته، زمانی که SecureBio سه دوجین از کارشناسان برجسته را برای شرکت در بخشهایی از این آزمون به چالش کشید، آنها به طور متوسط تنها ۲۲ درصد امتیاز کسب کردند. در مقایسه، مبتدیان زیستشناسی که با کمک LLMها در آزمون شرکت کردند، طبق مطالعهای که در ماه فوریه توسط بخش تحقیقاتی Scale AI (یک شرکت آمریکایی) منتشر شد، ۲۸ درصد امتیاز گرفتند. LLMهایی که بدون دخالت انسان در آزمون شرکت کردند، حتی امتیاز بالاتری کسب کردند که برای جدیدترین مدلها از ۵۵% تا ۶۱% متغیر بود، همتراز با عملکرد تیمهای برترین ویروسشناسان انسانی.
چنین نتایجی در تصمیمات اخیر سازندگان مدل برای استقرار اقدامات ایمنی بیشتر مؤثر بوده است. اما مطالعهای که در ماه فوریه توسط Active Site، یک سازمان غیرانتفاعی دیگر در کمبریج منتشر شد، نشان میدهد که مدلها هنوز راه زیادی تا تبدیل شدن به دستیاران آزمایشگاهی واقعی در پیش دارند.
مطالعه آنها اولین کارآزمایی کنترلشده تصادفی بود که افزایش کمک این ابزارها به یک فرد مبتدی – پدیدهای که به عنوان "ارتقاء" (uplift) شناخته میشود – را در یک آزمایشگاه تر (wet lab) آزمایش کرد. وقتی به ۱۵۳ شرکتکننده با تجربه حداقلی در زیستشناسی، وظایف مرتبط با تولید یک ویروس محول شد، مدلهای هوش مصنوعی هیچ "ارتقاء" قابل توجهی ارائه نکردند. تنها چهار نفر از شرکتکنندگان با کمک LLMها وظایف اصلی را تکمیل کردند که یک نفر کمتر از گروه کنترل بود که فقط میتوانستند از اینترنت استفاده کنند. به گفته جو تورِس، یکی از نویسندگان این مطالعه، LLMها اغلب "به سرعت پاسخهایی را تولید میکردند که معتبر به نظر میرسیدند اما اشتباه بودند"، و تلاشهای شرکتکنندگان را محکوم به شکست میکردند. کسانی که بیشتر به چتباتهای خود تکیه کرده بودند، عملکردی بهتر از کسانی که به ندرت از آنها استفاده میکردند، نداشتند. شرکتکنندگان در هر دو گروه گفتند که مفیدترین منبعی که پیدا کردند، یوتیوب بود.
دکتر تورِس میگوید که این یافتهها باید نگرانیها را در مورد خطراتی که افراد فاقد پیشینه علمی ایجاد میکنند، کاهش دهد. با این حال، کسانی که مدرک پیشرفته در زیستشناسی دارند، ممکن است شانس بیشتری برای "ارتقاء" داشته باشند، به گفته کسیدی نلسون، مدیر سیاست امنیت زیستی در مرکز تابآوری بلندمدت در لندن. اگر مدلهای هوش مصنوعی بتوانند در برخی جنبهها به کارشناسان "ارتقاء" دهند، در جنبههای دیگر نیز باعث کندی میشوند. Anthropic دریافته است که Mythos و Opus به کارشناسان در سطح دکترا کمک میکنند تا بسیار سریعتر کار کنند و پروتکلهای بهتری برای آزمایشهای پیچیده ویروسشناسی تولید کنند، نسبت به کسانی که فقط از اینترنت استفاده میکردند. با این حال، تمام پروتکلها شامل خطاهای حیاتی بودند که باعث شکست آنها در یک آزمایش واقعی میشد.
علاوه بر این، ارزیابان ریسک زیستی Anthropic دریافتند که مدلهای این شرکت تمایلات چاپلوسانه از خود نشان میدهند، به طور منظم توهمزا هستند و در مورد آنچه که آنها "ایدههای غیرقابل قبول" مینامند، بیش از حد مطمئن بودند. هنگامی که کارشناسان انسانی ایدهای غیرقابل اجرا را پیشنهاد میکردند، مدل اغلب به طور تشویقآمیزی آن را تشریح میکرد، به جای اینکه پیشنهاد دهد چیز دیگری را امتحان کنند. در یک آزمایش، از کارشناسان زیستشناسی خواسته شد تا با استفاده از Mythos "یک برنامه دقیق برای یک عامل بیولوژیکی فاجعهبار" ارائه دهند. حتی بهترین طرحها نیز، به قضاوت ارزیابان انسانی، دارای نقص بودند. یکی از ارزیابان اشاره کرد که Mythos مراحلی را پیشنهاد کرده است "که در واقع شکست را تضمین میکند."
چنین نتایجی تناقض اساسی "ارتقاء" را برجسته میکند. سونیا بن اوآقرهام-گورملی، استاد دانشگاه جورج میسون که تاریخچههای شفاهی برنامههای سلاحهای بیولوژیکی جنگ سرد را انجام داده است، میگوید اگر کاربری به کمک یک مدل نیاز داشته باشد، نمیداند چه زمانی آن مدل توصیههای بدی ارائه میدهد.
این ممکن است برای مدتی اطمینانبخش باشد. اما لوکا ریگِتی، نویسنده ارشد این مطالعه که این کار را در METR (یک گروه ایمنی هوش مصنوعی) انجام داده است، میگوید این واقعیت که هر مبتدی در مطالعه Active Site توانست یک ویروس را سنتز کند، نباید نادیده گرفته شود. و پیشرفت فنی ادامه دارد. عوامل بدخواه میتوانند از ابزارهای نوظهور طراحی بیولوژیکی، که شبیه LLMهایی هستند که به جای کلمات، توالیهای نوکلئوتیدی تولید میکنند، برای خطرناکتر کردن عوامل بیماریزا موجود استفاده کنند. بر اساس مطالعهای که توسط وزارت جنگ آمریکا تأمین مالی شده است، این ابزارهای طراحی، که طیف وسیعی از کاربردهای مشروع دارند، ممکن است روزی توالیهای ژنومی را به گونهای تغییر دهند که عوامل بیماریزا را مسریتر، منتقلپذیرتر و مقاومتر در برابر اقدامات متقابل سازند.
در این میان، محققان باید راههای بهتری برای تخمین خطرات پیدا کنند. دکتر تورِس میگوید که این حوزه هنوز فاقد دادههای خوب در مورد اینکه آیا هوش مصنوعی بیشترین تأثیر را در دست متخصصان با تجربه آزمایشگاهی تر دارد یا "کاربران قدرتمند هوش مصنوعی" که در استخراج حداکثر بهرهوری از مدلها مهارت دارند، ندارد. آزمایشهای عمومی آشکار شده نیز هنوز نشان ندادهاند که آیا هوش مصنوعی میتواند به ساخت ویروسها یا باکتریهای بیماریزای واقعی کمک کند، که ممکن است نیاز به درمان متفاوتی نسبت به عوامل خوشخیم مانند آنهایی که توسط شرکتکنندگان در مطالعه Active Site مونتاژ شدهاند، داشته باشند. همچنین هیچ مطالعهای ارزیابی نکرده است که آیا هوش مصنوعی میتواند به حفظ شرایط لازم برای تولید یک عامل بیولوژیکی به اندازه کافی طولانی برای تسلیح آن در مقیاس وسیع کمک کند.
دامهای سرعت
با توجه به این چالشها، توسعهدهندگان ممکن است نیاز داشته باشند سرعت انتشار مدلهای جدید را کاهش دهند. به عنوان مثال، در شش ماهی که Active Site برای انتشار نتایج آزمایش "ارتقاء" خود طول کشید، چهار مدل پیشرفته جدید با قابلیتهای بیولوژیکی بهبود یافته پدیدار شدند. دکتر تورِس خاطرنشان میکند که این مدلها کمتر از مدلهایی که تیم او در مطالعه اصلی آزمایش کرده بود، توالیهای معتبر اما اشتباه را توهم میکنند. تا زمانی که گروه نتایج آزمایش پیگیری خود را که برای اواخر سال جاری برنامهریزی شده است، منتشر کند، قابلیتهای مدل احتمالاً بیشتر نیز بهبود یافته خواهد بود.
چنین احتیاطی سابقه دارد. ماه گذشته، Anthropic اعلام کرد که دسترسی به Mythos، مدل برجسته امنیت سایبری خود را، تا زمانی که خطرات آن برطرف شود، محدود میکند. اگر توسعهدهندگان متوجه شوند که یک مدل جهش قابل توجهی در قابلیتهای بیولوژیکی خطرناک از خود نشان میدهد، ممکن است عاقلانه باشد که آن را تا زمانی که پتانسیل "ارتقاء" آن مشخص شود، تحت کنترل نگه دارند. با این ریسکهای بالا، کمی صبر میتواند بسیار مفید باشد.