داده‌های مورد استفاده برای آزمایش‌های DNA. اعتبار: <i>Nature Machine Intelligence</i> (2025). DOI: 10.1038/s42256-025-01003-z
داده‌های مورد استفاده برای آزمایش‌های DNA. اعتبار: <i>Nature Machine Intelligence</i> (2025). DOI: 10.1038/s42256-025-01003-z

ذخیره داده در DNA: روش هوش مصنوعی سرعت بازیابی داده‌ها را ۳۲۰۰ برابر افزایش می‌دهد

محققان دانشکده علوم کامپیوتر هنری و مرلین تاوب، یک روش مبتنی بر هوش مصنوعی توسعه داده‌اند که بازیابی داده‌ها مبتنی بر DNA را سه مرتبه تسریع می‌کند و در عین حال دقت را به طور قابل توجهی بهبود می‌بخشد. تیم تحقیقاتی شامل دانشجوی دکترا، عمر ساباری، دکتر دانیلا بار-لو، دکتر ایتای اور، پروفسور ایتان یاکوبی و پروفسور تووی اتزیون بود.

این تحقیق در مجله Nature Machine Intelligence منتشر شده است.

ذخیره داده در DNA یک حوزه نوظهور است که از DNA به عنوان بستری برای ذخیره اطلاعات استفاده می‌کند. DNA مزایای قابل توجهی به عنوان یک رسانه ذخیره سازی ارائه می‌دهد، از جمله:

  • حفاظت طولانی مدت: در سال 2013، محققان در دانمارک با موفقیت DNA را از استخوان اسب مربوط به 700,000 سال پیش استخراج کردند. در سال 2021، یک تیم بین‌المللی DNA را از ماموت‌هایی که بیش از یک میلیون سال پیش زندگی می‌کردند بازیابی کردند. در مقابل، دیسک‌های مغناطیسی مورد استفاده در مراکز داده، طول عمرشان بر حسب سال یا در بهترین حالت، چند دهه اندازه‌گیری می‌شود. این امر پتانسیل DNA را برای ذخیره سازی طولانی مدت برجسته می‌کند.
  • انرژی و بهره‌وری هزینه: "ابر" که بیشتر خدمات محاسباتی امروزی را تامین می‌کند، متکی به مراکز داده است که تقریباً 3٪ از برق جهانی را مصرف می‌کنند و حدود 2٪ از کل انتشار کربن را تولید می‌کنند. با رشد نمایی داده‌ها، انتظار می‌رود تاثیرات زیست محیطی فناوری‌های موجود به طور قابل توجهی افزایش یابد.
  • تراکم داده بی‌نظیر: ذخیره سازی DNA تراکم داده‌ای تا 100 میلیون برابر بیشتر از ذخیره سازی دیجیتال سنتی ارائه می‌دهد. این بدان معناست که حجمی که در حال حاضر یک مگابایت را در خود جای می‌دهد، از نظر تئوری می‌تواند تا 100 ترابایت با استفاده از DNA ذخیره کند.

DNA مولکولی است که از توالی ترکیبات آلی به نام نوکلئوتید تشکیل شده است. این نوکلئوتیدها به چهار نوع طبقه بندی می‌شوند که با حروف A، C، G و T نشان داده می‌شوند. برخلاف محاسبات سنتی، که در آن داده‌ها فقط با استفاده از دو رقم (0 و 1) رمزگذاری می‌شوند، ذخیره سازی DNA بر اساس توالی‌های چهار حرفی است که به طور چشمگیری تعداد ترکیبات ممکن را افزایش می‌دهد.

برای نوشتن (ذخیره) داده‌ها در این فناوری، سنتز DNA مورد نیاز است - ایجاد مولکول‌های DNA بر اساس توالی‌هایی که اطلاعات را رمزگذاری می‌کنند. برای خواندن داده‌های ذخیره شده، توالی یابی DNA ضروری است.

لوله‌های آزمایش حاوی DNA که اطلاعات را رمزگذاری می‌کنند
لوله‌های آزمایش حاوی DNA که اطلاعات را رمزگذاری می‌کنند. اعتبار: رامی شلوش

چالش‌ها در ذخیره داده در DNA

توسعه فناوری ذخیره سازی مبتنی بر DNA چندین چالش تکنولوژیکی را به همراه دارد:

  • سنتز و توالی یابی هر دو فرآیندهای طولانی و مستعد خطا هستند و خطاهای حذف، درج و جایگزینی را وارد می‌کنند.
  • با توجه به محدودیت‌های فرآیند سنتز، نسخه‌های متعددی از هر مولکول DNA که داده‌ها را رمزگذاری می‌کند، تولید می‌شود. این نسخه‌ها به صورت نامرتب در یک مخزن ذخیره سازی با هم ذخیره می‌شوند.
  • در طول توالی یابی، بسیاری از نسخه‌های اشتباه این مولکول‌ها بازیابی می‌شوند - بیشتر آنها حاوی خطا هستند، در حالی که برخی به طور کامل ناپدید می‌شوند.

DNAformer: بازیابی داده‌ها با هوش مصنوعی

تحقیقات فعلی یک راه حل محاسباتی جامع برای بازیابی و اصلاح خطاها در سیستم‌های پیچیده ذخیره سازی مبتنی بر DNA ارائه می‌دهد. محققان با استفاده از الگوریتم‌های پیشرفته و تکنیک‌های رمزگذاری، نشان داده‌اند که راه حل آنها زمان بازیابی و خواندن داده‌ها را از چند روز به تنها 10 دقیقه کاهش می‌دهد.

روش توسعه یافته توسط Technion، به نام DNAformer، مبتنی بر یک مدل ترانسفورماتور است که بر روی داده‌های شبیه سازی شده (تولید شده با استفاده از یک شبیه ساز، که آن هم در Technion توسعه یافته است) آموزش داده شده است تا توالی‌های دقیق DNA را از نسخه‌های اشتباه بازسازی کند. این روش همچنین شامل یک کد تصحیح خطای سفارشی است که برای DNA طراحی شده است و از یکپارچگی قوی داده‌ها اطمینان می‌دهد.

علاوه بر این، یک مکانیسم حاشیه ایمنی اضافی، توالی‌های DNA به خصوص پر سر و صدا (سیگنال‌های ناخواسته یا خطاهایی که در طول فرآیند توالی یابی رخ می‌دهند و می‌توانند در تفسیر دقیق داده‌ها اختلال ایجاد کنند) را شناسایی می‌کند و ابزارهای الگوریتمی قدرتمندی را برای مدیریت کارآمد آنها اعمال می‌کند. در پایان فرآیند، داده‌ها دوباره به اطلاعات دیجیتال تبدیل می‌شوند.

این روش جدید امکان خواندن 100 مگابایت داده را با سرعتی 3200 برابر سریعتر از دقیق‌ترین روش موجود فراهم می‌کند - بدون هیچ گونه افت دقت. در مقایسه با روش‌های سریع شناخته شده قبلی، DNAformer همچنین دقت را تا 40٪ بهبود می‌بخشد و در عین حال زمان پردازش را به طور قابل توجهی کاهش می‌دهد. این امر بر روی یک مجموعه داده 3.1 مگابایتی نشان داده شد که شامل:

  • یک تصویر ثابت رنگی
  • یک کلیپ صوتی 24 ثانیه‌ای از سخنان نیل آرمسترانگ فضانورد در ماه
  • یک متن نوشته شده که در مورد مزایای DNA به عنوان یک روش ذخیره سازی داده امیدوارکننده بحث می‌کند
  • داده‌های تصادفی برای نشان دادن کاربرد برای داده‌های رمزگذاری شده یا فشرده شده

محققان قصد دارند نسخه‌های سفارشی شده DNAformer را متناسب با نیازهای مختلف توسعه دهند. آنها تاکید می‌کنند که فناوری آنها مقیاس پذیر و قابل انطباق است، به این معنی که می‌توان آن را برای برنامه‌های ذخیره سازی داده در مقیاس بزرگ بهینه کرد، نیازهای بازار و پیشرفت‌های آینده سنتز و توالی یابی DNA را برآورده کرد.

اطلاعات بیشتر: Daniella Bar-Lev et al, Scalable and robust DNA-based storage via coding theory and deep learning, Nature Machine Intelligence (2025). DOI: 10.1038/s42256-025-01003-z

اطلاعات مجله: Nature Machine Intelligence

ارائه شده توسط Technion - Israel Institute of Technology

Citation: DNA data storage: AI method speeds up data retrieval by 3,200 times (2025, March 21) retrieved 21 March 2025 from https://techxplore.com/news/2025-03-dna-storage-ai-method.html