محققان دانشکده علوم کامپیوتر هنری و مرلین تاوب، یک روش مبتنی بر هوش مصنوعی توسعه دادهاند که بازیابی دادهها مبتنی بر DNA را سه مرتبه تسریع میکند و در عین حال دقت را به طور قابل توجهی بهبود میبخشد. تیم تحقیقاتی شامل دانشجوی دکترا، عمر ساباری، دکتر دانیلا بار-لو، دکتر ایتای اور، پروفسور ایتان یاکوبی و پروفسور تووی اتزیون بود.
این تحقیق در مجله Nature Machine Intelligence منتشر شده است.
ذخیره داده در DNA یک حوزه نوظهور است که از DNA به عنوان بستری برای ذخیره اطلاعات استفاده میکند. DNA مزایای قابل توجهی به عنوان یک رسانه ذخیره سازی ارائه میدهد، از جمله:
- حفاظت طولانی مدت: در سال 2013، محققان در دانمارک با موفقیت DNA را از استخوان اسب مربوط به 700,000 سال پیش استخراج کردند. در سال 2021، یک تیم بینالمللی DNA را از ماموتهایی که بیش از یک میلیون سال پیش زندگی میکردند بازیابی کردند. در مقابل، دیسکهای مغناطیسی مورد استفاده در مراکز داده، طول عمرشان بر حسب سال یا در بهترین حالت، چند دهه اندازهگیری میشود. این امر پتانسیل DNA را برای ذخیره سازی طولانی مدت برجسته میکند.
- انرژی و بهرهوری هزینه: "ابر" که بیشتر خدمات محاسباتی امروزی را تامین میکند، متکی به مراکز داده است که تقریباً 3٪ از برق جهانی را مصرف میکنند و حدود 2٪ از کل انتشار کربن را تولید میکنند. با رشد نمایی دادهها، انتظار میرود تاثیرات زیست محیطی فناوریهای موجود به طور قابل توجهی افزایش یابد.
- تراکم داده بینظیر: ذخیره سازی DNA تراکم دادهای تا 100 میلیون برابر بیشتر از ذخیره سازی دیجیتال سنتی ارائه میدهد. این بدان معناست که حجمی که در حال حاضر یک مگابایت را در خود جای میدهد، از نظر تئوری میتواند تا 100 ترابایت با استفاده از DNA ذخیره کند.
DNA مولکولی است که از توالی ترکیبات آلی به نام نوکلئوتید تشکیل شده است. این نوکلئوتیدها به چهار نوع طبقه بندی میشوند که با حروف A، C، G و T نشان داده میشوند. برخلاف محاسبات سنتی، که در آن دادهها فقط با استفاده از دو رقم (0 و 1) رمزگذاری میشوند، ذخیره سازی DNA بر اساس توالیهای چهار حرفی است که به طور چشمگیری تعداد ترکیبات ممکن را افزایش میدهد.
برای نوشتن (ذخیره) دادهها در این فناوری، سنتز DNA مورد نیاز است - ایجاد مولکولهای DNA بر اساس توالیهایی که اطلاعات را رمزگذاری میکنند. برای خواندن دادههای ذخیره شده، توالی یابی DNA ضروری است.
چالشها در ذخیره داده در DNA
توسعه فناوری ذخیره سازی مبتنی بر DNA چندین چالش تکنولوژیکی را به همراه دارد:
- سنتز و توالی یابی هر دو فرآیندهای طولانی و مستعد خطا هستند و خطاهای حذف، درج و جایگزینی را وارد میکنند.
- با توجه به محدودیتهای فرآیند سنتز، نسخههای متعددی از هر مولکول DNA که دادهها را رمزگذاری میکند، تولید میشود. این نسخهها به صورت نامرتب در یک مخزن ذخیره سازی با هم ذخیره میشوند.
- در طول توالی یابی، بسیاری از نسخههای اشتباه این مولکولها بازیابی میشوند - بیشتر آنها حاوی خطا هستند، در حالی که برخی به طور کامل ناپدید میشوند.
DNAformer: بازیابی دادهها با هوش مصنوعی
تحقیقات فعلی یک راه حل محاسباتی جامع برای بازیابی و اصلاح خطاها در سیستمهای پیچیده ذخیره سازی مبتنی بر DNA ارائه میدهد. محققان با استفاده از الگوریتمهای پیشرفته و تکنیکهای رمزگذاری، نشان دادهاند که راه حل آنها زمان بازیابی و خواندن دادهها را از چند روز به تنها 10 دقیقه کاهش میدهد.
روش توسعه یافته توسط Technion، به نام DNAformer، مبتنی بر یک مدل ترانسفورماتور است که بر روی دادههای شبیه سازی شده (تولید شده با استفاده از یک شبیه ساز، که آن هم در Technion توسعه یافته است) آموزش داده شده است تا توالیهای دقیق DNA را از نسخههای اشتباه بازسازی کند. این روش همچنین شامل یک کد تصحیح خطای سفارشی است که برای DNA طراحی شده است و از یکپارچگی قوی دادهها اطمینان میدهد.
علاوه بر این، یک مکانیسم حاشیه ایمنی اضافی، توالیهای DNA به خصوص پر سر و صدا (سیگنالهای ناخواسته یا خطاهایی که در طول فرآیند توالی یابی رخ میدهند و میتوانند در تفسیر دقیق دادهها اختلال ایجاد کنند) را شناسایی میکند و ابزارهای الگوریتمی قدرتمندی را برای مدیریت کارآمد آنها اعمال میکند. در پایان فرآیند، دادهها دوباره به اطلاعات دیجیتال تبدیل میشوند.
این روش جدید امکان خواندن 100 مگابایت داده را با سرعتی 3200 برابر سریعتر از دقیقترین روش موجود فراهم میکند - بدون هیچ گونه افت دقت. در مقایسه با روشهای سریع شناخته شده قبلی، DNAformer همچنین دقت را تا 40٪ بهبود میبخشد و در عین حال زمان پردازش را به طور قابل توجهی کاهش میدهد. این امر بر روی یک مجموعه داده 3.1 مگابایتی نشان داده شد که شامل:
- یک تصویر ثابت رنگی
- یک کلیپ صوتی 24 ثانیهای از سخنان نیل آرمسترانگ فضانورد در ماه
- یک متن نوشته شده که در مورد مزایای DNA به عنوان یک روش ذخیره سازی داده امیدوارکننده بحث میکند
- دادههای تصادفی برای نشان دادن کاربرد برای دادههای رمزگذاری شده یا فشرده شده
محققان قصد دارند نسخههای سفارشی شده DNAformer را متناسب با نیازهای مختلف توسعه دهند. آنها تاکید میکنند که فناوری آنها مقیاس پذیر و قابل انطباق است، به این معنی که میتوان آن را برای برنامههای ذخیره سازی داده در مقیاس بزرگ بهینه کرد، نیازهای بازار و پیشرفتهای آینده سنتز و توالی یابی DNA را برآورده کرد.
اطلاعات بیشتر: Daniella Bar-Lev et al, Scalable and robust DNA-based storage via coding theory and deep learning, Nature Machine Intelligence (2025). DOI: 10.1038/s42256-025-01003-z
اطلاعات مجله: Nature Machine Intelligence
ارائه شده توسط Technion - Israel Institute of Technology
Citation: DNA data storage: AI method speeds up data retrieval by 3,200 times (2025, March 21) retrieved 21 March 2025 from https://techxplore.com/news/2025-03-dna-storage-ai-method.html