فشردهسازی سنگ بنای هوش محاسباتی است که عمیقاً در نظریه پیچیدگی کولموگوروف ریشه دارد. این نظریه حداقل برنامهی مورد نیاز برای بازتولید یک توالی معین را تعریف میکند. برخلاف روشهای فشردهسازی سنتی که به دنبال تکرار و افزونگی هستند، چارچوب کولموگوروف فشردهسازی را به عنوان مسئلهای برای کشف الگوهای ساختاریافته از طریق نمایش برنامهنویسیشده تفسیر میکند. در حالی که این نظریه نوید فشردهسازی بهینه را میدهد، محاسبهناپذیری آن مانع بزرگی محسوب میشود. با این وجود، ظهور مدلهای زبانی بزرگ قادر به تولید کد، فرصتی جذاب برای آزمایش این موضوع فراهم میکند که سیستمهای مدرن تا چه حد میتوانند به این ایدهآل نظری، از طریق استدلال با کد به جای تطبیق الگو، نزدیک شوند.
یک مسئله اصلی از محدودیتهای ابزارهای فعلی در فشردهسازی توالیهای داده با استفاده از کد مختصر و قابل اجرا ناشی میشود. مدلها اغلب به جای تولید برنامههایی که ورودیها را بازتولید کنند، آنها را کپی میکنند که نشاندهنده شکافی در درک واقعی الگو است. این امر به ویژه هنگام کار با توالیهای صوتی، متنی یا DNA دنیای واقعی آشکار میشود، جایی که برای دستیابی به فشردهسازی کارآمد باید ساختارهای منطقی پیچیده کشف شوند. چالش اصلی این است که اطمینان حاصل شود مدل نه تنها توالی را تکرار میکند، بلکه از مجموعهای حداقلی و منطقی از دستورالعملها استفاده میکند. علاوه بر این، اگرچه دادههای آموزشی مصنوعی برای ارزیابی کنترلشده مفید هستند، اما اغلب از تعمیم قوی به دادههای طبیعی که برای کاربردهای عملی ضروری است، پشتیبانی نمیکنند.
ابزارهای فشردهسازی متعددی وجود دارند، از الگوریتمهای سنتی مانند GZIP گرفته تا سیستمهای فشردهسازی عصبی جدیدتر. GZIP همچنان یک معیار پایه قوی است، به ویژه برای توالیهای طولانی یا تکراری، به دلیل رمزگذاری مؤثر نظمهای آماری. اخیراً، رویکردهای مدلسازی زبان با کدگذاری حسابی ادغام شدهاند و از احتمالات پیشبینی برای فشردهسازی دادههای ورودی استفاده میکنند. با این حال، این روشها معمولاً در زمان رمزگشایی به وزنهای کامل مدل نیاز دارند که کارایی و کاربرد آنها را محدود میکند. مدلهای تولیدکننده کد مبتنی بر پرامپت مانند GPT-4 و LLaMA نیز در تنظیمات یادگیری صفر-شات (zero-shot) برای تولید برنامههای پایتون که توالیهای ورودی را بازتولید میکنند، ارزیابی شدهاند. با این حال، آنها اغلب کدهای طولانی و غیردقیق با موفقیت محدود تولید میکنند، به ویژه هنگامی که با توالیهای دیدهنشده یا پیچیده مواجه میشوند.
پژوهشگران متا ایآی (Meta AI) و دانشگاه تل آویو آزمون کولموگوروف (KT) را معرفی کردند، معیاری برای ارزیابی توانایی استدلال مدلهای زبانی تولیدکننده کد. این آزمون توانایی یک مدل را در تولید کوتاهترین برنامهای که یک توالی ورودی معین را خروجی میدهد، ارزیابی میکند. برخلاف معیارهای معمول، KT بر ترکیب منطقی و تولید برنامه به جای مدلسازی متن پیشبینیکننده تأکید دارد. توالیها شامل دادههای طبیعی از صدا (LibriSpeech)، متن (ویکیپدیا enwik9) و DNA (GRCh38) و همچنین توالیهای مصنوعی تولید شده از طریق یک زبان خاص دامنه (DSL) طراحی شده سفارشی هستند. این DSL از ساخت توالیهای ساختاریافته با ترکیب عملیاتی مانند ایجاد محدوده، اصلاح توالی، ادغام و فیلتر کردن پشتیبانی میکند.
پژوهشگران یک چارچوب خودکار برای تولید میلیونها جفت برنامه-توالی مصنوعی با استفاده از این DSL توسعه دادند. این برنامهها سپس برای آموزش و ارزیابی مدلها، از جمله مدلهای بزرگ از پیش آموزشدیده و مدلهای آموزشدیده ویژه مانند SEQCODER استفاده میشوند. برای اندازهگیری عملکرد، تیم از معیارهایی مانند دقت (accuracy) - اینکه آیا برنامه تولید شده توالی را بازتولید میکند - و صحت/فشردگی (precision) - میزان مختصر بودن برنامه صحیح در مقایسه با فشردهسازی GZIP - استفاده کرد. این آزمون شامل فشردهسازی توالیهایی با طولهای مختلف بود، که توالیهای مصنوعی به طور متوسط 76 بایت و توالیهای واقعی حداکثر 128 بایت بودند.
نتایج نشان داد که حتی قدرتمندترین مدلها نیز با چالش مواجه بودند. GPT-4 به دقت 69.5٪ در صدای با کیفیت بالا دست یافت، اما این میزان برای صدای 8 بیتی به 36.4٪ و برای دادههای DNA به 50.3٪ کاهش یافت. LLaMA-3.1-405B عملکرد بدتری داشت، با دقتهایی به پایینی 3.9٪ برای صدا و تنها 24.8٪ برای DNA. در دادههای مصنوعی، SEQCODER-8B به دقت 92.5٪ با نمره صحت/فشردگی 0.56 رسید و از ابزارهای سنتی مانند GZIP بهتر عمل کرد. با این حال، دقت آن بر روی دادههای دنیای واقعی نزدیک به صفر باقی ماند. این تفاوت نشاندهنده دشواری انتقال موفقیت از معیارهای مصنوعی به توالیهای متنوعتر و پرنویزتر دنیای واقعی است و محدودیتهای رژیمهای آموزشی فعلی را برجسته میکند و نیاز به استراتژیهای جدید را مطرح میسازد.
به طور کلی، این پژوهش به وضوح پیچیدگی فشردهسازی از طریق تولید کد را مشخص میکند. معیار KT آزمونی دقیق و متنوع برای استدلال و تشخیص ساختار مدل ارائه میدهد و شکاف آشکار بین محیطهای یادگیری مصنوعی و کاربردهای دنیای واقعی را آشکار میسازد. روششناسی و آزمون معرفیشده، سطح بالایی را برای مدلهای آینده که هدفشان یکپارچهسازی استدلال با فشردهسازی است، تعیین میکنند، اما هنوز نوآوری قابل توجهی برای رویارویی با این چالش مورد نیاز است.