این مقاله هوش مصنوعی آزمون کولموگوروف را معرفی می‌کند: معیاری مبتنی بر فشرده‌سازی به عنوان هوش برای ارزیابی مدل‌های زبانی تولیدکننده کد

فشرده‌سازی سنگ بنای هوش محاسباتی است که عمیقاً در نظریه پیچیدگی کولموگوروف ریشه دارد. این نظریه حداقل برنامه‌ی مورد نیاز برای بازتولید یک توالی معین را تعریف می‌کند. برخلاف روش‌های فشرده‌سازی سنتی که به دنبال تکرار و افزونگی هستند، چارچوب کولموگوروف فشرده‌سازی را به عنوان مسئله‌ای برای کشف الگوهای ساختاریافته از طریق نمایش برنامه‌نویسی‌شده تفسیر می‌کند. در حالی که این نظریه نوید فشرده‌سازی بهینه را می‌دهد، محاسبه‌ناپذیری آن مانع بزرگی محسوب می‌شود. با این وجود، ظهور مدل‌های زبانی بزرگ قادر به تولید کد، فرصتی جذاب برای آزمایش این موضوع فراهم می‌کند که سیستم‌های مدرن تا چه حد می‌توانند به این ایده‌آل نظری، از طریق استدلال با کد به جای تطبیق الگو، نزدیک شوند.

یک مسئله اصلی از محدودیت‌های ابزارهای فعلی در فشرده‌سازی توالی‌های داده با استفاده از کد مختصر و قابل اجرا ناشی می‌شود. مدل‌ها اغلب به جای تولید برنامه‌هایی که ورودی‌ها را بازتولید کنند، آن‌ها را کپی می‌کنند که نشان‌دهنده شکافی در درک واقعی الگو است. این امر به ویژه هنگام کار با توالی‌های صوتی، متنی یا DNA دنیای واقعی آشکار می‌شود، جایی که برای دستیابی به فشرده‌سازی کارآمد باید ساختارهای منطقی پیچیده کشف شوند. چالش اصلی این است که اطمینان حاصل شود مدل نه تنها توالی را تکرار می‌کند، بلکه از مجموعه‌ای حداقلی و منطقی از دستورالعمل‌ها استفاده می‌کند. علاوه بر این، اگرچه داده‌های آموزشی مصنوعی برای ارزیابی کنترل‌شده مفید هستند، اما اغلب از تعمیم قوی به داده‌های طبیعی که برای کاربردهای عملی ضروری است، پشتیبانی نمی‌کنند.

ابزارهای فشرده‌سازی متعددی وجود دارند، از الگوریتم‌های سنتی مانند GZIP گرفته تا سیستم‌های فشرده‌سازی عصبی جدیدتر. GZIP همچنان یک معیار پایه قوی است، به ویژه برای توالی‌های طولانی یا تکراری، به دلیل رمزگذاری مؤثر نظم‌های آماری. اخیراً، رویکردهای مدل‌سازی زبان با کدگذاری حسابی ادغام شده‌اند و از احتمالات پیش‌بینی برای فشرده‌سازی داده‌های ورودی استفاده می‌کنند. با این حال، این روش‌ها معمولاً در زمان رمزگشایی به وزن‌های کامل مدل نیاز دارند که کارایی و کاربرد آن‌ها را محدود می‌کند. مدل‌های تولیدکننده کد مبتنی بر پرامپت مانند GPT-4 و LLaMA نیز در تنظیمات یادگیری صفر-شات (zero-shot) برای تولید برنامه‌های پایتون که توالی‌های ورودی را بازتولید می‌کنند، ارزیابی شده‌اند. با این حال، آن‌ها اغلب کدهای طولانی و غیردقیق با موفقیت محدود تولید می‌کنند، به ویژه هنگامی که با توالی‌های دیده‌نشده یا پیچیده مواجه می‌شوند.

پژوهشگران متا ای‌آی (Meta AI) و دانشگاه تل آویو آزمون کولموگوروف (KT) را معرفی کردند، معیاری برای ارزیابی توانایی استدلال مدل‌های زبانی تولیدکننده کد. این آزمون توانایی یک مدل را در تولید کوتاه‌ترین برنامه‌ای که یک توالی ورودی معین را خروجی می‌دهد، ارزیابی می‌کند. برخلاف معیارهای معمول، KT بر ترکیب منطقی و تولید برنامه به جای مدل‌سازی متن پیش‌بینی‌کننده تأکید دارد. توالی‌ها شامل داده‌های طبیعی از صدا (LibriSpeech)، متن (ویکی‌پدیا enwik9) و DNA (GRCh38) و همچنین توالی‌های مصنوعی تولید شده از طریق یک زبان خاص دامنه (DSL) طراحی شده سفارشی هستند. این DSL از ساخت توالی‌های ساختاریافته با ترکیب عملیاتی مانند ایجاد محدوده، اصلاح توالی، ادغام و فیلتر کردن پشتیبانی می‌کند.

پژوهشگران یک چارچوب خودکار برای تولید میلیون‌ها جفت برنامه-توالی مصنوعی با استفاده از این DSL توسعه دادند. این برنامه‌ها سپس برای آموزش و ارزیابی مدل‌ها، از جمله مدل‌های بزرگ از پیش آموزش‌دیده و مدل‌های آموزش‌دیده ویژه مانند SEQCODER استفاده می‌شوند. برای اندازه‌گیری عملکرد، تیم از معیارهایی مانند دقت (accuracy) - اینکه آیا برنامه تولید شده توالی را بازتولید می‌کند - و صحت/فشردگی (precision) - میزان مختصر بودن برنامه صحیح در مقایسه با فشرده‌سازی GZIP - استفاده کرد. این آزمون شامل فشرده‌سازی توالی‌هایی با طول‌های مختلف بود، که توالی‌های مصنوعی به طور متوسط 76 بایت و توالی‌های واقعی حداکثر 128 بایت بودند.

نمودار مقایسه عملکرد مدل‌های مختلف هوش مصنوعی (GPT-4، LLaMA، SEQCODER) در آزمون کولموگوروف بر روی انواع داده‌های صوتی، DNA و مصنوعی.
عملکرد مدل‌ها بر روی انواع داده‌های مختلف در آزمون کولموگوروف.

نتایج نشان داد که حتی قدرتمندترین مدل‌ها نیز با چالش مواجه بودند. GPT-4 به دقت 69.5٪ در صدای با کیفیت بالا دست یافت، اما این میزان برای صدای 8 بیتی به 36.4٪ و برای داده‌های DNA به 50.3٪ کاهش یافت. LLaMA-3.1-405B عملکرد بدتری داشت، با دقت‌هایی به پایینی 3.9٪ برای صدا و تنها 24.8٪ برای DNA. در داده‌های مصنوعی، SEQCODER-8B به دقت 92.5٪ با نمره صحت/فشردگی 0.56 رسید و از ابزارهای سنتی مانند GZIP بهتر عمل کرد. با این حال، دقت آن بر روی داده‌های دنیای واقعی نزدیک به صفر باقی ماند. این تفاوت نشان‌دهنده دشواری انتقال موفقیت از معیارهای مصنوعی به توالی‌های متنوع‌تر و پرنویزتر دنیای واقعی است و محدودیت‌های رژیم‌های آموزشی فعلی را برجسته می‌کند و نیاز به استراتژی‌های جدید را مطرح می‌سازد.

نمودار مقایسه‌ای بین عملکرد فشرده‌سازی مدل SEQCODER و الگوریتم GZIP بر روی داده‌های آزمون مصنوعی.
مقایسه عملکرد مدل SEQCODER و ابزار فشرده‌سازی GZIP.

به طور کلی، این پژوهش به وضوح پیچیدگی فشرده‌سازی از طریق تولید کد را مشخص می‌کند. معیار KT آزمونی دقیق و متنوع برای استدلال و تشخیص ساختار مدل ارائه می‌دهد و شکاف آشکار بین محیط‌های یادگیری مصنوعی و کاربردهای دنیای واقعی را آشکار می‌سازد. روش‌شناسی و آزمون معرفی‌شده، سطح بالایی را برای مدل‌های آینده که هدفشان یکپارچه‌سازی استدلال با فشرده‌سازی است، تعیین می‌کنند، اما هنوز نوآوری قابل توجهی برای رویارویی با این چالش مورد نیاز است.