آیا مدل‌های زبانی بزرگ می‌توانند مانند انسان‌ها اشکال‌زدایی کنند؟ مایکروسافت Debug-Gym را برای عوامل کدنویسی هوش مصنوعی معرفی می‌کند

مسئله اشکال‌زدایی در ابزارهای کدنویسی هوش مصنوعی

علی‌رغم پیشرفت‌های چشمگیر در تولید و تکمیل کد، ابزارهای کدنویسی هوش مصنوعی همچنان با چالش‌هایی در اشکال‌زدایی مواجه هستند - بخشی جدایی‌ناپذیر از توسعه نرم‌افزار. در حالی که مدل‌های زبانی بزرگ (LLM) می‌توانند قطعه‌های کد تولید کنند و گهگاه اصلاحاتی را ارائه دهند، اما اغلب هنگام رسیدگی به خطاهای زمان اجرا یا پیمایش از طریق خطاهای منطقی با استفاده از ابزارهای اشکال‌زدایی سنتی، دچار لغزش می‌شوند. توسعه‌دهندگان انسانی به‌طور معمول به اشکال‌زداهای تعاملی مانند pdb پایتون برای بررسی متغیرها، ردیابی اجرا و درک جریان برنامه متکی هستند. این ابزارها استدلال اکتشافی را تسهیل می‌کنند - بعدی که تا حد زیادی در قابلیت‌های LLMهای فعلی وجود ندارد. این شکاف یک محدودیت اساسی را برجسته می‌کند: اکثر LLMها در محیط‌های استاتیک با پشتیبانی محدود برای بازخورد پویا عمل می‌کنند و درگیر شدن در استدلال تکراری مورد نیاز برای اشکال‌زدایی مؤثر را دشوار می‌کند.

Debug-Gym - چارچوبی برای عوامل استفاده‌کننده از ابزار

برای بررسی میزان استفاده LLMها از ابزارهای اشکال‌زدایی تعاملی مانند pdb، مایکروسافت Debug-Gym را معرفی کرده است - محیطی مبتنی بر پایتون که برای ارزیابی عملکرد عوامل هوش مصنوعی در وظایف واقعی تعمیر کد طراحی شده است. Debug-Gym یک محیط ساختاریافته فراهم می‌کند که در آن عوامل مبتنی بر LLM می‌توانند از دستورات اشکال‌زدایی استفاده کنند، رفتار زمان اجرا را بررسی کنند و رویکرد خود را از طریق کاوش فعال اصلاح کنند. به جای اینکه صرفاً اصلاحات را پیش‌بینی کنند، عوامل در Debug-Gym می‌توانند با محیط خود تعامل داشته باشند تا قبل از پیشنهاد راه‌حل‌ها، شواهدی جمع‌آوری کنند. این مدل از اشکال‌زدایی فعال و با کمک ابزار، رویکرد انسانی به تعمیر نرم‌افزار را بیشتر منعکس می‌کند و امکان ارزیابی استراتژی‌های استدلال در سناریوهای پیچیده را فراهم می‌کند.

نمونه‌ای از عملکرد Debug-Gym با یک برنامه آزمایشی — نمونه‌ای از عملکرد Debug-Gym

معماری فنی و ویژگی‌ها

Debug-Gym برای پشتیبانی از آزمایش با عوامل کدنویسی تعاملی و آگاه از ابزار ساخته شده است. این سیستم برنامه‌های پایتون مستعد خطا را به عوامل ارائه می‌دهد و از طریق یک رابط کنترل‌شده به ابزارهای اشکال‌زدایی دسترسی می‌دهد. اجزای اصلی سیستم عبارتند از:

سناریوهای برنامه دارای باگ: مجموعه‌ای انتخاب‌شده از اسکریپت‌های پایتون با خطاهای شناخته‌شده که نحو، زمان اجرا و خطاهای منطقی را در بر می‌گیرد.
دسترسی به اشکال‌زدا: یک رابط ابزار که دستوراتی شبیه به دستورات استفاده‌شده در pdb پایتون، از جمله بررسی پشته، اجرای گام به گام و ارزیابی متغیر را ارائه می‌دهد.
فضاهای مشاهده و عمل: ورودی‌های ساختاریافته مانند داده‌های ردیابی پشته و مقادیر متغیر به عامل ارائه می‌شود، که سپس می‌تواند با دستورات یا ویرایش‌های کد پاسخ دهد.

این معماری از اجرای قطعی پشتیبانی می‌کند و مدولار است و امکان جایگزینی یا افزایش آسان عوامل و ابزارهای اشکال‌زدایی را فراهم می‌کند. این محیط تحت یک مجوز متن‌باز به‌طور عمومی در دسترس است و همکاری و ارزیابی تطبیقی را تشویق می‌کند.

ارزیابی و مشاهدات

آزمایش‌های اولیه با استفاده از Debug-Gym نشان می‌دهد که عواملی که قادر به استفاده از ابزارهای تعاملی هستند، برای حل اشکالات پیچیده مجهزتر هستند. بر اساس ارزیابی مایکروسافت، LLMهایی که دستورات اشکال‌زدایی صادر و تفسیر می‌کردند - مانند چاپ متغیرها یا پیمایش از طریق فریم‌های پشته - تعمیرات کد دقیق‌تر و کارآمدتری را در مقایسه با همتایان استاتیک نشان دادند. در یک معیار متشکل از ۱۵۰ مورد اشکال متنوع، عوامل تعاملی به نرخ موفقیت قابل توجهی بالاتری دست یافتند و بیش از نیمی از مشکلات را با تکرارهای کمتر حل کردند.

این چارچوب همچنین دیدی نسبت به رفتار عامل ارائه می‌دهد. محققان می‌توانند الگوهای استفاده از ابزار را تجزیه و تحلیل کنند، بررسی کنند که عوامل از کجا از استراتژی‌های اشکال‌زدایی مولد منحرف می‌شوند و نقاط شکست مشترک را شناسایی کنند. این سطح از درون‌نگری از توسعه تکراری سیاست‌های عامل پشتیبانی می‌کند و مسیرهایی را برای تنظیم دقیق مدل‌ها با استفاده از بازخورد غنی‌تر از متن به تنهایی باز می‌کند.

علاوه بر این، Debug-Gym از پارادایم‌های آموزشی مانند یادگیری تقویتی از تاریخچه‌های تعامل پشتیبانی می‌کند و به مدل‌های آینده اجازه می‌دهد تا نه تنها از نمایش‌های انسانی، بلکه از توالی‌های ساختاریافته اقدامات اشکال‌زدایی نیز یاد بگیرند.

نتیجه‌گیری

Debug-Gym رویکردی عملی و آینده‌نگر برای پیشبرد ابزارهای کدنویسی مبتنی بر LLM ارائه می‌دهد. با گنجاندن پشتیبانی از اشکال‌زدایی تعاملی، بیشتر با گردش کار توسعه‌دهنده در دنیای واقعی هماهنگ می‌شود. این محیط اندازه‌گیری دقیق قابلیت‌های عامل را در تعمیر کد پویا امکان‌پذیر می‌کند و داربست مورد نیاز برای آموزش و ارزیابی عواملی را فراهم می‌کند که از طریق کاوش یاد می‌گیرند.

در حالی که سیستم‌های فعلی هنوز با محدودیت‌هایی در درک زمینه‌های زمان اجرای ظریف مواجه هستند، Debug-Gym پایه‌ای را برای توسعه عواملی ایجاد می‌کند که می‌توانند به‌طور سیستماتیک از طریق اشکالات با استفاده از ابزارهای خارجی استدلال کنند. این تغییر از پیشنهاد کد غیرفعال به حل مسئله فعال، گامی معنادار به سوی ادغام LLMها در محیط‌های توسعه نرم‌افزار حرفه‌ای است.

مقاله و پروژه را بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه می‌رسد. همچنین، در توییتر ما را دنبال کنید و فراموش نکنید که به SubReddit ۸۵k+ ML ما بپیوندید.

این گزارش ترجمه و بازنویسی خبری با موتور هوش مصنوعی افق آبی است و برای خوانندهٔ فارسی‌زبان بازتنظیم شده. منبع اصلی: marktechpost