چارچوب جدید S* مدلهای زبانی هوش مصنوعی را قادر میسازد تا کد قدرتمندتر و مطمئنتری تولید کنند.
محققان دانشگاه کالیفرنیا، برکلی، چارچوبی به نام S* ایجاد کردهاند که نحوه تولید کد توسط مدلهای زبانی هوش مصنوعی را بهبود میبخشد. این سیستم دو رویکرد مختلف - مقیاسبندی موازی و متوالی - را با روشی جدید برای انتخاب بهترین نتایج ترکیب میکند.
در حالی که تولید همزمان چندین قطعه کد و انتخاب بهترین آنها (مقیاسبندی موازی) چیز جدیدی نیست، تیم برکلی چیز اضافهتری به آن اضافه کرده است. آنها آن را با مقیاسبندی متوالی ترکیب کردند، جایی که سیستم به طور مداوم از طریق اشکالزدایی سیستماتیک، راهحلهای خود را بهبود میبخشد.
این چارچوب یک تغییر در محاسبه زمان آزمایش را به عنوان یکی از بلوکهای سازنده خود معرفی میکند. برخلاف مدلهای استدلال فعلی مانند OpenAI o1، S* بازخورد خارجی را به جای تکیه صرف بر زنجیرههای استدلال داخلی، در خود جای میدهد. این طراحی آن را با هر دو مدل زبانی بزرگ سنتی (LLM) و مدلهای استدلال جدیدتر (LRM) سازگار میکند.
استفاده از هوش مصنوعی برای ارزیابی راه حلهای کد
دومین نوآوری کلیدی چیزی است که تیم آن را "سنتز ورودی تطبیقی" مینامد. در آزمایش، آنها از GPT-4o mini برای تولید ورودیهای آزمایشی برای راهحلهای بالقوه مختلف استفاده کردند. با اجرای این ورودیها و تجزیه و تحلیل نتایج واقعی، هوش مصنوعی میتواند به طور قابل اعتمادی بهترین راه حل را شناسایی کند.
این سیستم از مدل هوش مصنوعی میخواهد تا ورودیهای آزمایشی را به طور خاص برای شناسایی تفاوت بین دو برنامه طراحی کند. از درخواستهای با دقت طراحی شدهای استفاده میکند که به مدل میگوید موارد حاشیهای (مانند ورودیهای خالی یا مقادیر شدید) را در نظر بگیرد، موارد آزمایشی پیچیده اما قابل مدیریت ایجاد کند و ورودیهایی ایجاد کند که بتوانند خطاهای احتمالی را آشکار کنند.
سپس سیستم هر دو برنامه را با استفاده از این ورودیهای آزمایشی اجرا میکند و نتایج را به مدل هوش مصنوعی نشان میدهد، که بر اساس نتایج آزمون واقعی تصمیم میگیرد کدام راه حل بهتر کار میکند.
چارچوب S* به طور قابل توجهی عملکرد مدلهای کوچک را بهبود میبخشد
این تیم S* را با 12 مدل زبانی مختلف با اندازهها و انواع مختلف آزمایش کرد و بهبودهای ثابتی را در همه زمینهها یافت: Qwen2.5-7B-Coder-Instruct با S* حدود 10٪ بهتر از Qwen2.5-32B-Coder-Instruct بدون آن عمل کرد و در برخی موارد، مدلهای کوچکتر با استفاده از S* از مدلهای استدلال بزرگتر - GPT-4o mini با S* بهتر از o1-Preview عمل کردند. حتی مدلهای استدلال قدرتمند نیز هنگام استفاده از این چارچوب پیشرفت نشان دادند.
این چارچوب محدودیتهای واضحی دارد. در حال حاضر فقط برای وظایف مسابقات برنامهنویسی بهینه شده است و روی چالشهای مهندسی نرمافزار پیچیدهتر آزمایش نشده است. این تیم همچنین منحصراً بر بهبود دقت تمرکز کرد و سؤالات مربوط به بهرهوری منابع را کنار گذاشت.
رویکرد ترکیب بهبودهای تکراری با قابلیتهای جستجو احتمالاً به موفقیت OpenAI در بنچمارک ARC کمک کرده است، جایی که آنها چندین پرسش موازی را به مدل استدلال o3 خود ارسال کردند و بهترین پاسخها را انتخاب کردند - اگرچه روش دقیق ناشناخته باقی مانده است. S* از فلسفه مشابهی پیروی میکند و میتواند منجر به قابلیتهای تولید کد بهتری در آینده شود.
خلاصه
- محققان دانشگاه کالیفرنیا، برکلی، چارچوب S* را توسعه دادهاند که عملکرد مدلهای زبانی هوش مصنوعی را در تولید کد با ترکیب رویکردهای مقیاسبندی موازی و متوالی و معرفی یک مکانیسم انتخاب جدید بهبود میبخشد.
- S* از یک مدل زبانی برای تولید ورودیهای آزمایشی به طور خاص استفاده میکند که به ویژه برای تشخیص تفاوت بین راهحلهای مختلف برنامه مناسب هستند. نتایج واقعی این آزمایشها سپس برای انتخاب بهترین راه حل استفاده میشود.
- در ارزیابی بر روی 12 مدل زبانی مختلف، S* بهبودهای عملکرد ثابتی را نشان داد. مدلهای کوچک با S* حتی توانستند از مدلهای استدلال بزرگ بدون S* بهتر عمل کنند. با این حال، این چارچوب تاکنون فقط برای وظایف مسابقات برنامهنویسی بهینه شده است و برای وظایف مهندسی نرمافزار پیچیدهتر آزمایش نشده است.