Midjourney، با درخواست THE DECODER
Midjourney، با درخواست THE DECODER

چارچوب جدید S* به مدل‌های هوش مصنوعی کمک می‌کند کد بهتر و مطمئن‌تری بنویسند

چارچوب جدید S* مدل‌های زبانی هوش مصنوعی را قادر می‌سازد تا کد قدرتمندتر و مطمئن‌تری تولید کنند.

محققان دانشگاه کالیفرنیا، برکلی، چارچوبی به نام S* ایجاد کرده‌اند که نحوه تولید کد توسط مدل‌های زبانی هوش مصنوعی را بهبود می‌بخشد. این سیستم دو رویکرد مختلف - مقیاس‌بندی موازی و متوالی - را با روشی جدید برای انتخاب بهترین نتایج ترکیب می‌کند.

در حالی که تولید همزمان چندین قطعه کد و انتخاب بهترین آن‌ها (مقیاس‌بندی موازی) چیز جدیدی نیست، تیم برکلی چیز اضافه‌تری به آن اضافه کرده است. آن‌ها آن را با مقیاس‌بندی متوالی ترکیب کردند، جایی که سیستم به طور مداوم از طریق اشکال‌زدایی سیستماتیک، راه‌حل‌های خود را بهبود می‌بخشد.

این چارچوب یک تغییر در محاسبه زمان آزمایش را به عنوان یکی از بلوک‌های سازنده خود معرفی می‌کند. برخلاف مدل‌های استدلال فعلی مانند OpenAI o1، S* بازخورد خارجی را به جای تکیه صرف بر زنجیره‌های استدلال داخلی، در خود جای می‌دهد. این طراحی آن را با هر دو مدل زبانی بزرگ سنتی (LLM) و مدل‌های استدلال جدیدتر (LRM) سازگار می‌کند.

استفاده از هوش مصنوعی برای ارزیابی راه حل‌های کد

دومین نوآوری کلیدی چیزی است که تیم آن را "سنتز ورودی تطبیقی" می‌نامد. در آزمایش، آن‌ها از GPT-4o mini برای تولید ورودی‌های آزمایشی برای راه‌حل‌های بالقوه مختلف استفاده کردند. با اجرای این ورودی‌ها و تجزیه و تحلیل نتایج واقعی، هوش مصنوعی می‌تواند به طور قابل اعتمادی بهترین راه حل را شناسایی کند.

این سیستم از مدل هوش مصنوعی می‌خواهد تا ورودی‌های آزمایشی را به طور خاص برای شناسایی تفاوت بین دو برنامه طراحی کند. از درخواست‌های با دقت طراحی شده‌ای استفاده می‌کند که به مدل می‌گوید موارد حاشیه‌ای (مانند ورودی‌های خالی یا مقادیر شدید) را در نظر بگیرد، موارد آزمایشی پیچیده اما قابل مدیریت ایجاد کند و ورودی‌هایی ایجاد کند که بتوانند خطاهای احتمالی را آشکار کنند.

سپس سیستم هر دو برنامه را با استفاده از این ورودی‌های آزمایشی اجرا می‌کند و نتایج را به مدل هوش مصنوعی نشان می‌دهد، که بر اساس نتایج آزمون واقعی تصمیم می‌گیرد کدام راه حل بهتر کار می‌کند.

چارچوب S* به طور قابل توجهی عملکرد مدل‌های کوچک را بهبود می‌بخشد

این تیم S* را با 12 مدل زبانی مختلف با اندازه‌ها و انواع مختلف آزمایش کرد و بهبودهای ثابتی را در همه زمینه‌ها یافت: Qwen2.5-7B-Coder-Instruct با S* حدود 10٪ بهتر از Qwen2.5-32B-Coder-Instruct بدون آن عمل کرد و در برخی موارد، مدل‌های کوچکتر با استفاده از S* از مدل‌های استدلال بزرگتر - GPT-4o mini با S* بهتر از o1-Preview عمل کردند. حتی مدل‌های استدلال قدرتمند نیز هنگام استفاده از این چارچوب پیشرفت نشان دادند.

این چارچوب محدودیت‌های واضحی دارد. در حال حاضر فقط برای وظایف مسابقات برنامه‌نویسی بهینه شده است و روی چالش‌های مهندسی نرم‌افزار پیچیده‌تر آزمایش نشده است. این تیم همچنین منحصراً بر بهبود دقت تمرکز کرد و سؤالات مربوط به بهره‌وری منابع را کنار گذاشت.

رویکرد ترکیب بهبودهای تکراری با قابلیت‌های جستجو احتمالاً به موفقیت OpenAI در بنچمارک ARC کمک کرده است، جایی که آن‌ها چندین پرسش موازی را به مدل استدلال o3 خود ارسال کردند و بهترین پاسخ‌ها را انتخاب کردند - اگرچه روش دقیق ناشناخته باقی مانده است. S* از فلسفه مشابهی پیروی می‌کند و می‌تواند منجر به قابلیت‌های تولید کد بهتری در آینده شود.

خلاصه

  • محققان دانشگاه کالیفرنیا، برکلی، چارچوب S* را توسعه داده‌اند که عملکرد مدل‌های زبانی هوش مصنوعی را در تولید کد با ترکیب رویکردهای مقیاس‌بندی موازی و متوالی و معرفی یک مکانیسم انتخاب جدید بهبود می‌بخشد.
  • S* از یک مدل زبانی برای تولید ورودی‌های آزمایشی به طور خاص استفاده می‌کند که به ویژه برای تشخیص تفاوت بین راه‌حل‌های مختلف برنامه مناسب هستند. نتایج واقعی این آزمایش‌ها سپس برای انتخاب بهترین راه حل استفاده می‌شود.
  • در ارزیابی بر روی 12 مدل زبانی مختلف، S* بهبودهای عملکرد ثابتی را نشان داد. مدل‌های کوچک با S* حتی توانستند از مدل‌های استدلال بزرگ بدون S* بهتر عمل کنند. با این حال، این چارچوب تاکنون فقط برای وظایف مسابقات برنامه‌نویسی بهینه شده است و برای وظایف مهندسی نرم‌افزار پیچیده‌تر آزمایش نشده است.