آگمنت کد عامل تایید شده SWE-bench خود را منتشر کرد: یک عامل متن‌باز ترکیبی از Claude Sonnet 3.7 و OpenAI O1 برای برتری در وظایف پیچیده مهندسی نرم‌افزار

عامل‌های هوش مصنوعی (AI agents) به طور فزاینده‌ای در کمک به مهندسان برای مدیریت کارآمد وظایف پیچیده کدنویسی حیاتی می‌شوند. با این حال، یک چالش مهم، ارزیابی دقیق و اطمینان از توانایی این عامل‌ها در مدیریت سناریوهای کدنویسی دنیای واقعی فراتر از آزمون‌های معیار ساده‌شده بوده است.

شرکت Augment Code از راه‌اندازی عامل تأیید شده Augment SWE-bench خود خبر داده است؛ این عامل، پیشرفتی در هوش مصنوعی عاملی (agentic AI) است که به طور خاص برای مهندسی نرم‌افزار طراحی شده است. این انتشار، آن‌ها را در صدر عملکرد عامل‌های متن‌باز در جدول امتیازات SWE-bench قرار می‌دهد. رویکرد Augment Code با ترکیب نقاط قوت مدل Claude Sonnet 3.7 از شرکت Anthropic و مدل O1 از OpenAI، نتایج چشمگیری را به همراه داشته و ترکیبی قانع‌کننده از نوآوری و معماری سیستم عمل‌گرایانه را به نمایش گذاشته است.

معیار ارزیابی SWE-bench یک آزمون دقیق است که کارایی یک عامل هوش مصنوعی را در مدیریت وظایف عملی مهندسی نرم‌افزار که مستقیماً از مسائل گیت‌هاب (GitHub issues) در مخزن‌های (repositories) متن‌باز برجسته گرفته شده‌اند، می‌سنجد. برخلاف معیارهای کدنویسی سنتی که عموماً بر روی مسائل مجزا و به سبک الگوریتمی تمرکز دارند، SWE-bench یک بستر آزمون واقعی‌تر ارائه می‌دهد که نیازمند آن است که عامل‌ها در پایگاه‌های کد (codebases) موجود جستجو کنند، آزمون‌های مرتبط را به طور مستقل شناسایی کنند، اسکریپت بسازند و در برابر مجموعه‌های آزمون رگرسیون (regression test suites) جامع تکرار کنند.

ارائه اولیه Augment Code به نرخ موفقیت ۶۵.۴٪ دست یافته است که یک دستاورد قابل توجه در این محیط چالش‌برانگیز محسوب می‌شود. این شرکت تلاش اولیه خود را بر استفاده از مدل‌های پیشرفته موجود متمرکز کرد، به‌ویژه Claude Sonnet 3.7 از Anthropic به عنوان محرک اصلی برای اجرای وظیفه و مدل O1 از OpenAI برای ترکیب‌سازی (ensembling). این رویکرد به طور استراتژیک، آموزش مدل‌های اختصاصی (proprietary models) را در این مرحله اولیه کنار گذاشت و یک خط پایه (baseline) قوی ایجاد کرد.

یکی از جنبه‌های جالب روش‌شناسی Augment، کاوش آن‌ها در رفتارها و استراتژی‌های مختلف عامل بود. به عنوان مثال، آن‌ها دریافتند که برخی تکنیک‌های مورد انتظار مفید مانند «حالت تفکر» (thinking mode) کلود سونت و عامل‌های جداگانه برای رفع رگرسیون (regression-fixing agents) بهبود عملکرد معناداری ایجاد نکردند. این امر پویایی‌های ظریف و گاهی غیرشهودی در بهینه‌سازی عملکرد عامل را برجسته می‌کند. همچنین، تکنیک‌های اولیه ترکیب‌سازی مانند رأی‌گیری اکثریت (majority voting) مورد بررسی قرار گرفتند اما در نهایت به دلیل ملاحظات هزینه و کارایی کنار گذاشته شدند. با این حال، ترکیب‌سازی ساده با O1 از OpenAI بهبودهای تدریجی در دقت (accuracy) را فراهم کرد، که ارزش ترکیب‌سازی را حتی در سناریوهای محدود نشان می‌دهد.

در حالی که موفقیت ارائه اولیه Augment Code در SWE-bench قابل ستایش است، این شرکت در مورد محدودیت‌های این معیار شفاف است. قابل ذکر است که مسائل SWE-bench به شدت به سمت رفع اشکال (bug fixing) متمایل هستند تا ایجاد ویژگی (feature creation)، توضیحات ارائه شده ساختاریافته‌تر و سازگارتر با مدل‌های زبانی بزرگ (LLM-friendly) در مقایسه با فرمان‌ها (prompts) معمول توسعه‌دهندگان در دنیای واقعی هستند، و این معیار منحصراً از پایتون استفاده می‌کند. پیچیدگی‌های دنیای واقعی، مانند پیمایش در پایگاه‌های کد پروداکشن عظیم و سروکار داشتن با زبان‌های برنامه‌نویسی با توصیف کمتر، چالش‌هایی را ایجاد می‌کنند که SWE-bench آن‌ها را پوشش نمی‌دهد.

Augment Code آشکارا این محدودیت‌ها را پذیرفته و بر تعهد مستمر خود به بهینه‌سازی عملکرد عامل فراتر از معیارهای بنچمارک تأکید کرده است. آن‌ها تأکید می‌کنند که در حالی که بهبود فرمان‌ها و ترکیب‌سازی می‌تواند نتایج کمی (quantitative results) را افزایش دهد، بازخورد کیفی مشتری (qualitative customer feedback) و کاربردی بودن در دنیای واقعی (real-world usability) اولویت‌های آن‌ها باقی می‌مانند. هدف نهایی Augment Code توسعه عامل‌های مقرون به صرفه (cost-effective) و سریع است که قادر به ارائه کمک کدنویسی بی‌نظیر در محیط‌های حرفه‌ای عملی باشند.

به عنوان بخشی از نقشه راه آینده خود، Augment فعالانه در حال بررسی تنظیم دقیق (fine-tuning) مدل‌های اختصاصی با استفاده از تکنیک‌های یادگیری تقویتی (RL techniques) و داده‌های اختصاصی (proprietary data) است. چنین پیشرفت‌هایی نویدبخش بهبود دقت مدل و کاهش قابل توجه تأخیر (latency) و هزینه‌های عملیاتی هستند که کمک کدنویسی مقیاس‌پذیر مبتنی بر هوش مصنوعی (scalable AI-driven coding assistance) و در دسترس‌تر را تسهیل می‌کنند.

برخی از نکات کلیدی از عامل تأیید شده Augment SWE-bench عبارتند از:

Augment Code عامل تأیید شده Augment SWE-bench را منتشر کرد و به جایگاه برتر در میان عامل‌های متن‌باز دست یافت.
این عامل، Claude Sonnet 3.7 از Anthropic را به عنوان محرک اصلی خود و مدل O1 از OpenAI را برای ترکیب‌سازی ترکیب می‌کند.
به نرخ موفقیت ۶۵.۴٪ در SWE-bench دست یافت که قابلیت‌های خط پایه قوی را برجسته می‌کند.
نتایج غیرمنتظره‌ای یافت شد، جایی که ویژگی‌های مورد انتظار مفید مانند «حالت تفکر» و عامل‌های جداگانه رفع رگرسیون، بهبود عملکرد قابل توجهی ارائه ندادند.
مقرون به صرفه بودن به عنوان یک مانع حیاتی برای پیاده‌سازی ترکیب‌سازی گسترده در سناریوهای دنیای واقعی شناسایی شد.
محدودیت‌های معیار ارزیابی، از جمله گرایش آن به پایتون و وظایف رفع اشکال در مقیاس کوچکتر، تأیید شد.
بهبودهای آینده بر کاهش هزینه، تأخیر کمتر و بهبود کاربردپذیری از طریق یادگیری تقویتی و تنظیم دقیق مدل‌های اختصاصی متمرکز خواهد بود.
اهمیت ایجاد تعادل بین بهبودهای مبتنی بر معیار و پیشرفت‌های کیفی کاربرمحور برجسته شد.

صفحه گیت‌هاب را بررسی کنید. تمام اعتبار این تحقیق متعلق به پژوهشگران این پروژه است. همچنین، ما را در توییتر دنبال کنید و فراموش نکنید که به انجمن +۸۵ هزار نفری یادگیری ماشین ما در ردیت بپیوندید.

https://www.marktechpost.com/2025/04/04/augment-code-released-augment-swe-bench-verified-agent-an-open-source-agent-combining-claude-sonnet-3-7-and-openai-o1-to-excel-in-complex-software-engineering-tasks/