افزایش دقت کد تولید شده توسط هوش مصنوعی در هر زبان

برنامه‌نویسان اکنون می‌توانند از مدل‌های زبانی بزرگ (LLM) برای تولید سریع‌تر کد کامپیوتر استفاده کنند. با این حال، این تنها در صورتی زندگی برنامه‌نویسان را آسان‌تر می‌کند که آن کد از قوانین زبان برنامه‌نویسی پیروی کند و باعث از کار افتادن کامپیوتر نشود.

روش‌هایی برای اطمینان از انطباق LLMها با قوانین هر زبانی که در آن متن تولید می‌کنند وجود دارد، اما بسیاری از این روش‌ها یا معنای مورد نظر مدل را تحریف می‌کنند یا برای وظایف پیچیده بسیار زمان‌بر هستند.

رویکرد جدیدی که توسط محققان MIT و جاهای دیگر توسعه یافته است، به طور خودکار یک LLM را برای تولید متنی هدایت می‌کند که از قوانین زبان مربوطه، مانند یک زبان برنامه‌نویسی خاص، پیروی کند و همچنین بدون خطا باشد. روش آن‌ها به یک LLM اجازه می‌دهد تا تلاش‌ها را به سمت خروجی‌هایی اختصاص دهد که به احتمال زیاد معتبر و دقیق هستند، در حالی که خروجی‌های غیر امیدوارکننده را در اوایل فرآیند دور می‌اندازد. این رویکرد احتمالی باعث افزایش کارایی محاسباتی می‌شود.

به دلیل این افزایش کارایی، معماری محققان LLMهای کوچک را قادر ساخت تا در تولید خروجی‌های دقیق و ساختاریافته برای چندین مورد استفاده در دنیای واقعی، از جمله زیست‌شناسی مولکولی و رباتیک، از مدل‌های بسیار بزرگ‌تر بهتر عمل کنند.

در درازمدت، این معماری جدید می‌تواند به افراد غیر متخصص در کنترل محتوای تولید شده توسط هوش مصنوعی کمک کند. به عنوان مثال، این می‌تواند به تاجران اجازه دهد تا پرسش‌های پیچیده را در SQL، زبانی برای دستکاری پایگاه داده، فقط با استفاده از اعلان‌های زبان طبیعی بنویسند.

ژائو لولا، دانشجوی فارغ‌التحصیل MIT و نویسنده اصلی مقاله‌ای در مورد این چارچوب می‌گوید: «این کار پیامدهایی فراتر از تحقیق دارد. این می‌تواند دستیاران برنامه‌نویسی، تجزیه و تحلیل داده‌های مبتنی بر هوش مصنوعی و ابزارهای کشف علمی را با اطمینان از اینکه خروجی‌های تولید شده توسط هوش مصنوعی هم مفید و هم صحیح باقی می‌مانند، بهبود بخشد.»

لولا در این مقاله به همراه بنجامین لبرون، دستیار تحقیق در موسسه هوش مصنوعی میلا-کبک، و لی دو، دانشجوی فارغ‌التحصیل دانشگاه جان هاپکینز، همکاری می‌کند. نویسندگان ارشد این مقاله عبارتند از ویکاش مانسینگکا، دانشمند ارشد تحقیق و رهبر پروژه محاسبات احتمالی در گروه مغز و علوم شناختی MIT؛ الکساندر کی. لو، استادیار دانشگاه ییل؛ تیم ویرا، فوق دکترا در ETH زوریخ؛ و تیموتی جی. او’دانل، استادیار دانشگاه مک گیل و رئیس هوش مصنوعی Canada CIFAR در میلا، که رهبری تیم بین‌المللی را بر عهده داشتند. این تحقیق در کنفرانس بین‌المللی یادگیری بازنمایی‌ها ارائه خواهد شد.

اعمال ساختار و معنا

یک رویکرد رایج برای کنترل متن ساختاریافته تولید شده توسط LLMها شامل بررسی یک خروجی کامل، مانند یک بلوک کد کامپیوتر، برای اطمینان از معتبر بودن و بدون خطا اجرا شدن آن است. اگر اینطور نباشد، کاربر باید دوباره شروع کند و منابع محاسباتی را هدر دهد.

از طرف دیگر، یک برنامه‌نویس می‌تواند برای بررسی خروجی در طول مسیر توقف کند. در حالی که این می‌تواند اطمینان حاصل کند که کد از زبان برنامه‌نویسی پیروی می‌کند و از نظر ساختاری معتبر است، تصحیح تدریجی کد ممکن است باعث شود که از معنای مورد نظر کاربر منحرف شود و در درازمدت به دقت آن آسیب برساند.

لولا می‌گوید: «اعمال ساختار بسیار آسان‌تر از معنا است. ما می‌توانیم به سرعت بررسی کنیم که آیا چیزی در زبان برنامه‌نویسی مناسب است یا خیر، اما برای بررسی معنای آن باید کد را اجرا کنید. کار ما همچنین در مورد برخورد با این انواع مختلف اطلاعات است.»

رویکرد محققان شامل مهندسی دانش در LLM برای هدایت آن به سمت خروجی‌های امیدوارکننده‌تر است. این خروجی‌ها به احتمال زیاد از محدودیت‌های ساختاری تعریف شده توسط کاربر پیروی می‌کنند و معنای مورد نظر کاربر را دارند.

مانسینگکا می‌افزاید: «ما سعی نمی‌کنیم یک LLM را برای انجام این کار آموزش دهیم. در عوض، ما در حال مهندسی برخی از دانش‌هایی هستیم که یک متخصص خواهد داشت و آن را با دانش LLM ترکیب می‌کنیم، که رویکرد بسیار متفاوتی را برای مقیاس‌بندی نسبت به آنچه در یادگیری عمیق می‌بینید، ارائه می‌دهد.»

آن‌ها این کار را با استفاده از تکنیکی به نام sequential Monte Carlo انجام می‌دهند، که تولید موازی از یک LLM را قادر می‌سازد تا با یکدیگر رقابت کنند. این مدل به طور پویا منابع را به رشته‌های مختلف محاسبات موازی بر اساس میزان امیدوارکننده بودن خروجی آن‌ها اختصاص می‌دهد.

به هر خروجی وزنی داده می‌شود که نشان می‌دهد چقدر احتمال دارد از نظر ساختاری معتبر و از نظر معنایی دقیق باشد. در هر مرحله از محاسبه، مدل بر روی آن‌هایی که وزن بالاتری دارند تمرکز می‌کند و بقیه را دور می‌اندازد.

به نوعی، LLM یک متخصص دارد که از روی شانه آن نگاه می‌کند تا اطمینان حاصل کند که در هر مرحله انتخاب‌های درستی انجام می‌دهد، در حالی که آن را بر روی هدف کلی متمرکز نگه می‌دارد. کاربر ساختار و معنای مورد نظر خود و همچنین نحوه بررسی خروجی را مشخص می‌کند، سپس معماری محققان LLM را برای انجام بقیه کارها راهنمایی می‌کند.

لولا می‌گوید: «ما ریاضیات سخت را حل کرده‌ایم، بنابراین برای هر نوع محدودیتی که می‌خواهید در آن بگنجانید، وزن‌های مناسب را دریافت خواهید کرد. در پایان، شما پاسخ درست را دریافت می‌کنید.»

تقویت مدل‌های کوچک

برای آزمایش رویکرد خود، آن‌ها این چارچوب را بر روی LLMهایی اعمال کردند که وظیفه تولید چهار نوع خروجی را داشتند: کد پایتون، پرسش‌های پایگاه داده SQL، ساختارهای مولکولی و برنامه‌هایی برای دنبال کردن یک ربات.

در مقایسه با رویکردهای موجود، روش محققان با دقت بیشتری عمل کرد و در عین حال به محاسبات کمتری نیاز داشت.

به عنوان مثال، در تولید کد پایتون، معماری محققان یک مدل کوچک و متن‌باز را قادر ساخت تا از یک مدل تخصصی، تجاری و منبع بسته که بیش از دو برابر اندازه آن است، بهتر عمل کند.

لولا می‌گوید: «ما بسیار هیجان‌زده هستیم که می‌توانیم به این مدل‌های کوچک اجازه دهیم بسیار بالاتر از وزن خود عمل کنند.»

محققان در حال پیشرفت هستند و می‌خواهند از تکنیک خود برای کنترل تکه‌های بزرگ‌تری از متن تولید شده استفاده کنند، نه اینکه در یک زمان روی یک قطعه کوچک کار کنند. آن‌ها همچنین می‌خواهند روش خود را با یادگیری ترکیب کنند، به طوری که با کنترل خروجی‌هایی که یک مدل تولید می‌کند، یاد می‌گیرد دقیق‌تر باشد.

در درازمدت، این پروژه می‌تواند کاربردهای گسترده‌تری برای کاربران غیرفنی داشته باشد. به عنوان مثال، می‌توان آن را با سیستم‌هایی برای مدل‌سازی خودکار داده‌ها و پرسش از مدل‌های تولیدی پایگاه‌های داده ترکیب کرد.

مانسینگکا می‌افزاید، این رویکرد همچنین می‌تواند سیستم‌های تجزیه و تحلیل داده‌های به کمک ماشین را فعال کند، جایی که کاربر می‌تواند با نرم‌افزاری که به طور دقیق معنای داده‌ها و سؤالات پرسیده شده توسط کاربر را مدل می‌کند، گفتگو کند.

او’دانل می‌گوید: «یکی از اساسی‌ترین سؤالات زبان‌شناسی این است که چگونه معنای کلمات، عبارات و جملات می‌تواند در مدل‌های جهان مبتنی باشد و عدم قطعیت و ابهام در معنا و مرجع را در نظر بگیرد. LLMها که توالی‌های احتمالی توکن را پیش‌بینی می‌کنند، به این مشکل نمی‌پردازند. مقاله ما نشان می‌دهد که در دامنه‌های نمادین باریک، از نظر فنی امکان ترسیم از کلمات به توزیع‌ها بر روی معانی مبتنی وجود دارد. این یک گام کوچک به سوی سؤالات عمیق‌تر در علوم شناختی، زبان‌شناسی و هوش مصنوعی است که برای درک اینکه چگونه ماشین‌ها می‌توانند مانند ما در مورد جهان ارتباط برقرار کنند، مورد نیاز است.»

این تحقیق تا حدی توسط برنامه Canada CIFAR AI Chairs، MIT Quest for Intelligence و Convergent Research تأمین مالی شده است.

https://news.mit.edu/2025/making-ai-generated-code-more-accurate-0418