برنامهنویسان اکنون میتوانند از مدلهای زبانی بزرگ (LLM) برای تولید سریعتر کد کامپیوتر استفاده کنند. با این حال، این تنها در صورتی زندگی برنامهنویسان را آسانتر میکند که آن کد از قوانین زبان برنامهنویسی پیروی کند و باعث از کار افتادن کامپیوتر نشود.
روشهایی برای اطمینان از انطباق LLMها با قوانین هر زبانی که در آن متن تولید میکنند وجود دارد، اما بسیاری از این روشها یا معنای مورد نظر مدل را تحریف میکنند یا برای وظایف پیچیده بسیار زمانبر هستند.
رویکرد جدیدی که توسط محققان MIT و جاهای دیگر توسعه یافته است، به طور خودکار یک LLM را برای تولید متنی هدایت میکند که از قوانین زبان مربوطه، مانند یک زبان برنامهنویسی خاص، پیروی کند و همچنین بدون خطا باشد. روش آنها به یک LLM اجازه میدهد تا تلاشها را به سمت خروجیهایی اختصاص دهد که به احتمال زیاد معتبر و دقیق هستند، در حالی که خروجیهای غیر امیدوارکننده را در اوایل فرآیند دور میاندازد. این رویکرد احتمالی باعث افزایش کارایی محاسباتی میشود.
به دلیل این افزایش کارایی، معماری محققان LLMهای کوچک را قادر ساخت تا در تولید خروجیهای دقیق و ساختاریافته برای چندین مورد استفاده در دنیای واقعی، از جمله زیستشناسی مولکولی و رباتیک، از مدلهای بسیار بزرگتر بهتر عمل کنند.
در درازمدت، این معماری جدید میتواند به افراد غیر متخصص در کنترل محتوای تولید شده توسط هوش مصنوعی کمک کند. به عنوان مثال، این میتواند به تاجران اجازه دهد تا پرسشهای پیچیده را در SQL، زبانی برای دستکاری پایگاه داده، فقط با استفاده از اعلانهای زبان طبیعی بنویسند.
ژائو لولا، دانشجوی فارغالتحصیل MIT و نویسنده اصلی مقالهای در مورد این چارچوب میگوید: «این کار پیامدهایی فراتر از تحقیق دارد. این میتواند دستیاران برنامهنویسی، تجزیه و تحلیل دادههای مبتنی بر هوش مصنوعی و ابزارهای کشف علمی را با اطمینان از اینکه خروجیهای تولید شده توسط هوش مصنوعی هم مفید و هم صحیح باقی میمانند، بهبود بخشد.»
لولا در این مقاله به همراه بنجامین لبرون، دستیار تحقیق در موسسه هوش مصنوعی میلا-کبک، و لی دو، دانشجوی فارغالتحصیل دانشگاه جان هاپکینز، همکاری میکند. نویسندگان ارشد این مقاله عبارتند از ویکاش مانسینگکا، دانشمند ارشد تحقیق و رهبر پروژه محاسبات احتمالی در گروه مغز و علوم شناختی MIT؛ الکساندر کی. لو، استادیار دانشگاه ییل؛ تیم ویرا، فوق دکترا در ETH زوریخ؛ و تیموتی جی. او’دانل، استادیار دانشگاه مک گیل و رئیس هوش مصنوعی Canada CIFAR در میلا، که رهبری تیم بینالمللی را بر عهده داشتند. این تحقیق در کنفرانس بینالمللی یادگیری بازنماییها ارائه خواهد شد.
اعمال ساختار و معنا
یک رویکرد رایج برای کنترل متن ساختاریافته تولید شده توسط LLMها شامل بررسی یک خروجی کامل، مانند یک بلوک کد کامپیوتر، برای اطمینان از معتبر بودن و بدون خطا اجرا شدن آن است. اگر اینطور نباشد، کاربر باید دوباره شروع کند و منابع محاسباتی را هدر دهد.
از طرف دیگر، یک برنامهنویس میتواند برای بررسی خروجی در طول مسیر توقف کند. در حالی که این میتواند اطمینان حاصل کند که کد از زبان برنامهنویسی پیروی میکند و از نظر ساختاری معتبر است، تصحیح تدریجی کد ممکن است باعث شود که از معنای مورد نظر کاربر منحرف شود و در درازمدت به دقت آن آسیب برساند.
لولا میگوید: «اعمال ساختار بسیار آسانتر از معنا است. ما میتوانیم به سرعت بررسی کنیم که آیا چیزی در زبان برنامهنویسی مناسب است یا خیر، اما برای بررسی معنای آن باید کد را اجرا کنید. کار ما همچنین در مورد برخورد با این انواع مختلف اطلاعات است.»
رویکرد محققان شامل مهندسی دانش در LLM برای هدایت آن به سمت خروجیهای امیدوارکنندهتر است. این خروجیها به احتمال زیاد از محدودیتهای ساختاری تعریف شده توسط کاربر پیروی میکنند و معنای مورد نظر کاربر را دارند.
مانسینگکا میافزاید: «ما سعی نمیکنیم یک LLM را برای انجام این کار آموزش دهیم. در عوض، ما در حال مهندسی برخی از دانشهایی هستیم که یک متخصص خواهد داشت و آن را با دانش LLM ترکیب میکنیم، که رویکرد بسیار متفاوتی را برای مقیاسبندی نسبت به آنچه در یادگیری عمیق میبینید، ارائه میدهد.»
آنها این کار را با استفاده از تکنیکی به نام sequential Monte Carlo انجام میدهند، که تولید موازی از یک LLM را قادر میسازد تا با یکدیگر رقابت کنند. این مدل به طور پویا منابع را به رشتههای مختلف محاسبات موازی بر اساس میزان امیدوارکننده بودن خروجی آنها اختصاص میدهد.
به هر خروجی وزنی داده میشود که نشان میدهد چقدر احتمال دارد از نظر ساختاری معتبر و از نظر معنایی دقیق باشد. در هر مرحله از محاسبه، مدل بر روی آنهایی که وزن بالاتری دارند تمرکز میکند و بقیه را دور میاندازد.
به نوعی، LLM یک متخصص دارد که از روی شانه آن نگاه میکند تا اطمینان حاصل کند که در هر مرحله انتخابهای درستی انجام میدهد، در حالی که آن را بر روی هدف کلی متمرکز نگه میدارد. کاربر ساختار و معنای مورد نظر خود و همچنین نحوه بررسی خروجی را مشخص میکند، سپس معماری محققان LLM را برای انجام بقیه کارها راهنمایی میکند.
لولا میگوید: «ما ریاضیات سخت را حل کردهایم، بنابراین برای هر نوع محدودیتی که میخواهید در آن بگنجانید، وزنهای مناسب را دریافت خواهید کرد. در پایان، شما پاسخ درست را دریافت میکنید.»
تقویت مدلهای کوچک
برای آزمایش رویکرد خود، آنها این چارچوب را بر روی LLMهایی اعمال کردند که وظیفه تولید چهار نوع خروجی را داشتند: کد پایتون، پرسشهای پایگاه داده SQL، ساختارهای مولکولی و برنامههایی برای دنبال کردن یک ربات.
در مقایسه با رویکردهای موجود، روش محققان با دقت بیشتری عمل کرد و در عین حال به محاسبات کمتری نیاز داشت.
به عنوان مثال، در تولید کد پایتون، معماری محققان یک مدل کوچک و متنباز را قادر ساخت تا از یک مدل تخصصی، تجاری و منبع بسته که بیش از دو برابر اندازه آن است، بهتر عمل کند.
لولا میگوید: «ما بسیار هیجانزده هستیم که میتوانیم به این مدلهای کوچک اجازه دهیم بسیار بالاتر از وزن خود عمل کنند.»
محققان در حال پیشرفت هستند و میخواهند از تکنیک خود برای کنترل تکههای بزرگتری از متن تولید شده استفاده کنند، نه اینکه در یک زمان روی یک قطعه کوچک کار کنند. آنها همچنین میخواهند روش خود را با یادگیری ترکیب کنند، به طوری که با کنترل خروجیهایی که یک مدل تولید میکند، یاد میگیرد دقیقتر باشد.
در درازمدت، این پروژه میتواند کاربردهای گستردهتری برای کاربران غیرفنی داشته باشد. به عنوان مثال، میتوان آن را با سیستمهایی برای مدلسازی خودکار دادهها و پرسش از مدلهای تولیدی پایگاههای داده ترکیب کرد.
مانسینگکا میافزاید، این رویکرد همچنین میتواند سیستمهای تجزیه و تحلیل دادههای به کمک ماشین را فعال کند، جایی که کاربر میتواند با نرمافزاری که به طور دقیق معنای دادهها و سؤالات پرسیده شده توسط کاربر را مدل میکند، گفتگو کند.
او’دانل میگوید: «یکی از اساسیترین سؤالات زبانشناسی این است که چگونه معنای کلمات، عبارات و جملات میتواند در مدلهای جهان مبتنی باشد و عدم قطعیت و ابهام در معنا و مرجع را در نظر بگیرد. LLMها که توالیهای احتمالی توکن را پیشبینی میکنند، به این مشکل نمیپردازند. مقاله ما نشان میدهد که در دامنههای نمادین باریک، از نظر فنی امکان ترسیم از کلمات به توزیعها بر روی معانی مبتنی وجود دارد. این یک گام کوچک به سوی سؤالات عمیقتر در علوم شناختی، زبانشناسی و هوش مصنوعی است که برای درک اینکه چگونه ماشینها میتوانند مانند ما در مورد جهان ارتباط برقرار کنند، مورد نیاز است.»
این تحقیق تا حدی توسط برنامه Canada CIFAR AI Chairs، MIT Quest for Intelligence و Convergent Research تأمین مالی شده است.