مقاله هوش مصنوعی: معرفی DPO و ORPO متنوع؛ روش‌های پس‌آموزش برای افزایش تنوع خروجی در نوشتن خلاق با LLM‌ها

نوشتن خلاق حوزه‌ای است که با تنوع و تخیل رشد می‌کند. برخلاف نوشتن مبتنی بر واقعیت یا وظیفه‌محور که ممکن است تنها یک خروجی صحیح وجود داشته باشد، نوشتن خلاق شامل پاسخ‌های معتبر متعددی به یک اعلان (prompt) است. داستان‌ها، شعرها و روایت‌ها می‌توانند به مسیرهای بی‌شماری منشعب شوند که هر کدام دارای طعم و معنای سبکی خاص خود هستند. این گشاده‌فکری ذاتی، نوشتن خلاق را به چالشی اساسی برای سیستم‌های هوش مصنوعی تبدیل می‌کند که باید ضمن حفظ انسجام روایی، خروجی‌های بدیع و متمایز تولید کنند.

مسئله اصلی در نحوه اصلاح مدل‌های زبانی بزرگ (Large Language Models یا LLM) پس از آموزش اولیه نهفته است. روش‌های پس‌آموزش (Post-training methods) اغلب بر بهبود کیفیت از طریق تطبیق پاسخ‌ها با ترجیحات کاربر یا به حداکثر رساندن امتیازات پاداش تأکید دارند. با این حال، این تنظیمات ناخواسته باعث می‌شوند مدل‌ها پاسخ‌هایی تولید کنند که در میان اعلان‌های مختلف بیش از حد شبیه به هم هستند. در محیط‌های خلاق، این امر منجر به کاهش قابل توجه تنوع خروجی می‌شود. فقدان تنوع، قدرت بیانی مدل را محدود می‌کند و منجر به خطوط داستانی یکنواخت یا ساختارهای جمله‌ای مشابه می‌شود، حتی زمانی که اعلان‌ها بسیار متفاوت هستند.

راه‌حل‌های پیشین تلاش می‌کردند با تغییر روش‌های رمزگشایی یا استراتژی‌های اعلان، به این موضوع رسیدگی کنند. محققان از تنظیم دمای نمونه‌برداری (sampling temperature adjustment)، فیلتر کردن top-k یا top-p، یا اعلان‌دهی تکراری (iterative prompting) برای ایجاد تصادفی‌بودن استفاده کردند. برخی روش‌هایی مانند اصلاحات جستجوی پرتویی (beam search modifications) یا خود-انتقادی (self-critiquing) را برای تشویق پاسخ‌های جایگزین بررسی کردند. اگرچه این روش‌ها به تنوع بخشیدن به خروجی‌ها کمک کردند، اما اغلب هزینه‌هایی به همراه داشتند - فدا کردن کیفیت کلی پاسخ، افزایش زمان تولید، یا ایجاد ناهماهنگی در لحن و دستور زبان. مهم‌تر از آن، آنها فرآیند آموزش اصلی مدل را برای یادگیری از نمونه‌های متنوع تطبیق ندادند.

محققان Midjourney و دانشگاه نیویورک یک تنظیم بدیع را در مرحله پس‌آموزش پیشنهاد کردند. آنها «DPO متنوع» (Diversified Direct Preference Optimization یا DDPO) و «ORPO متنوع» (Diversified Odds Ratio Preference Optimization یا DORPO) را معرفی کردند - نسخه‌های پیشرفته دو تکنیک بهینه‌سازی مبتنی بر ترجیح محبوب. نوآوری آنها شامل گنجاندن یک امتیاز انحراف (deviation score) بود که میزان تفاوت یک مثال آموزشی با سایر پاسخ‌ها به همان اعلان را کمی‌سازی می‌کند. با استفاده از این امتیاز برای وزن‌دهی به زیان‌های آموزشی (training losses)، به پاسخ‌های نادر و متنوع در طول یادگیری اهمیت بیشتری داده می‌شود. محققان به طور خاص این استراتژی‌ها را بر روی مدل‌های بزرگی مانند Llama-3.1-8B متا و Mistral-7B با استفاده از تنظیم دقیق پارامتر-کارآمد از طریق LoRA (Low-Rank Adaptation) پیاده‌سازی کردند.

دیاگرامی که روش‌های جدید DPO و ORPO متنوع را شرح می‌دهد
شرح روش‌های پیشنهادی DPO و ORPO متنوع

در این رویکرد، انحراف به عنوان یک سیگنال یادگیری عمل می‌کند. برای هر جفت آموزشی شامل یک پاسخ بهتر و یک پاسخ بدتر به یک اعلان، انحراف پاسخ بهتر با استفاده از جاسازی‌های (embeddings) معنایی و سبکی محاسبه می‌شود. این جاسازی‌ها نه تنها تفاوت‌های محتوایی بلکه منحصربه‌فرد بودن سبکی بین پاسخ‌ها را نیز اندازه‌گیری می‌کنند. سپس امتیاز حاصل بر میزان مشارکت آن جفت آموزشی در به‌روزرسانی وزن‌های مدل تأثیر می‌گذارد. این روش احتمال تولید خروجی‌های متمایز و در عین حال باکیفیت توسط مدل را افزایش می‌دهد. در این آموزش از بیش از ۴۰۰,۰۰۰ جفت اعلان-پاسخ استفاده شد که در آن رأی‌های مثبت ردیت (Reddit upvotes) به عنوان سیگنال‌های کیفیت عمل می‌کردند و روش‌های ترکیبی برای متعادل‌سازی مؤثر انحرافات معنایی و سبکی معرفی شدند.

نتایج کمی موفقیت روش پیشنهادی را نشان داد. بهترین مدل عملکردی، Llama-3.1-8B با DPO متنوع با استفاده از انحراف معنایی و سبکی (DDPO-both)، تقریباً همان امتیاز پاداش GPT-4o را کسب کرد و در عین حال در تنوع به طور قابل توجهی از آن بهتر عمل کرد. به طور خاص، این مدل دارای تنوع معنایی نزدیک به مجموعه داده مرجع ساخته شده توسط انسان و تنوع سبکی کمی پایین‌تر از آن بود. در ارزیابی‌های انسانی رو در رو، ۶۸٪ از بازبین‌ها خروجی‌های DDPO-both را به دلیل کیفیت بر خروجی‌های GPT-4o ترجیح دادند و ۱۰۰٪ آنها را به عنوان متنوع‌تر انتخاب کردند. در مقایسه با DPO پایه، DDPO-both همچنان پیشتاز بود و ۵۰٪ مواقع برای کیفیت و ۶۲٪ برای تنوع انتخاب شد. هنگامی که پاسخ‌های کمتری به ازای هر اعلان در طول آموزش در دسترس بود، افت جزئی در امتیازات پاداش با استفاده از یک آستانه حداقل انحراف یا نمونه‌برداری از پاسخ‌های با کیفیت بالاتر کاهش یافت.

نمودار مقایسه نتایج عملکرد مدل‌ها از نظر کیفیت و تنوع
نمودار نتایج نشان‌دهنده بهبود در تنوع با حفظ کیفیت

این تحقیق راه‌حلی قانع‌کننده برای بده‌بستان کیفیت-تنوع (diversity-quality trade-off) در نوشتن خلاق تولید شده توسط هوش مصنوعی برجسته کرد. با تأکید بر انحراف در آموزش، محققان مدل‌ها را قادر ساختند تا بدون به خطر انداختن انسجام، برای منحصربه‌فرد بودن ارزش قائل شوند. نتیجه، مدلی است که داستان‌سرایی غنی‌تر و متنوع‌تری ارائه می‌دهد و گامی معنادار در توسعه هوش مصنوعی خلاق محسوب می‌شود.