نوشتن خلاق حوزهای است که با تنوع و تخیل رشد میکند. برخلاف نوشتن مبتنی بر واقعیت یا وظیفهمحور که ممکن است تنها یک خروجی صحیح وجود داشته باشد، نوشتن خلاق شامل پاسخهای معتبر متعددی به یک اعلان (prompt) است. داستانها، شعرها و روایتها میتوانند به مسیرهای بیشماری منشعب شوند که هر کدام دارای طعم و معنای سبکی خاص خود هستند. این گشادهفکری ذاتی، نوشتن خلاق را به چالشی اساسی برای سیستمهای هوش مصنوعی تبدیل میکند که باید ضمن حفظ انسجام روایی، خروجیهای بدیع و متمایز تولید کنند.
مسئله اصلی در نحوه اصلاح مدلهای زبانی بزرگ (Large Language Models یا LLM) پس از آموزش اولیه نهفته است. روشهای پسآموزش (Post-training methods) اغلب بر بهبود کیفیت از طریق تطبیق پاسخها با ترجیحات کاربر یا به حداکثر رساندن امتیازات پاداش تأکید دارند. با این حال، این تنظیمات ناخواسته باعث میشوند مدلها پاسخهایی تولید کنند که در میان اعلانهای مختلف بیش از حد شبیه به هم هستند. در محیطهای خلاق، این امر منجر به کاهش قابل توجه تنوع خروجی میشود. فقدان تنوع، قدرت بیانی مدل را محدود میکند و منجر به خطوط داستانی یکنواخت یا ساختارهای جملهای مشابه میشود، حتی زمانی که اعلانها بسیار متفاوت هستند.
راهحلهای پیشین تلاش میکردند با تغییر روشهای رمزگشایی یا استراتژیهای اعلان، به این موضوع رسیدگی کنند. محققان از تنظیم دمای نمونهبرداری (sampling temperature adjustment)، فیلتر کردن top-k یا top-p، یا اعلاندهی تکراری (iterative prompting) برای ایجاد تصادفیبودن استفاده کردند. برخی روشهایی مانند اصلاحات جستجوی پرتویی (beam search modifications) یا خود-انتقادی (self-critiquing) را برای تشویق پاسخهای جایگزین بررسی کردند. اگرچه این روشها به تنوع بخشیدن به خروجیها کمک کردند، اما اغلب هزینههایی به همراه داشتند - فدا کردن کیفیت کلی پاسخ، افزایش زمان تولید، یا ایجاد ناهماهنگی در لحن و دستور زبان. مهمتر از آن، آنها فرآیند آموزش اصلی مدل را برای یادگیری از نمونههای متنوع تطبیق ندادند.
محققان Midjourney و دانشگاه نیویورک یک تنظیم بدیع را در مرحله پسآموزش پیشنهاد کردند. آنها «DPO متنوع» (Diversified Direct Preference Optimization یا DDPO) و «ORPO متنوع» (Diversified Odds Ratio Preference Optimization یا DORPO) را معرفی کردند - نسخههای پیشرفته دو تکنیک بهینهسازی مبتنی بر ترجیح محبوب. نوآوری آنها شامل گنجاندن یک امتیاز انحراف (deviation score) بود که میزان تفاوت یک مثال آموزشی با سایر پاسخها به همان اعلان را کمیسازی میکند. با استفاده از این امتیاز برای وزندهی به زیانهای آموزشی (training losses)، به پاسخهای نادر و متنوع در طول یادگیری اهمیت بیشتری داده میشود. محققان به طور خاص این استراتژیها را بر روی مدلهای بزرگی مانند Llama-3.1-8B متا و Mistral-7B با استفاده از تنظیم دقیق پارامتر-کارآمد از طریق LoRA (Low-Rank Adaptation) پیادهسازی کردند.
در این رویکرد، انحراف به عنوان یک سیگنال یادگیری عمل میکند. برای هر جفت آموزشی شامل یک پاسخ بهتر و یک پاسخ بدتر به یک اعلان، انحراف پاسخ بهتر با استفاده از جاسازیهای (embeddings) معنایی و سبکی محاسبه میشود. این جاسازیها نه تنها تفاوتهای محتوایی بلکه منحصربهفرد بودن سبکی بین پاسخها را نیز اندازهگیری میکنند. سپس امتیاز حاصل بر میزان مشارکت آن جفت آموزشی در بهروزرسانی وزنهای مدل تأثیر میگذارد. این روش احتمال تولید خروجیهای متمایز و در عین حال باکیفیت توسط مدل را افزایش میدهد. در این آموزش از بیش از ۴۰۰,۰۰۰ جفت اعلان-پاسخ استفاده شد که در آن رأیهای مثبت ردیت (Reddit upvotes) به عنوان سیگنالهای کیفیت عمل میکردند و روشهای ترکیبی برای متعادلسازی مؤثر انحرافات معنایی و سبکی معرفی شدند.
نتایج کمی موفقیت روش پیشنهادی را نشان داد. بهترین مدل عملکردی، Llama-3.1-8B با DPO متنوع با استفاده از انحراف معنایی و سبکی (DDPO-both)، تقریباً همان امتیاز پاداش GPT-4o را کسب کرد و در عین حال در تنوع به طور قابل توجهی از آن بهتر عمل کرد. به طور خاص، این مدل دارای تنوع معنایی نزدیک به مجموعه داده مرجع ساخته شده توسط انسان و تنوع سبکی کمی پایینتر از آن بود. در ارزیابیهای انسانی رو در رو، ۶۸٪ از بازبینها خروجیهای DDPO-both را به دلیل کیفیت بر خروجیهای GPT-4o ترجیح دادند و ۱۰۰٪ آنها را به عنوان متنوعتر انتخاب کردند. در مقایسه با DPO پایه، DDPO-both همچنان پیشتاز بود و ۵۰٪ مواقع برای کیفیت و ۶۲٪ برای تنوع انتخاب شد. هنگامی که پاسخهای کمتری به ازای هر اعلان در طول آموزش در دسترس بود، افت جزئی در امتیازات پاداش با استفاده از یک آستانه حداقل انحراف یا نمونهبرداری از پاسخهای با کیفیت بالاتر کاهش یافت.
این تحقیق راهحلی قانعکننده برای بدهبستان کیفیت-تنوع (diversity-quality trade-off) در نوشتن خلاق تولید شده توسط هوش مصنوعی برجسته کرد. با تأکید بر انحراف در آموزش، محققان مدلها را قادر ساختند تا بدون به خطر انداختن انسجام، برای منحصربهفرد بودن ارزش قائل شوند. نتیجه، مدلی است که داستانسرایی غنیتر و متنوعتری ارائه میدهد و گامی معنادار در توسعه هوش مصنوعی خلاق محسوب میشود.