تصویر تولید شده توسط GPT-4o با فرمان THE DECODER
تصویر تولید شده توسط GPT-4o با فرمان THE DECODER

میدجرنی روش جدیدی برای بهبود دامنه نوشتار خلاق مدل‌های زبان بزرگ توسعه می‌دهد

نمودار رویکرد آموزشی که تفاوت‌های بین پاسخ‌های مدل زبان بزرگ را برای افزایش تنوع خروجی ارزیابی می‌کند.
رویکرد آموزشی، تفاوت‌های بین پاسخ‌های مدل زبان بزرگ (LLM) را برای افزایش تنوع خروجی ارزیابی می‌کند. | تصویر: چانگ و همکاران.
جدول نمایش پاسخ‌های روایی مختلف سه مدل هوش مصنوعی (GPT-4، Llama-3.1) به یک دستور نوشتاری سلطنتی.
مدل‌های اصلاح‌شده Llama در مقایسه با GPT-4o با دستورات یکسان، تنوع بیشتری در داستان‌سرایی نشان می‌دهند. | تصویر: چانگ و همکاران.
نمودار مقایسه‌ای: DDPO-both در مقابل GPT-4o و DPO با نرخ برد برای کیفیت و تنوع داستان‌سرایی؛ DDPO-both در همه دسته‌ها پیشتاز است.
داده‌ها نشان می‌دهند که مدل اصلاح‌شده در کیفیت و تنوع داستان از سایر مدل‌ها بهتر عمل می‌کند. | تصویر: چانگ و همکاران.

پژوهشگران میدجرنی (Midjourney) و دانشگاه نیویورک رویکرد جدیدی را توسعه داده‌اند که می‌تواند به مدل‌های زبان کمک کند تا متون خلاقانه متنوع‌تری تولید کنند بدون آنکه کیفیت به طور قابل توجهی کاهش یابد.

در مقاله‌ای که اخیراً منتشر شده است، این تیم «معیارهای انحراف» (deviation metrics) را در فرآیند آموزش هوش مصنوعی معرفی می‌کند. این روش با اندازه‌گیری میزان تفاوت هر متن تولید شده با سایر متون ایجاد شده برای همان دستور (prompt)، کار می‌کند. این تفاوت‌ها با استفاده از متون جاسازی شده (embedded texts) و فاصله کسینوسی زوجی آن‌ها (pairwise cosine distance) محاسبه می‌شوند – اساساً روشی ریاضی برای درک تنوع متنی به سیستم ارائه می‌دهد.

آزمایش‌های اولیه امیدوارکننده به نظر می‌رسند. مدل‌هایی که از این روش آموزشی جدید استفاده کردند، ۲۳ درصد متون متنوع‌تری تولید کردند، در حالی که امتیازات کیفیت طبق سیستم پاداش Reddit تنها پنج درصد کاهش یافت.

یک مورد آزمایشی نشان می‌دهد که این روش در عمل چگونه کار می‌کند. هنگامی که دستور «چرا می‌لرزی، عشق من؟ اکنون تو پادشاهی» به مدل استاندارد GPT-4o داده شد، عمدتاً به داستان‌هایی درباره فرمانروایان جدید عصبی پرداخت. مدل اصلاح شده Llama-3.1-8B، علی‌رغم کوچک‌تر بودن، همه چیز از داستان‌های فانتزی تاریک درباره شاهزادگان خرس گرفته تا داستان‌های فراطبیعی در زیر آب را تولید کرد.

آزمایش‌کنندگان انسانی نیز این یافته‌ها را تأیید کردند و گفتند که متون ضمن حفظ کیفیت، تنوع بیشتری نشان می‌دهند. با این حال، پژوهشگران فقط با مدل قدیمی‌تر GPT-4o آزمایش کردند، نه مدل جدیدتر GPT-4.5 که متنی با صدای طبیعی‌تر تولید می‌کند اما هزینه استفاده از آن بیشتر است.

دو نوع تنوع

پژوهشگران بر دو نوع تنوع تمرکز کردند: معنایی (محتوا و طرح‌های داستانی متفاوت) و سبکی (نوشتاری که به نظر می‌رسد از نویسندگان مختلفی آمده است). آن‌ها نسخه‌های خاصی برای هر نوع توسعه دادند اما دریافتند که ترکیب آن‌ها بهترین نتیجه را می‌دهد.

برای پژوهش خود، تیم از بیش از ۱۰۰,۰۰۰ جفت دستور-پاسخ از انجمن r/WritingPrompts در Reddit استفاده کرد. آن‌ها دریافتند که تنها با چهار پاسخ متفاوت برای هر دستور می‌توانند به تنوع بسیار بهتری دست یابند.

این سیستم می‌تواند با استفاده از نمونه‌های آموزشی با دقت انتخاب شده یا تعیین استانداردهای حداقلی برای میزان تفاوت پاسخ‌ها، کیفیت را حفظ کند. این امر آن را نسبت به سایر روش‌های افزایش تنوع خروجی، انعطاف‌پذیرتر می‌کند.

برخی سوالات هنوز بی‌پاسخ مانده‌اند. پژوهشگران هنوز نشان نداده‌اند که آیا روش آن‌ها فراتر از نوشتار خلاق عمل می‌کند یا خیر - مستندات فنی و خلاصه‌ها ممکن است به رویکردهای متفاوتی نیاز داشته باشند. اثربخشی این تکنیک در محیط‌های آموزشی آنلاین، که بسیاری از مدل‌های بزرگ از آن استفاده می‌کنند، نیز آزمایش نشده است.

خود سیستم اندازه‌گیری کیفیت نیز سوالاتی را ایجاد می‌کند. در حالی که رأی‌های مثبت Reddit بینشی در مورد کیفیت متن ارائه می‌دهند، عوامل مهمی مانند دقت فنی، انسجام و استانداردهای نوشتاری حرفه‌ای را نادیده می‌گیرند. این محدودیت‌ها نشان می‌دهد که ممکن است به روش‌های ارزیابی جامع‌تری نیاز باشد.

حتی با وجود این پرسش‌های باز، این تکنیک می‌تواند نحوه برخورد مدل‌های زبان بزرگ با وظایف نوشتار خلاق را تغییر دهد، جایی که مدل‌های فعلی اغلب در الگوهای تکراری گرفتار می‌شوند. پژوهشگران می‌گویند که کد خود را در GitHub به اشتراک خواهند گذاشت تا دیگران بتوانند بر اساس کار آن‌ها پیشرفت کنند.