مدل‌های زبانی بزرگ به‌طور طبیعی حاوی سوگیری هستند و می‌توانند زبان سمی تولید کنند، اما یک روش جدید از محققان آزمایشگاه هوش مصنوعی MIT-IBM Watson به آن‌ها کمک می‌کند تا خروجی‌های کم‌ضررتر را در حین حفظ تسلط تولید کنند. عکس: AdobeStock
مدل‌های زبانی بزرگ به‌طور طبیعی حاوی سوگیری هستند و می‌توانند زبان سمی تولید کنند، اما یک روش جدید از محققان آزمایشگاه هوش مصنوعی MIT-IBM Watson به آن‌ها کمک می‌کند تا خروجی‌های کم‌ضررتر را در حین حفظ تسلط تولید کنند. عکس: AdobeStock

آموزش مدل‌های زبانی بزرگ برای خود پالایشی زبان

روش جدیدی از آزمایشگاه هوش مصنوعی MIT-IBM Watson به مدل‌های زبانی بزرگ کمک می‌کند تا پاسخ‌های خود را به سمت خروجی‌های ایمن‌تر، اخلاقی‌تر و همسو با ارزش‌ها هدایت کنند.

همانطور که از کودکی بالغ می‌شویم، دایره لغات ما - و همچنین روش‌هایی که از آن استفاده می‌کنیم - رشد می‌کند و تجربیات ما غنی‌تر می‌شود، که به ما امکان می‌دهد با دقت و قصد فکر کنیم، استدلال کنیم و با دیگران تعامل داشته باشیم. بر این اساس، انتخاب‌های کلمه ما تکامل می‌یابند تا با ارزش‌های شخصی، اخلاق، هنجارهای فرهنگی و دیدگاه‌های ما همسو شوند. با گذشت زمان، بیشتر ما یک "راهنمای" درونی ایجاد می‌کنیم که ما را قادر می‌سازد تا زمینه مکالمه را بیاموزیم. همچنین اغلب ما را از به اشتراک گذاشتن اطلاعات و احساساتی که مضر یا نامناسب هستند یا می‌توانند باشند، دور می‌کند. همانطور که معلوم است، مدل‌های زبانی بزرگ (LLM) - که بر روی مجموعه‌های داده گسترده و عمومی آموزش داده می‌شوند و بنابراین اغلب دارای سوگیری‌ها و زبان سمی هستند - می‌توانند ظرفیت مشابهی برای تعدیل زبان خود به دست آورند.

روش جدیدی از MIT، آزمایشگاه هوش مصنوعی MIT-IBM Watson و IBM Research، به نام نمونه‌برداری خودتنظیم خود انضباطی (SASA)، به LLMها اجازه می‌دهد تا خروجی‌های خود را بدون قربانی کردن روان بودن، سم‌زدایی کنند.

برخلاف سایر روش‌های سم‌زدایی، این الگوریتم رمزگشایی، مرزی بین زیرفضاهای سمی/غیر سمی را در بازنمایی داخلی خود LLM یاد می‌گیرد، بدون تغییر پارامترهای مدل، نیاز به آموزش مجدد یا یک مدل پاداش خارجی. سپس، در طول استنتاج، این الگوریتم مقدار سمیت عبارت تولید شده جزئی را ارزیابی می‌کند: نشانه‌ها (کلمات) قبلاً تولید شده و پذیرفته شده، همراه با هر نشانه جدید بالقوه که می‌تواند به طور منطقی برای مجاورت با مرز طبقه‌بندی‌کننده انتخاب شود. در مرحله بعد، یک گزینه کلمه را انتخاب می‌کند که عبارت را در فضای غیر سمی قرار می‌دهد، در نهایت روشی سریع و کارآمد برای تولید زبان کمتر سمی ارائه می‌دهد.

چینگ-یون "ایرن" کو، نویسنده اصلی این مطالعه و دانشجوی سابق دکترای آزمایشگاه هوش مصنوعی MIT-IBM Watson و دانشمند تحقیقاتی فعلی در مرکز تحقیقات توماس جی واتسون IBM در نیویورک، می‌گوید: "ما می‌خواستیم راهی را با هر مدل زبانی موجود پیدا کنیم [که] در طول فرآیند تولید، رمزگشایی می‌تواند مشمول برخی ارزش‌های انسانی باشد. مثالی که در اینجا می‌گیریم سمیت است."

همکاران نویسنده کو عبارتند از لوکا دانیل، استاد گروه مهندسی برق و علوم کامپیوتر MIT (EECS)، عضو آزمایشگاه هوش مصنوعی MIT-IBM Watson، و مشاور فارغ التحصیل کو؛ و چندین عضو آزمایشگاه هوش مصنوعی MIT-IBM Watson و/یا IBM Research - پین-یو چن، پائل داس، یوسف مروه، سوهم دان، جورجیوس کولیاس، سابهاجیت چودوری و تجاسوینی پداپاتی. این اثر در کنفرانس بین المللی ارائه خواهد شد.

پیدا کردن "حصارها"

منابع آموزشی پشت LLMها تقریباً همیشه شامل محتوایی است که از فضاهای عمومی مانند اینترنت و سایر مجموعه‌های داده به آسانی در دسترس جمع‌آوری شده است. به این ترتیب، کلمات رکیک و زبان قلدری/نامطبوع یک جزء است، اگرچه برخی از آن در زمینه آثار ادبی است. سپس این نتیجه حاصل می‌شود که LLMها می‌توانند ذاتاً محتوای خطرناک و/یا مغرضانه تولید کنند - یا فریب داده شوند - که اغلب حاوی کلمات ناخوشایند یا زبان نفرت‌انگیز است، حتی از درخواست‌های بی‌ضرر. علاوه بر این، مشخص شده است که آنها می‌توانند زبانی را بیاموزند و تقویت کنند که برای بسیاری از برنامه‌ها و وظایف پایین دستی ترجیح داده نمی‌شود یا حتی مضر است - که منجر به نیاز به استراتژی‌های کاهش یا اصلاح می‌شود.

راه‌های زیادی برای دستیابی به تولید زبان قوی وجود دارد که منصفانه و همسو با ارزش‌ها باشد. برخی از روش‌ها از آموزش مجدد LLM با مجموعه داده‌های پاک‌سازی‌شده استفاده می‌کنند، که پرهزینه است، زمان می‌برد و ممکن است عملکرد LLM را تغییر دهد. دیگران از مدل‌های پاداش خارجی رمزگشایی، مانند نمونه‌برداری یا جستجوی پرتو استفاده می‌کنند، که زمان بیشتری برای اجرا می‌برند و به حافظه بیشتری نیاز دارند. در مورد SASA، کو، دانیل و تیم تحقیقاتی IBM روشی را توسعه دادند که از ماهیت خود تنظیمی LLMها استفاده می‌کند و با استفاده از یک استراتژی مبتنی بر رمزگشایی در طول استنتاج LLM، به تدریج تولید را - یک نشانه در یک زمان - از خروجی‌های ناخوشایند یا نامطلوب دور می‌کند و به سمت زبان بهتر هدایت می‌کند.

گروه تحقیقاتی با ساختن یک طبقه‌بندی‌کننده خطی که بر روی زیرفضای آموخته‌شده از جاسازی LLM عمل می‌کند، به این مهم دست یافت. هنگامی که LLMها آموزش داده می‌شوند، کلمات با معانی مشابه در فضای برداری نزدیک به هم قرار می‌گیرند و از کلمات متفاوت دورتر قرار می‌گیرند. محققان این فرضیه را مطرح کردند که جاسازی LLM بنابراین اطلاعات متنی را نیز ثبت می‌کند، که می‌تواند برای سم‌زدایی استفاده شود. محققان از مجموعه‌های داده‌ای استفاده کردند که شامل مجموعه‌هایی از یک درخواست (نیمه اول یک جمله یا فکر)، یک پاسخ (تکمیل آن جمله) و حاشیه‌نویسی نسبت داده شده توسط انسان، مانند سمی یا غیر سمی، ترجیح داده شده یا غیر ترجیح داده شده، با برچسب‌های پیوسته از 0-1، نشان‌دهنده افزایش سمیت بود. سپس یک طبقه‌بندی‌کننده بهینه بیز اعمال شد تا به طور مجازی خطی بین زیرفضاهای باینری در جاسازی‌های جمله، که توسط مقادیر مثبت (فضای غیر سمی) و اعداد منفی (فضای سمی) نشان داده می‌شوند، بیاموزد و رسم کند.

سپس سیستم SASA با تغییر وزن احتمالات نمونه‌برداری از جدیدترین نشانه بالقوه بر اساس مقدار آن و فاصله عبارت تولید شده تا طبقه‌بندی‌کننده، با هدف نزدیک ماندن به توزیع نمونه‌برداری اصلی، کار می‌کند.

برای نشان دادن، اگر یک کاربر در حال تولید یک نشانه بالقوه شماره 12 در یک جمله باشد، LLM کل واژگان خود را برای یک کلمه منطقی بررسی می‌کند، بر اساس 11 کلمه‌ای که قبل از آن آمده‌اند، و با استفاده از top-k، top-p، تقریباً 10 نشانه را فیلتر و تولید می‌کند تا از بین آنها انتخاب کند. سپس SASA هر یک از آن نشانه‌ها را در جمله تا حدی تکمیل شده برای مجاورت آن با طبقه‌بندی‌کننده ارزیابی می‌کند (یعنی مقدار نشانه‌های 1-11، به علاوه هر نشانه بالقوه 12). نشانه‌هایی که جملاتی را در فضای مثبت تولید می‌کنند تشویق می‌شوند، در حالی که نشانه‌هایی که در فضای منفی هستند جریمه می‌شوند. علاوه بر این، هر چه دورتر از طبقه‌بندی‌کننده باشد، تأثیر قوی‌تر است.

کو می‌گوید: "هدف این است که فرآیند نمونه‌برداری خود تنظیمی را با تغییر وزن احتمال نشانه‌های خوب تغییر دهیم. اگر نشانه بعدی با توجه به زمینه احتمالاً سمی باشد، در این صورت احتمال نمونه‌برداری برای آنهایی که مستعد نشانه‌های سمی هستند را کاهش می‌دهیم." محققان تصمیم گرفتند این کار را به این روش انجام دهند "زیرا چیزهایی که می‌گوییم، چه خوش‌خیم باشد یا نه، مشروط به زمینه است."

مهار سمیت برای تطبیق ارزش

محققان روش خود را در برابر چندین مداخله پایه با سه LLM با اندازه فزاینده ارزیابی کردند. همه ترانسفورماتور و مبتنی بر خود تنظیمی بودند: GPT2-Large، Llama2-7b و Llama 3.1-8b-Instruct، با 762 میلیون، 7 میلیارد و 8 میلیارد پارامتر به ترتیب. برای هر درخواست، LLM وظیفه داشت 25 بار جمله/عبارت را تکمیل کند و PerspectiveAPI آنها را از 0 تا 1 امتیاز داد، به طوری که هر چیزی بالاتر از 0.5 سمی تلقی می‌شد. این تیم به دو معیار نگاه کردند: میانگین حداکثر امتیاز سمیت در 25 نسل برای همه درخواست‌ها، و نرخ سمی، که احتمال تولید حداقل یک عبارت سمی در 25 نسل بود. کاهش روانی (و در نتیجه افزایش سردرگمی) نیز مورد تجزیه و تحلیل قرار گرفت. SASA آزمایش شد تا مجموعه‌های داده RealToxicityPrompts (RPT)، BOLD و AttaQ را که حاوی درخواست‌های جمله انگلیسی که به طور طبیعی رخ می‌دهند، تکمیل کند.

محققان پیچیدگی آزمایش‌های خود را برای سم‌زدایی توسط SASA افزایش دادند، و با درخواست‌های غیر سمی از مجموعه داده RPT شروع کردند، و به دنبال تکمیل جملات مضر بودند. سپس، آن را به درخواست‌های چالش‌برانگیزتر از RPT که به احتمال زیاد نتایج نگران‌کننده‌ای تولید می‌کنند، تشدید کردند، و همچنین SASA را در مدل تنظیم شده با دستورالعمل اعمال کردند تا ارزیابی کنند که آیا تکنیک آنها می‌تواند خروجی‌های ناخواسته را بیشتر کاهش دهد یا خیر. آنها همچنین از معیار BOLD و AttaQ برای بررسی کاربرد عمومی SASA در سم‌زدایی استفاده کردند. با مجموعه داده BOLD، محققان بیشتر به دنبال سوگیری جنسیتی در تولیدات زبان بودند و سعی کردند به یک نرخ سمی متعادل بین جنسیت‌ها دست یابند. در نهایت، این تیم به زمان اجرا، استفاده از حافظه و چگونگی ترکیب SASA با فیلتر کردن کلمات برای دستیابی به تولید زبان سالم و/یا مفید نگاه کرد.

کو می‌گوید: "اگر در مورد نحوه فکر کردن و واکنش نشان دادن انسان‌ها در جهان فکر کنیم، چیزهای بدی را می‌بینیم، بنابراین این موضوع اجازه دادن به مدل زبان برای دیدن فقط چیزهای خوب نیست. این در مورد درک طیف کامل است - هم خوب و هم بد،" و انتخاب می‌کنیم که هنگام صحبت کردن و عمل کردن از ارزش‌های خود حمایت کنیم."

به طور کلی، SASA به کاهش قابل توجه تولید زبان سمی دست یافت و با RAD، یک تکنیک مدل پاداش خارجی پیشرفته، همتراز بود. با این حال، به طور جهانی مشاهده شد که سم‌زدایی قوی‌تر با کاهش روانی همراه است. قبل از مداخله، LLMها پاسخ‌های سمی‌تری برای درخواست‌های برچسب‌گذاری شده زنانه نسبت به مردانه تولید می‌کردند. با این حال، SASA نیز توانست پاسخ‌های مضر را به طور قابل توجهی کاهش دهد و آنها را برابرتر کند. به طور مشابه، فیلتر کردن کلمات علاوه بر SASA، سطح سمیت را به طور محسوس کاهش داد، اما همچنین توانایی LLM را برای پاسخگویی منسجم مختل کرد.

کو می‌گوید: "یک جنبه عالی از این کار این است که یک مسئله بهینه‌سازی محدود و به خوبی تعریف شده است، به این معنی که تعادل بین تولید زبان باز که طبیعی به نظر می‌رسد و نیاز به کاهش زبان ناخواسته قابل دستیابی و تنظیم است."

علاوه بر این، کو می‌گوید، SASA می‌تواند در آینده برای چندین ویژگی به خوبی کار کند: "برای انسان‌ها، ما ارزش‌های انسانی متعددی داریم. ما نمی‌خواهیم چیزهای سمی بگوییم، اما همچنین می‌خواهیم صادق، مفید و وفادار باشیم … اگر قرار بود مدلی را برای همه این ارزش‌ها تنظیم دقیق کنید، به منابع محاسباتی بیشتری و البته آموزش اضافی نیاز داشت." با توجه به روش سبک وزن SASA، می‌تواند به راحتی در این شرایط اعمال شود: "اگر می‌خواهید با چندین ارزش کار کنید، به سادگی موقعیت تولید را در چندین زیرفضا بررسی می‌کند. این فقط سربار حاشیه‌ای را از نظر محاسبات و پارامترها اضافه می‌کند،" که منجر به زبان مثبت‌تر، منصفانه‌تر و همسو با اصول می‌شود.

این کار تا حدی توسط آزمایشگاه هوش مصنوعی MIT-IBM Watson و بنیاد ملی علوم پشتیبانی شد.