روش جدیدی از آزمایشگاه هوش مصنوعی MIT-IBM Watson به مدلهای زبانی بزرگ کمک میکند تا پاسخهای خود را به سمت خروجیهای ایمنتر، اخلاقیتر و همسو با ارزشها هدایت کنند.
همانطور که از کودکی بالغ میشویم، دایره لغات ما - و همچنین روشهایی که از آن استفاده میکنیم - رشد میکند و تجربیات ما غنیتر میشود، که به ما امکان میدهد با دقت و قصد فکر کنیم، استدلال کنیم و با دیگران تعامل داشته باشیم. بر این اساس، انتخابهای کلمه ما تکامل مییابند تا با ارزشهای شخصی، اخلاق، هنجارهای فرهنگی و دیدگاههای ما همسو شوند. با گذشت زمان، بیشتر ما یک "راهنمای" درونی ایجاد میکنیم که ما را قادر میسازد تا زمینه مکالمه را بیاموزیم. همچنین اغلب ما را از به اشتراک گذاشتن اطلاعات و احساساتی که مضر یا نامناسب هستند یا میتوانند باشند، دور میکند. همانطور که معلوم است، مدلهای زبانی بزرگ (LLM) - که بر روی مجموعههای داده گسترده و عمومی آموزش داده میشوند و بنابراین اغلب دارای سوگیریها و زبان سمی هستند - میتوانند ظرفیت مشابهی برای تعدیل زبان خود به دست آورند.
روش جدیدی از MIT، آزمایشگاه هوش مصنوعی MIT-IBM Watson و IBM Research، به نام نمونهبرداری خودتنظیم خود انضباطی (SASA)، به LLMها اجازه میدهد تا خروجیهای خود را بدون قربانی کردن روان بودن، سمزدایی کنند.
برخلاف سایر روشهای سمزدایی، این الگوریتم رمزگشایی، مرزی بین زیرفضاهای سمی/غیر سمی را در بازنمایی داخلی خود LLM یاد میگیرد، بدون تغییر پارامترهای مدل، نیاز به آموزش مجدد یا یک مدل پاداش خارجی. سپس، در طول استنتاج، این الگوریتم مقدار سمیت عبارت تولید شده جزئی را ارزیابی میکند: نشانهها (کلمات) قبلاً تولید شده و پذیرفته شده، همراه با هر نشانه جدید بالقوه که میتواند به طور منطقی برای مجاورت با مرز طبقهبندیکننده انتخاب شود. در مرحله بعد، یک گزینه کلمه را انتخاب میکند که عبارت را در فضای غیر سمی قرار میدهد، در نهایت روشی سریع و کارآمد برای تولید زبان کمتر سمی ارائه میدهد.
چینگ-یون "ایرن" کو، نویسنده اصلی این مطالعه و دانشجوی سابق دکترای آزمایشگاه هوش مصنوعی MIT-IBM Watson و دانشمند تحقیقاتی فعلی در مرکز تحقیقات توماس جی واتسون IBM در نیویورک، میگوید: "ما میخواستیم راهی را با هر مدل زبانی موجود پیدا کنیم [که] در طول فرآیند تولید، رمزگشایی میتواند مشمول برخی ارزشهای انسانی باشد. مثالی که در اینجا میگیریم سمیت است."
همکاران نویسنده کو عبارتند از لوکا دانیل، استاد گروه مهندسی برق و علوم کامپیوتر MIT (EECS)، عضو آزمایشگاه هوش مصنوعی MIT-IBM Watson، و مشاور فارغ التحصیل کو؛ و چندین عضو آزمایشگاه هوش مصنوعی MIT-IBM Watson و/یا IBM Research - پین-یو چن، پائل داس، یوسف مروه، سوهم دان، جورجیوس کولیاس، سابهاجیت چودوری و تجاسوینی پداپاتی. این اثر در کنفرانس بین المللی ارائه خواهد شد.
پیدا کردن "حصارها"
منابع آموزشی پشت LLMها تقریباً همیشه شامل محتوایی است که از فضاهای عمومی مانند اینترنت و سایر مجموعههای داده به آسانی در دسترس جمعآوری شده است. به این ترتیب، کلمات رکیک و زبان قلدری/نامطبوع یک جزء است، اگرچه برخی از آن در زمینه آثار ادبی است. سپس این نتیجه حاصل میشود که LLMها میتوانند ذاتاً محتوای خطرناک و/یا مغرضانه تولید کنند - یا فریب داده شوند - که اغلب حاوی کلمات ناخوشایند یا زبان نفرتانگیز است، حتی از درخواستهای بیضرر. علاوه بر این، مشخص شده است که آنها میتوانند زبانی را بیاموزند و تقویت کنند که برای بسیاری از برنامهها و وظایف پایین دستی ترجیح داده نمیشود یا حتی مضر است - که منجر به نیاز به استراتژیهای کاهش یا اصلاح میشود.
راههای زیادی برای دستیابی به تولید زبان قوی وجود دارد که منصفانه و همسو با ارزشها باشد. برخی از روشها از آموزش مجدد LLM با مجموعه دادههای پاکسازیشده استفاده میکنند، که پرهزینه است، زمان میبرد و ممکن است عملکرد LLM را تغییر دهد. دیگران از مدلهای پاداش خارجی رمزگشایی، مانند نمونهبرداری یا جستجوی پرتو استفاده میکنند، که زمان بیشتری برای اجرا میبرند و به حافظه بیشتری نیاز دارند. در مورد SASA، کو، دانیل و تیم تحقیقاتی IBM روشی را توسعه دادند که از ماهیت خود تنظیمی LLMها استفاده میکند و با استفاده از یک استراتژی مبتنی بر رمزگشایی در طول استنتاج LLM، به تدریج تولید را - یک نشانه در یک زمان - از خروجیهای ناخوشایند یا نامطلوب دور میکند و به سمت زبان بهتر هدایت میکند.
گروه تحقیقاتی با ساختن یک طبقهبندیکننده خطی که بر روی زیرفضای آموختهشده از جاسازی LLM عمل میکند، به این مهم دست یافت. هنگامی که LLMها آموزش داده میشوند، کلمات با معانی مشابه در فضای برداری نزدیک به هم قرار میگیرند و از کلمات متفاوت دورتر قرار میگیرند. محققان این فرضیه را مطرح کردند که جاسازی LLM بنابراین اطلاعات متنی را نیز ثبت میکند، که میتواند برای سمزدایی استفاده شود. محققان از مجموعههای دادهای استفاده کردند که شامل مجموعههایی از یک درخواست (نیمه اول یک جمله یا فکر)، یک پاسخ (تکمیل آن جمله) و حاشیهنویسی نسبت داده شده توسط انسان، مانند سمی یا غیر سمی، ترجیح داده شده یا غیر ترجیح داده شده، با برچسبهای پیوسته از 0-1، نشاندهنده افزایش سمیت بود. سپس یک طبقهبندیکننده بهینه بیز اعمال شد تا به طور مجازی خطی بین زیرفضاهای باینری در جاسازیهای جمله، که توسط مقادیر مثبت (فضای غیر سمی) و اعداد منفی (فضای سمی) نشان داده میشوند، بیاموزد و رسم کند.
سپس سیستم SASA با تغییر وزن احتمالات نمونهبرداری از جدیدترین نشانه بالقوه بر اساس مقدار آن و فاصله عبارت تولید شده تا طبقهبندیکننده، با هدف نزدیک ماندن به توزیع نمونهبرداری اصلی، کار میکند.
برای نشان دادن، اگر یک کاربر در حال تولید یک نشانه بالقوه شماره 12 در یک جمله باشد، LLM کل واژگان خود را برای یک کلمه منطقی بررسی میکند، بر اساس 11 کلمهای که قبل از آن آمدهاند، و با استفاده از top-k، top-p، تقریباً 10 نشانه را فیلتر و تولید میکند تا از بین آنها انتخاب کند. سپس SASA هر یک از آن نشانهها را در جمله تا حدی تکمیل شده برای مجاورت آن با طبقهبندیکننده ارزیابی میکند (یعنی مقدار نشانههای 1-11، به علاوه هر نشانه بالقوه 12). نشانههایی که جملاتی را در فضای مثبت تولید میکنند تشویق میشوند، در حالی که نشانههایی که در فضای منفی هستند جریمه میشوند. علاوه بر این، هر چه دورتر از طبقهبندیکننده باشد، تأثیر قویتر است.
کو میگوید: "هدف این است که فرآیند نمونهبرداری خود تنظیمی را با تغییر وزن احتمال نشانههای خوب تغییر دهیم. اگر نشانه بعدی با توجه به زمینه احتمالاً سمی باشد، در این صورت احتمال نمونهبرداری برای آنهایی که مستعد نشانههای سمی هستند را کاهش میدهیم." محققان تصمیم گرفتند این کار را به این روش انجام دهند "زیرا چیزهایی که میگوییم، چه خوشخیم باشد یا نه، مشروط به زمینه است."
مهار سمیت برای تطبیق ارزش
محققان روش خود را در برابر چندین مداخله پایه با سه LLM با اندازه فزاینده ارزیابی کردند. همه ترانسفورماتور و مبتنی بر خود تنظیمی بودند: GPT2-Large، Llama2-7b و Llama 3.1-8b-Instruct، با 762 میلیون، 7 میلیارد و 8 میلیارد پارامتر به ترتیب. برای هر درخواست، LLM وظیفه داشت 25 بار جمله/عبارت را تکمیل کند و PerspectiveAPI آنها را از 0 تا 1 امتیاز داد، به طوری که هر چیزی بالاتر از 0.5 سمی تلقی میشد. این تیم به دو معیار نگاه کردند: میانگین حداکثر امتیاز سمیت در 25 نسل برای همه درخواستها، و نرخ سمی، که احتمال تولید حداقل یک عبارت سمی در 25 نسل بود. کاهش روانی (و در نتیجه افزایش سردرگمی) نیز مورد تجزیه و تحلیل قرار گرفت. SASA آزمایش شد تا مجموعههای داده RealToxicityPrompts (RPT)، BOLD و AttaQ را که حاوی درخواستهای جمله انگلیسی که به طور طبیعی رخ میدهند، تکمیل کند.
محققان پیچیدگی آزمایشهای خود را برای سمزدایی توسط SASA افزایش دادند، و با درخواستهای غیر سمی از مجموعه داده RPT شروع کردند، و به دنبال تکمیل جملات مضر بودند. سپس، آن را به درخواستهای چالشبرانگیزتر از RPT که به احتمال زیاد نتایج نگرانکنندهای تولید میکنند، تشدید کردند، و همچنین SASA را در مدل تنظیم شده با دستورالعمل اعمال کردند تا ارزیابی کنند که آیا تکنیک آنها میتواند خروجیهای ناخواسته را بیشتر کاهش دهد یا خیر. آنها همچنین از معیار BOLD و AttaQ برای بررسی کاربرد عمومی SASA در سمزدایی استفاده کردند. با مجموعه داده BOLD، محققان بیشتر به دنبال سوگیری جنسیتی در تولیدات زبان بودند و سعی کردند به یک نرخ سمی متعادل بین جنسیتها دست یابند. در نهایت، این تیم به زمان اجرا، استفاده از حافظه و چگونگی ترکیب SASA با فیلتر کردن کلمات برای دستیابی به تولید زبان سالم و/یا مفید نگاه کرد.
کو میگوید: "اگر در مورد نحوه فکر کردن و واکنش نشان دادن انسانها در جهان فکر کنیم، چیزهای بدی را میبینیم، بنابراین این موضوع اجازه دادن به مدل زبان برای دیدن فقط چیزهای خوب نیست. این در مورد درک طیف کامل است - هم خوب و هم بد،" و انتخاب میکنیم که هنگام صحبت کردن و عمل کردن از ارزشهای خود حمایت کنیم."
به طور کلی، SASA به کاهش قابل توجه تولید زبان سمی دست یافت و با RAD، یک تکنیک مدل پاداش خارجی پیشرفته، همتراز بود. با این حال، به طور جهانی مشاهده شد که سمزدایی قویتر با کاهش روانی همراه است. قبل از مداخله، LLMها پاسخهای سمیتری برای درخواستهای برچسبگذاری شده زنانه نسبت به مردانه تولید میکردند. با این حال، SASA نیز توانست پاسخهای مضر را به طور قابل توجهی کاهش دهد و آنها را برابرتر کند. به طور مشابه، فیلتر کردن کلمات علاوه بر SASA، سطح سمیت را به طور محسوس کاهش داد، اما همچنین توانایی LLM را برای پاسخگویی منسجم مختل کرد.
کو میگوید: "یک جنبه عالی از این کار این است که یک مسئله بهینهسازی محدود و به خوبی تعریف شده است، به این معنی که تعادل بین تولید زبان باز که طبیعی به نظر میرسد و نیاز به کاهش زبان ناخواسته قابل دستیابی و تنظیم است."
علاوه بر این، کو میگوید، SASA میتواند در آینده برای چندین ویژگی به خوبی کار کند: "برای انسانها، ما ارزشهای انسانی متعددی داریم. ما نمیخواهیم چیزهای سمی بگوییم، اما همچنین میخواهیم صادق، مفید و وفادار باشیم … اگر قرار بود مدلی را برای همه این ارزشها تنظیم دقیق کنید، به منابع محاسباتی بیشتری و البته آموزش اضافی نیاز داشت." با توجه به روش سبک وزن SASA، میتواند به راحتی در این شرایط اعمال شود: "اگر میخواهید با چندین ارزش کار کنید، به سادگی موقعیت تولید را در چندین زیرفضا بررسی میکند. این فقط سربار حاشیهای را از نظر محاسبات و پارامترها اضافه میکند،" که منجر به زبان مثبتتر، منصفانهتر و همسو با اصول میشود.
این کار تا حدی توسط آزمایشگاه هوش مصنوعی MIT-IBM Watson و بنیاد ملی علوم پشتیبانی شد.