یاسمین بودیاف و LOTI / پردازش داده / مجوز CC-BY 4.0
یاسمین بودیاف و LOTI / پردازش داده / مجوز CC-BY 4.0

خلاصه سخنرانی‌های دعوت‌شده #AAAI2025: اقتصاد کار و استدلال در مورد اطلاعات فضایی

تصویری از سخنرانی سوزان که برخی از مقالاتی که در طول جلسه عمومی پوشش داد را نشان می‌دهد.
تصویری از سخنرانی سوزان که برخی از مقالاتی که در طول جلسه عمومی پوشش داد را نشان می‌دهد.

پیش‌بینی تغییرات شغلی و تخمین نابرابری دستمزد با استفاده از مدل‌های بنیادین

سوزان آتِی

سوزان در تقاطع علوم کامپیوتر و اقتصاد فعالیت می‌کند. در گذشته، او در مورد مسائلی مربوط به طراحی مکانیزم، حراج‌ها، قیمت‌گذاری و استنباط علّی تحقیق کرده است، اما اخیراً توجه خود را به مدل‌سازی تغییرات شغلی کارگران با استفاده از مدل‌های ترانسفورمر معطوف کرده است. سوزان در سخنرانی خود، تحقیقات موجود در چند مقاله اخیر خود را که موضوعاتی مانند شکاف دستمزد جنسیتی و پیش‌بینی اقتصادی داده‌های توالی کار را پوشش می‌دهند، شرح داد.

اقتصاد کار یک رشته بسیار تجربی است که از داده‌ها به همراه مدل‌ها برای پاسخ دادن به سوالات استفاده می‌کند. برخی از سوالات رایج که افراد برای دهه‌ها روی آن کار کرده‌اند شامل شکاف دستمزد (بر اساس یک محور خاص، مانند جنسیت، نژاد، سطح تحصیلات) مشروط به سابقه شغلی، و اثرات برنامه‌های آموزش شغلی بر بهره‌وری است. سوزان خاطرنشان کرد که روش معمول برای پاسخ دادن به این سوالات در گذشته رگرسیون خطی بوده است، بنابراین چنین مسائلی برای تحقیق با یک روش جدید آماده بودند. یک سوال انگیزه‌بخش برای تحقیق او این است که آیا مدل‌های بنیادین می‌توانند اقتصاد تجربی را بهبود بخشند یا خیر. جنبه‌های دیگر تحقیق بر تأثیر هم تنظیم دقیق این مدل‌ها و هم بر تنظیم آن‌ها به‌طور خاص برای اهداف اقتصادی متمرکز است.

تصویری از سخنرانی سوزان که نمای کلی از مدل LABOR-LLM را ارائه می‌دهد.
تصویری از سخنرانی سوزان که نمای کلی از مدل LABOR-LLM را ارائه می‌دهد.

یکی از پروژه‌هایی که سوزان در مورد آن صحبت کرد، پیش‌بینی شغل بعدی یک کارگر بود. در سال 2024، سوزان و همکارانش مقاله‌ای با عنوان CAREER, A Foundation Model for Labor Sequence Data منتشر کردند، که در آن یک مدل پیش‌بینی‌کننده مبتنی بر ترانسفورمر را معرفی کردند که شغل بعدی یک کارگر را به عنوان تابعی از سابقه شغلی پیش‌بینی می‌کند. این یک مدل سفارشی است که بر روی داده‌های رزومه (24 میلیون توالی شغلی) آموزش داده شده و سپس بر روی مجموعه‌های داده کوچک‌تر و انتخاب‌شده تنظیم دقیق می‌شود.

گام بعدی در این تحقیق، جایگزینی مدل مبتنی بر رزومه با یک مدل زبانی بزرگ بود. این مدل جدید، با نام LABOR-LLM، در این مقاله ارائه شد: LABOR-LLM: Language-Based Occupational Representations with Large Language Models. LABOR-LLM بر روی سه مجموعه داده (که می‌توانید در تصویر زیر ببینید) آموزش داده شد و از مدل زبانی LLAMA استفاده کرد. این تیم سه روش را آزمایش کرد: 1) اعمال یک تابع جاسازی‌شده مشتق‌شده از یک LLM برای تولید بردارهای نهفته، 2) استفاده از LLAMA به‌طور آماده برای پیش‌بینی متنی که باید یک شغل باشد، 3) تنظیم دقیق LLM برای پیش‌بینی متنی که باید یک شغل باشد. در حالی که نسخه آماده به‌طور خاص موفقیت‌آمیز نبود، سوزان فاش کرد که روش تنظیم دقیق در واقع در پیش‌بینی مشاغل بعدی دقیق‌تر از مدل سفارشی مبتنی بر رزومه (CAREER) بود که تیم زمان زیادی را در آن سرمایه‌گذاری کرده بود. با این حال، این بدان معناست که چنین رویکردهایی، مبتنی بر تنظیم دقیق LLMهای در دسترس عموم، می‌تواند در سایر تنظیمات نیز مفید باشد.

تصویری از سخنرانی تونی که پاسخ LLM به یک سوال استدلال فضایی را نشان می‌دهد.
تصویری از سخنرانی تونی که پاسخ LLM به یک سوال استدلال فضایی را نشان می‌دهد.

آیا مدل‌های زبانی بزرگ می‌توانند در مورد اطلاعات فضایی استدلال کنند؟

آنتونی کوهن

تونی برای بخش زیادی از دوران حرفه‌ای خود در مورد اطلاعات فضایی تحقیق کرده است و با ظهور مدل‌های زبانی بزرگ (LLMها)، توجه خود را به بررسی میزان توانایی این مدل‌ها در استدلال در مورد چنین اطلاعاتی معطوف کرده است. یک حوزه خاص مورد تمرکز در تحقیقات تونی، استدلال فضایی کیفی بوده است. این در زبان طبیعی فراگیر است و چیزی است که ما اغلب در گفتار روزمره استفاده می‌کنیم، به عنوان مثال "آنها روی صندلی نشسته‌اند"، "شخص در اتاق است" و "من روی صحنه ایستاده‌ام".

تونی در طول سخنرانی خود، که با توجه به انتشار GPT-4.5 درست یک روز قبل، بسیار به موقع بود، چند نمونه از آزمایش طیف وسیعی از LLMها با سناریوهای "عقل سلیم" را نشان داد. می‌توانید یک مثال را در تصویر زیر ببینید. در این مورد، پرسش این است: "کتاب نتوانست در قفسه کتاب به حالت ایستاده قرار گیرد زیرا خیلی کوچک بود. "آن" به چه چیزی اشاره دارد؟" تونی قسمت‌هایی از استدلالی که توسط LLM (در این مورد GPT-4) ارائه شده است را که نادرست هستند برجسته کرد. در مثال‌های بیشتر، او نشان داد که موارد بسیاری وجود دارد که پاسخ‌های ارائه شده توسط مدل‌ها با عقل سلیم سازگار نیستند، و تأکید کرد که هنوز پیشرفت‌های زیادی باید در LLMها در مورد این نوع مسئله ایجاد شود.

تصویری از سخنرانی تونی که نادرستی‌ها در مدل‌های مولد چندوجهی را نشان می‌دهد.
تصویری از سخنرانی تونی که نادرستی‌ها در مدل‌های مولد چندوجهی را نشان می‌دهد.

مثال دیگری که تونی ارائه داد مربوط به استدلال در مورد جهات اصلی بود. این کار در سال 2024 منتشر شد و عنوان آن Evaluating the Ability of Large Language Models to Reason About Cardinal Directions بود. تونی و همکارانش سناریوهای مختلفی را آزمایش کردند که در آن LLM باید جهت اصلی صحیح را تشخیص دهد. در آزمون‌های ساده‌تر، با سوالاتی مانند "شما در حال تماشای غروب خورشید هستید. به کدام جهت روبرو هستید؟"، دقت برای همه LLMهای آزمایش شده بیشتر از 80٪ بود. با این حال، برای سناریوهای پیچیده‌تر، مانند "شما در حال پیاده‌روی به سمت جنوب در امتداد ساحل شرقی یک دریاچه هستید و سپس برمی‌گردید تا به جهتی که از آن آمده‌اید بروید، دریاچه در کدام جهت است؟"، عملکرد بسیار بدتر بود، با دقت برای LLMهای مختلف از 25 تا 60٪ متغیر بود. تونی نتیجه گرفت که LLMها در سناریوهایی که نیاز به یادآوری واقعی دارند تا استدلال فضایی، عملکرد بهتری دارند.

تونی برای پایان دادن به سخنرانی خود، به آزمایش مدل چندوجهی اشاره کرد، که در آن از یک مدل مولد می‌خواهید تصاویر ایجاد کند. او توضیح داد که، اگرچه چنین مدل‌هایی می‌توانند تصاویر بسیار پر زرق و برقی تولید کنند، اما زمانی که از آنها خروجی‌هایی مانند نقشه‌های دقیق، روابط فضایی در نمودارها و تولید تصویر از پیکربندی‌های فضایی می‌خواهید، عملکرد خوبی ندارند. می‌توانید نمونه‌هایی از چنین نادرستی‌هایی را در زیر در یکی از اسلایدهای سخنرانی تونی ببینید. نقشه‌ها شامل خطاهای متعددی هستند، مانند برچسب زدن فرانسه به عنوان اسپانیا، و قرار دادن خلیج بیسکای در دریای شمال.

تونی در پایان گفت که استدلال فضایی برای درک عقل سلیم از جهان اساسی است و این سوال را مطرح کرد که آیا این امر می‌تواند بدون تجسم و استفاده از استدلال نمادین به دست آید.