تصویر اصلی وبلاگ با عنوان «مرکز توجه تحقیقات: 23 آوریل 2025»
تصویر اصلی وبلاگ با عنوان «مرکز توجه تحقیقات: 23 آوریل 2025»

مرکز توجه تحقیقات: هفته منتهی به 21 آوریل 2025 - وبلاگ تحقیقاتی مایکروسافت

وبلاگ تحقیقاتی مایکروسافت

در این شماره:

پیش‌نمایشی از ارائه‌ها و مقالات ما در کنفرانس تعامل انسان و کامپیوتر (CHI) 2025 و کنفرانس بین‌المللی یادگیری بازنمایی (ICLR) 2025 را مشاهده کنید. ما همچنین تحقیقات جدیدی را در مورد استدلال علّی و مدل‌های زبانی بزرگ (LLMs) ارائه می‌دهیم؛ قابلیت‌های گریز از محدودیت (Jailbreak) مدل‌های زبانی بزرگ را برای تقویت ایمنی و استحکام افزایش می‌دهیم؛ درک می‌کنیم که افراد چگونه با استفاده از هوش مصنوعی در مقایسه با هوش مصنوعی به تنهایی عمل می‌کنند، و Distill-MOS، یک مدل فشرده و کارآمد که ارزیابی کیفیت گفتار پیشرفته‌ای را ارائه می‌دهد. همچنین، یک بازپخش از بحث پادکستی در مورد نوآوری در مراقبت‌های بهداشتی روستایی با حضور معاون ارشد بهداشت مایکروسافت، جیم واینستین را خواهید یافت.

کنفرانس

تحقیقات مایکروسافت مفتخر است که حامی کنفرانس تعامل انسان و کامپیوتر (CHI) 2025 ACM در مورد عوامل انسانی در سیستم‌های محاسباتی است. CHI محققان و متخصصان را از سراسر جهان و از فرهنگ‌ها، زمینه‌ها و موقعیت‌های متنوع گرد هم می‌آورد، که هدف اصلی مشترکی دارند و آن ساختن دنیایی بهتر با فناوری‌های دیجیتال تعاملی است.

محققان ما میزبان بیش از 30 جلسه و کارگاه آموزشی در کنفرانس امسال در یوکوهاما، ژاپن خواهند بود. ما از شما دعوت می‌کنیم تا پیش‌نمایش ارائه‌ها و دو دوجین مقاله پذیرفته شده ما را مشاهده کنید.

کنفرانس

مایکروسافت مفتخر است که حامی سیزدهمین کنفرانس بین‌المللی یادگیری بازنمایی (ICLR) است. این گردهمایی به پیشرفت یادگیری بازنمایی، که شاخه‌ای از هوش مصنوعی است، اختصاص دارد. ما خوشحالیم که اعلام کنیم مایکروسافت بیش از 30 مقاله پذیرفته شده در کنفرانس امسال دارد، که از شما دعوت می‌کنیم پیش‌نمایش آن را مشاهده کنید.

ICLR در سطح جهانی به دلیل ارائه و انتشار تحقیقات پیشرفته در مورد تمام جنبه‌های یادگیری عمیق مورد استفاده در زمینه‌های هوش مصنوعی، آمار و علم داده، و همچنین حوزه‌های کاربردی مهم مانند بینایی ماشین، زیست‌شناسی محاسباتی، تشخیص گفتار، درک متن، بازی و رباتیک مشهور است.

نمودار فرآیند انجام وظایف علّی دنیای واقعی. این نمودار نشان می‌دهد که چگونه افراد بین استدلال علّی منطقی و مبتنی بر کوواریانس برای فرمول‌بندی سؤالات فرعی، تکرار و تأیید فرضیات و مفاهیم خود تناوب ایجاد می‌کنند. تناوب استراتژیک بین این دو نوع علیت به عنوان یک رویکرد کلیدی در پرداختن به وظایف علّی پیچیده برجسته شده است.
نمودار فرآیند انجام وظایف علّی دنیای واقعی. این نمودار نشان می‌دهد که چگونه افراد بین استدلال علّی منطقی و مبتنی بر کوواریانس برای فرمول‌بندی سؤالات فرعی، تکرار و تأیید فرضیات و مفاهیم خود تناوب ایجاد می‌کنند. تناوب استراتژیک بین این دو نوع علیت به عنوان یک رویکرد کلیدی در پرداختن به وظایف علّی پیچیده برجسته شده است.

تحقیقات جدید

مدل‌های زبانی بزرگ (LLMs) چه نوع استدلال‌های علّی را می‌توانند تولید کنند، این استدلال‌ها چقدر معتبر هستند و این تولید از چه گردش‌های کاری استدلال علّی می‌تواند پشتیبانی یا آن را خودکار کند؟ این مقاله، که برای ICLR 2025 انتخاب شده است، این بحث را روشن می‌کند. این مقاله درک ما از مدل‌های زبانی بزرگ و پیامدهای علّی آن‌ها را پیش می‌برد و چارچوبی را برای تحقیقات آینده در محل تلاقی مدل‌های زبانی بزرگ و علیت پیشنهاد می‌کند.

این بحث پیامدهای مهمی برای استفاده از مدل‌های زبانی بزرگ در حوزه‌هایی با تأثیر اجتماعی مانند پزشکی، علم، حقوق و سیاست دارد. مدل‌های زبانی بزرگ با تسخیر حس مشترک و دانش دامنه در مورد مکانیسم‌های علّی و پشتیبانی از ترجمه بین زبان طبیعی و روش‌های رسمی، افق‌های جدیدی را برای پیشبرد تحقیق، عمل و پذیرش علیت باز می‌کنند.

تصویری دیجیتالی از شخصی با حالت متفکرانه که چانه خود را روی دستش گذاشته است. بالای سر شخص باز است و یک پرنده سفید در داخل ایستاده است. مرغ دریایی یک کرم را در منقار خود نگه داشته و به بچه پرنده‌ها غذا می‌دهد. پس زمینه آبی است و عبارت "ابزارهایی برای فکر کردن" با حروف سفید روی تصویر نوشته شده است.
تصویری دیجیتالی از شخصی با حالت متفکرانه که چانه خود را روی دستش گذاشته است. بالای سر شخص باز است و یک پرنده سفید در داخل ایستاده است. مرغ دریایی یک کرم را در منقار خود نگه داشته و به بچه پرنده‌ها غذا می‌دهد. پس زمینه آبی است و عبارت "ابزارهایی برای فکر کردن" با حروف سفید روی تصویر نوشته شده است.

تحقیقات جدید

آیا ابزارهای هوش مصنوعی می‌توانند کاری بیش از ساده‌سازی گردش‌های کاری انجام دهند—آیا واقعاً می‌توانند به ما کمک کنند بهتر فکر کنیم؟ این سوال محرک پشت ابتکار ابزارهایی برای فکر کردن تحقیقات مایکروسافت است. در کنفرانس CHI امسال، این گروه چهار مقاله تحقیقاتی جدید ارائه می‌کند و میزبان مشترک یک کارگاه آموزشی است که عمیقاً به این تقاطع هوش مصنوعی و شناخت انسان می‌پردازد.

این تیم یک مروری بر آخرین تحقیقات خود ارائه می‌دهد، که با مطالعه‌ای در مورد اینکه چگونه هوش مصنوعی روش فکر کردن و کار کردن افراد را تغییر می‌دهد، شروع می‌شود. آن‌ها سه سیستم نمونه اولیه را معرفی می‌کنند که برای پشتیبانی از وظایف شناختی مختلف طراحی شده‌اند. در نهایت، از طریق کارگاه آموزشی ابزارهایی برای فکر کردن، آن‌ها از جامعه CHI دعوت می‌کنند تا به تعریف نقش هوش مصنوعی در حمایت از تفکر انسان کمک کنند.

نمای کلی ساخت ADV-LLM. این فرآیند با پالایش هدف و مقداردهی اولیه یک پسوند شروع می‌شود. سپس ADV-LLM به طور مکرر داده‌هایی را برای تنظیم خودکار تولید می‌کند.
نمای کلی ساخت ADV-LLM. این فرآیند با پالایش هدف و مقداردهی اولیه یک پسوند شروع می‌شود. سپس ADV-LLM به طور مکرر داده‌هایی را برای تنظیم خودکار تولید می‌کند.

تحقیقات جدید

تحقیقات اخیر نشان می‌دهد که مدل‌های زبانی بزرگ در برابر حملات گریز از محدودیت خودکار آسیب‌پذیر هستند، جایی که پسوندهای متخاصم تولید شده توسط الگوریتم، تراز ایمنی را دور می‌زنند و پاسخ‌های مضر را فعال می‌کنند. این مقاله ADV-LLM را معرفی می‌کند، یک فرآیند تنظیم خودکار تکراری برای ساخت مدل‌های زبانی بزرگ متخاصم با قابلیت‌های پیشرفته گریز از محدودیت—که می‌تواند بینش‌های ارزشمندی را برای تحقیقات تراز ایمنی آینده ارائه دهد.

ADV-LLM از مکانیسم‌های قبلی از نظر محاسباتی ارزان‌تر است و به نرخ موفقیت حمله (ASR) بالاتری دست می‌یابد، به خصوص در برابر مدل‌های به خوبی تراز شده مانند Llama2 و Llama3.

این مدل به نزدیک به 100٪ ASR در مدل‌های زبانی بزرگ متن‌باز مختلف می‌رسد و انتقال‌پذیری قوی به مدل‌های منبع بسته را نشان می‌دهد—دستیابی به 99٪ ASR در GPT-3.5 و 49٪ ASR در GPT-4—با وجود اینکه فقط روی Llama3 بهینه شده است. ADV-LLM فراتر از بهبود عملکرد گریز از محدودیت، با فعال کردن تولید در مقیاس بزرگ مجموعه‌های داده مرتبط با ایمنی، بینش‌های ارزشمندی را برای تحقیقات تراز آینده ارائه می‌دهد.

نمودارها نتایج یک مطالعه تجربی را نشان می‌دهند که در آن شرکت‌کنندگان تعدادی از وظایف کاری را انجام دادند، یکی با یک مدل زبانی بزرگ و دیگری بدون کمک هوش مصنوعی. این نمودار نشان می‌دهد که هوش مصنوعی برای تسهیل یکپارچه‌سازی اطلاعات، تولید مواد و همچنین برای سازمان‌دهی و جهت‌دهی فرایندهای کار مفید است.
نمودارها نتایج یک مطالعه تجربی را نشان می‌دهند که در آن شرکت‌کنندگان تعدادی از وظایف کاری را انجام دادند، یکی با یک مدل زبانی بزرگ و دیگری بدون کمک هوش مصنوعی. این نمودار نشان می‌دهد که هوش مصنوعی برای تسهیل یکپارچه‌سازی اطلاعات، تولید مواد و همچنین برای سازمان‌دهی و جهت‌دهی فرایندهای کار مفید است.
نمودارها نتایج یک مطالعه تجربی را نشان می‌دهند که در آن شرکت‌کنندگان تعدادی از وظایف کاری را انجام دادند، یکی با یک مدل زبانی بزرگ و دیگری بدون کمک هوش مصنوعی. این نمودار نشان می‌دهد که هوش مصنوعی برای تسهیل یکپارچه‌سازی اطلاعات، تولید مواد و همچنین برای سازمان‌دهی و جهت‌دهی فرایندهای کار مفید است.
نمودارها نتایج یک مطالعه تجربی را نشان می‌دهند که در آن شرکت‌کنندگان تعدادی از وظایف کاری را انجام دادند، یکی با یک مدل زبانی بزرگ و دیگری بدون کمک هوش مصنوعی. این نمودار نشان می‌دهد که هوش مصنوعی برای تسهیل یکپارچه‌سازی اطلاعات، تولید مواد و همچنین برای سازمان‌دهی و جهت‌دهی فرایندهای کار مفید است.

مقالات در CHI

این مقاله گزارش‌هایی از یک مطالعه تجربی و ابزار ارزیابی ChatBench را در رابطه با این موضوع نشان می‌دهد که مردم چگونه با استفاده از هوش مصنوعی در مقابل هوش مصنوعی به تنهایی عمل می‌کنند. نتایج نشان می‌دهند که هوش مصنوعی ابزار مفیدی است برای تسهیل یکپارچه‌سازی اطلاعات و تولید مواد. همچنین به سازماندهی و هدایت مراحل یک فرایند کاری کمک می‌کند. در مجموع، این مقاله بینش‌های منحصربه‌فردی را در مورد این موضوع ارائه می‌دهد که ابزارهای مجهز به هوش مصنوعی چگونه می‌توانند کارهای آگاهانه را برای کارمندان دانش پشتیبانی و در واقع تقویت کنند. ChatBench به‌عنوان یک استاندارد قوی عمل می‌کند که می‌توان از آن برای توسعه ابزارهای مجهز به هوش مصنوعی قوی‌تر استفاده کرد.

فشرده و کارآمد

ارزیابی کیفیت گفتار جزء جدایی‌ناپذیر تحقیق و توسعه مدل‌های گفتار است. با این حال، به‌دست آوردن ارزیابی‌های انسانی بی‌طرفانه زمان‌بر و پرهزینه است. این مقاله مدل فشرده و کارآمدی را ارائه می‌کند—Distill-MOS—که از مجموعه داده‌های بزرگ در دسترس عموم یاد می‌گیرد. این یک امتیاز میانگین نظر (MOS) را پیش‌بینی می‌کند که به‌طور قابل اعتمادی با قضاوت‌های انسانی مطابقت دارد.

Distill-MOS مدل‌های بزرگ را با دقت حفظ می‌کند و یک رویکرد مقرون به صرفه و قابل اعتماد برای تخمین کیفیت گفتار ارائه می‌دهد. Distill-MOS یک مدل مبتنی بر ترانسفورماتور سبک است که از مدل بزرگتر Q-BERT برای استخراج دانش استفاده می‌کند. Distill-MOS به عملکرد قوی دست می‌یابد و به اندازه مدل 96% و زمان استنتاج 99% کاهش می‌یابد.

پادکست

شما می‌توانید یک تکرار بحثی را از یک قسمت اخیر از این پادکست بشنوید که در آن متخصصان در مورد چالش‌ها و فرصت‌های موجود در زمینه ارائه خدمات بهداشتی در جوامع روستایی بحث می‌کنند. از جمله مهمانان برجسته این قسمت، جیم واینستین، معاون ارشد بهداشت مایکروسافت، و همچنین کارشناسان دیگر از این صنعت بودند. آنها به بحثی عمیق در مورد برخی از ابتکارات و فناوری‌های جدیدی پرداختند که امیدواری‌هایی را برای متحول کردن خدمات درمانی در مناطق دور افتاده در سرتاسر آمریکا ایجاد کرده‌اند.