تله‌متری معنایی: درک نحوه تعامل کاربران با سیستم‌های هوش مصنوعی

ابزارهای هوش مصنوعی در طیف وسیعی از برنامه‌ها مفید واقع می‌شوند، از کمک به پیشبرد عصر جدید تحول کسب‌وکار گرفته تا کمک به هنرمندان در ساخت آهنگ. اما کدام برنامه‌ها بیشترین ارزش را برای کاربران ارائه می‌دهند؟ ما در یک سری پست‌های وبلاگ که پروژه تله‌متری معنایی در Microsoft Research را معرفی می‌کنند، به این سؤال خواهیم پرداخت. در این پست اولیه، یک رویکرد جدید علم داده را معرفی خواهیم کرد که از آن برای تجزیه و تحلیل موضوعات و پیچیدگی وظایف Copilot در استفاده از Bing استفاده خواهیم کرد.

تعاملات انسان و هوش مصنوعی می‌تواند تکراری و پیچیده باشد و نیاز به یک رویکرد جدید علم داده برای درک رفتار کاربر دارد تا موارد استفاده با ارزش فزاینده‌ای ایجاد و پشتیبانی شوند. چت زیر را تصور کنید:

در اینجا می‌بینیم که چت‌ها می‌توانند پیچیده باشند و موضوعات مختلفی مانند برنامه‌ریزی رویداد، تیم‌سازی و تدارکات را در بر گیرند. هوش مصنوعی مولد یک تغییر الگوی دوگانه را آغاز کرده‌است. اولاً، LLMها چیز جدیدی برای اندازه‌گیری به ما می‌دهند، یعنی نحوه تعامل مردم با سیستم‌های هوش مصنوعی. ثانیاً، آنها راه جدیدی برای اندازه‌گیری این تعاملات به ما می‌دهند، یعنی آنها به ما این توانایی را می‌دهند که این تعاملات را در مقیاس بزرگ درک کرده و بر اساس آن استنباط کنیم. پروژه تله‌متری معنایی، اقدامات جدیدی را برای طبقه‌بندی تعاملات انسان و هوش مصنوعی و درک رفتار کاربر ایجاد کرده‌است و به تلاش‌ها در توسعه رویکردهای جدید برای اندازه‌گیری هوش مصنوعی مولد در موارد استفاده مختلف کمک می‌کند.

تله‌متری معنایی یک بازنگری در تله‌متری سنتی است - که در آن داده‌ها برای درک سیستم‌ها جمع‌آوری می‌شوند - که برای تجزیه و تحلیل هوش مصنوعی مبتنی بر چت طراحی شده‌است. ما از یک روش نوآورانه علم داده استفاده می‌کنیم که از یک مدل زبان بزرگ (LLM) برای تولید برچسب‌های دسته‌بندی معنادار استفاده می‌کند و ما را قادر می‌سازد تا بینشی در مورد داده‌های گزارش چت به دست آوریم.

این فرآیند با توسعه مجموعه‌ای از طبقه‌بندی‌ها و تعاریف آغاز می‌شود. ما این طبقه‌بندی‌ها را با دستور دادن به یک LLM برای تولید یک خلاصه کوتاه از مکالمه و سپس به‌طور مکرر تحریک LLM برای تولید، به‌روزرسانی و بررسی برچسب‌های طبقه‌بندی در یک مجموعه دسته‌ای از خلاصه‌ها ایجاد می‌کنیم. این فرآیند در مقاله TnT-LLM: Text Mining at Scale with Large Language Models تشریح شده‌است. سپس یک LLM را با این طبقه‌بندی‌های تولید شده تحریک می‌کنیم تا داده‌های گزارش چت جدید بدون ساختار (و بدون برچسب) را برچسب‌گذاری کند.

با استفاده از این رویکرد، ما نحوه تعامل افراد با Copilot در Bing را تجزیه و تحلیل کرده‌ایم. در این وبلاگ، بینش‌هایی را در مورد نحوه استفاده افراد از Copilot در Bing بررسی می‌کنیم، از جمله اینکه چگونه با موتورهای جستجوی سنتی متفاوت است. توجه داشته باشید که تمام تجزیه و تحلیل‌ها بر روی تعاملات ناشناس Copilot انجام شده‌است که حاوی هیچ اطلاعات شخصی نیست.

موضوعات

برای به دست آوردن تصویری واضح از نحوه استفاده افراد از Copilot در Bing، ابتدا باید جلسات را به دسته‌های موضوعی طبقه‌بندی کنیم. برای انجام این کار، یک طبقه‌بندی‌کننده موضوع ایجاد کردیم. ما از رویکرد طبقه‌بندی LLM که در بالا توضیح داده شد برای برچسب‌گذاری موضوع اصلی (دامنه) برای کل محتوای چت استفاده کردیم. اگرچه یک چت واحد می‌تواند موضوعات مختلفی را پوشش دهد، اما برای این تجزیه و تحلیل، یک برچسب واحد برای موضوع اصلی مکالمه ایجاد کردیم. ما پنج میلیون چت ناشناس Copilot در Bing را در طول اوت و سپتامبر ۲۰۲۴ نمونه‌برداری کردیم و دریافتیم که در سطح جهانی، ۲۱٪ از کل چت‌ها در مورد فناوری بوده‌اند، با تمرکز بالایی از این چت‌ها در برنامه‌نویسی و اسکریپت‌نویسی و رایانه‌ها و الکترونیک.

با ورود به دسته فناوری، بسیاری از وظایف حرفه‌ای را در برنامه‌نویسی و اسکریپت‌نویسی پیدا می‌کنیم، جایی که کاربران درخواست کمک خاص برای مشکلاتی مانند رفع خطای نحوی پرس و جوی SQL می‌کنند. در رایانه‌ها و الکترونیک، مشاهده می‌کنیم که کاربران برای کارهایی مانند تنظیم روشنایی صفحه نمایش و رفع مشکلات اتصال به اینترنت کمک می‌گیرند. می‌توانیم این را با دومین موضوع رایج خود، سرگرمی، مقایسه کنیم، که در آن می‌بینیم کاربران به دنبال اطلاعات مربوط به فعالیت‌های شخصی مانند پیاده‌روی و شب‌های بازی هستند.

همچنین توجه داریم که موضوعات برتر بر اساس پلتفرم متفاوت است. شکل زیر محبوبیت موضوع را بر اساس استفاده از تلفن همراه و دسکتاپ نشان می‌دهد. کاربران دستگاه‌های تلفن همراه تمایل دارند از چت برای کارهای شخصی‌تری مانند کمک به کاشت باغ یا درک علائم پزشکی استفاده کنند، در حالی که کاربران دسکتاپ کارهای حرفه‌ای‌تری مانند بازبینی ایمیل انجام می‌دهند.

فراتر از تجزیه و تحلیل موضوعات، ما استفاده از Copilot در Bing را با جستجوی سنتی مقایسه کردیم. چت فراتر از جستجوی آنلاین سنتی است و کاربران را قادر می‌سازد تا اطلاعات را خلاصه، تولید، مقایسه و تجزیه و تحلیل کنند. تعاملات انسان و هوش مصنوعی مکالمه‌ای و پیچیده‌تر از جستجوی سنتی است (شکل ۶).

یکی از تمایزات اصلی بین جستجو و چت، توانایی پرسیدن سؤالات پیچیده‌تر است، اما چگونه می‌توانیم این را اندازه‌گیری کنیم؟ ما پیچیدگی را به عنوان مقیاسی در نظر می‌گیریم که از درخواست ساده از چت برای جستجوی اطلاعات تا ارزیابی چندین ایده متغیر است. هدف ما درک دشواری یک کار در صورت انجام توسط یک انسان بدون کمک هوش مصنوعی است. برای دستیابی به این هدف، طبقه‌بندی‌کننده پیچیدگی وظیفه را توسعه دادیم، که دشواری وظیفه را با استفاده از طبقه‌بندی اهداف یادگیری اندرسون و کراتوهل ارزیابی می‌کند. برای تجزیه و تحلیل خود، اهداف یادگیری را در دو دسته گروه‌بندی کرده‌ایم: پیچیدگی کم و پیچیدگی زیاد. هر وظیفه‌ای که پیچیده‌تر از جستجوی اطلاعات باشد، به عنوان پیچیدگی زیاد طبقه‌بندی می‌شود. توجه داشته باشید که طبقه‌بندی این با استفاده از تکنیک‌های سنتی علم داده بسیار چالش‌برانگیز خواهد بود.

در مقایسه وظایف با پیچیدگی کم در مقابل پیچیدگی زیاد، بیشتر تعاملات چت به عنوان پیچیدگی زیاد (۷۸.۹٪) طبقه‌بندی شده‌اند، به این معنی که آنها پیچیده‌تر از جستجوی اطلاعات بودند. برنامه‌نویسی و اسکریپت‌نویسی، بازاریابی و فروش، و نوشتن خلاقانه و حرفه‌ای موضوعاتی هستند که در آنها کاربران درگیر وظایف با پیچیدگی بالاتر (شکل ۷) مانند یادگیری یک مهارت، رفع مشکل یا نوشتن مقاله می‌شوند.

مسافرت و گردشگری و تاریخ و فرهنگ کمترین امتیاز را در پیچیدگی کسب کردند، و کاربران به دنبال اطلاعاتی مانند زمان پرواز و آخرین به‌روزرسانی‌های اخبار بودند.

چه زمانی باید از چت به جای جستجو استفاده کرد؟ یک مطالعه تحقیقاتی مایکروسافت در سال ۲۰۲۴: استفاده از موتورهای جستجوی مولد برای کار دانش و وظایف پیچیده، نشان می‌دهد که مردم در وظایف فنی و پیچیده مانند توسعه وب و تجزیه و تحلیل داده‌ها ارزش می‌بینند. جستجوی Bing حاوی پرس و جوهای بیشتری با پیچیدگی کمتر بود که بر زمینه‌های غیرحرفه‌ای مانند بازی و سرگرمی، مسافرت و گردشگری، و مد و زیبایی متمرکز بود، در حالی که چت توزیع بیشتری از وظایف فنی پیچیده داشت (شکل ۸).

نتیجه‌گیری

LLMها عصر جدیدی از تعامل انسان و هوش مصنوعی با کیفیت بالا را امکان‌پذیر کرده‌اند، و با آن، توانایی تجزیه و تحلیل همان تعاملات با دقت بالا، در مقیاس بزرگ و تقریباً در زمان واقعی. اکنون می‌توانیم از داده‌های پیچیده‌ای که با روش‌های سنتی تطبیق الگوهای علم داده امکان‌پذیر نیست، بینش عملی به دست آوریم. طبقه‌بندی‌های تولید شده توسط LLM، تحقیقات را به سمت مسیرهای جدیدی سوق می‌دهند که در نهایت تجربه و رضایت کاربر را هنگام استفاده از چت و سایر ابزارهای تعامل کاربر و هوش مصنوعی بهبود می‌بخشد.

این تجزیه و تحلیل نشان می‌دهد که Copilot در Bing کاربران را قادر می‌سازد تا کارهای پیچیده‌تری را انجام دهند، به ویژه در زمینه‌هایی مانند فناوری. در پست بعدی خود، بررسی خواهیم کرد که چگونه Copilot در Bing از کار دانش حرفه‌ای پشتیبانی می‌کند و چگونه می‌توانیم از این اقدامات به عنوان شاخص‌هایی برای حفظ و مشارکت استفاده کنیم.


پاورقی: این تحقیق در زمانی انجام شد که ویژگی Copilot در Bing به عنوان بخشی از سرویس Bing در دسترس بود. از اکتبر ۲۰۲۴، Copilot در Bing به نفع سرویس مستقل Microsoft Copilot منسوخ شده‌است.

منابع:

  1. Krathwohl, D. R. (2002). A Revision of Bloom’s Taxonomy: An Overview.?Theory Into Practice,?41(4), 212–218. https://doi.org/10.1207/s15430421tip4104_2