ابزارهای هوش مصنوعی در طیف وسیعی از برنامهها مفید واقع میشوند، از کمک به پیشبرد عصر جدید تحول کسبوکار گرفته تا کمک به هنرمندان در ساخت آهنگ. اما کدام برنامهها بیشترین ارزش را برای کاربران ارائه میدهند؟ ما در یک سری پستهای وبلاگ که پروژه تلهمتری معنایی در Microsoft Research را معرفی میکنند، به این سؤال خواهیم پرداخت. در این پست اولیه، یک رویکرد جدید علم داده را معرفی خواهیم کرد که از آن برای تجزیه و تحلیل موضوعات و پیچیدگی وظایف Copilot در استفاده از Bing استفاده خواهیم کرد.
تعاملات انسان و هوش مصنوعی میتواند تکراری و پیچیده باشد و نیاز به یک رویکرد جدید علم داده برای درک رفتار کاربر دارد تا موارد استفاده با ارزش فزایندهای ایجاد و پشتیبانی شوند. چت زیر را تصور کنید:
در اینجا میبینیم که چتها میتوانند پیچیده باشند و موضوعات مختلفی مانند برنامهریزی رویداد، تیمسازی و تدارکات را در بر گیرند. هوش مصنوعی مولد یک تغییر الگوی دوگانه را آغاز کردهاست. اولاً، LLMها چیز جدیدی برای اندازهگیری به ما میدهند، یعنی نحوه تعامل مردم با سیستمهای هوش مصنوعی. ثانیاً، آنها راه جدیدی برای اندازهگیری این تعاملات به ما میدهند، یعنی آنها به ما این توانایی را میدهند که این تعاملات را در مقیاس بزرگ درک کرده و بر اساس آن استنباط کنیم. پروژه تلهمتری معنایی، اقدامات جدیدی را برای طبقهبندی تعاملات انسان و هوش مصنوعی و درک رفتار کاربر ایجاد کردهاست و به تلاشها در توسعه رویکردهای جدید برای اندازهگیری هوش مصنوعی مولد در موارد استفاده مختلف کمک میکند.
تلهمتری معنایی یک بازنگری در تلهمتری سنتی است - که در آن دادهها برای درک سیستمها جمعآوری میشوند - که برای تجزیه و تحلیل هوش مصنوعی مبتنی بر چت طراحی شدهاست. ما از یک روش نوآورانه علم داده استفاده میکنیم که از یک مدل زبان بزرگ (LLM) برای تولید برچسبهای دستهبندی معنادار استفاده میکند و ما را قادر میسازد تا بینشی در مورد دادههای گزارش چت به دست آوریم.
این فرآیند با توسعه مجموعهای از طبقهبندیها و تعاریف آغاز میشود. ما این طبقهبندیها را با دستور دادن به یک LLM برای تولید یک خلاصه کوتاه از مکالمه و سپس بهطور مکرر تحریک LLM برای تولید، بهروزرسانی و بررسی برچسبهای طبقهبندی در یک مجموعه دستهای از خلاصهها ایجاد میکنیم. این فرآیند در مقاله TnT-LLM: Text Mining at Scale with Large Language Models تشریح شدهاست. سپس یک LLM را با این طبقهبندیهای تولید شده تحریک میکنیم تا دادههای گزارش چت جدید بدون ساختار (و بدون برچسب) را برچسبگذاری کند.
با استفاده از این رویکرد، ما نحوه تعامل افراد با Copilot در Bing را تجزیه و تحلیل کردهایم. در این وبلاگ، بینشهایی را در مورد نحوه استفاده افراد از Copilot در Bing بررسی میکنیم، از جمله اینکه چگونه با موتورهای جستجوی سنتی متفاوت است. توجه داشته باشید که تمام تجزیه و تحلیلها بر روی تعاملات ناشناس Copilot انجام شدهاست که حاوی هیچ اطلاعات شخصی نیست.
موضوعات
برای به دست آوردن تصویری واضح از نحوه استفاده افراد از Copilot در Bing، ابتدا باید جلسات را به دستههای موضوعی طبقهبندی کنیم. برای انجام این کار، یک طبقهبندیکننده موضوع ایجاد کردیم. ما از رویکرد طبقهبندی LLM که در بالا توضیح داده شد برای برچسبگذاری موضوع اصلی (دامنه) برای کل محتوای چت استفاده کردیم. اگرچه یک چت واحد میتواند موضوعات مختلفی را پوشش دهد، اما برای این تجزیه و تحلیل، یک برچسب واحد برای موضوع اصلی مکالمه ایجاد کردیم. ما پنج میلیون چت ناشناس Copilot در Bing را در طول اوت و سپتامبر ۲۰۲۴ نمونهبرداری کردیم و دریافتیم که در سطح جهانی، ۲۱٪ از کل چتها در مورد فناوری بودهاند، با تمرکز بالایی از این چتها در برنامهنویسی و اسکریپتنویسی و رایانهها و الکترونیک.
با ورود به دسته فناوری، بسیاری از وظایف حرفهای را در برنامهنویسی و اسکریپتنویسی پیدا میکنیم، جایی که کاربران درخواست کمک خاص برای مشکلاتی مانند رفع خطای نحوی پرس و جوی SQL میکنند. در رایانهها و الکترونیک، مشاهده میکنیم که کاربران برای کارهایی مانند تنظیم روشنایی صفحه نمایش و رفع مشکلات اتصال به اینترنت کمک میگیرند. میتوانیم این را با دومین موضوع رایج خود، سرگرمی، مقایسه کنیم، که در آن میبینیم کاربران به دنبال اطلاعات مربوط به فعالیتهای شخصی مانند پیادهروی و شبهای بازی هستند.
همچنین توجه داریم که موضوعات برتر بر اساس پلتفرم متفاوت است. شکل زیر محبوبیت موضوع را بر اساس استفاده از تلفن همراه و دسکتاپ نشان میدهد. کاربران دستگاههای تلفن همراه تمایل دارند از چت برای کارهای شخصیتری مانند کمک به کاشت باغ یا درک علائم پزشکی استفاده کنند، در حالی که کاربران دسکتاپ کارهای حرفهایتری مانند بازبینی ایمیل انجام میدهند.
فراتر از تجزیه و تحلیل موضوعات، ما استفاده از Copilot در Bing را با جستجوی سنتی مقایسه کردیم. چت فراتر از جستجوی آنلاین سنتی است و کاربران را قادر میسازد تا اطلاعات را خلاصه، تولید، مقایسه و تجزیه و تحلیل کنند. تعاملات انسان و هوش مصنوعی مکالمهای و پیچیدهتر از جستجوی سنتی است (شکل ۶).
یکی از تمایزات اصلی بین جستجو و چت، توانایی پرسیدن سؤالات پیچیدهتر است، اما چگونه میتوانیم این را اندازهگیری کنیم؟ ما پیچیدگی را به عنوان مقیاسی در نظر میگیریم که از درخواست ساده از چت برای جستجوی اطلاعات تا ارزیابی چندین ایده متغیر است. هدف ما درک دشواری یک کار در صورت انجام توسط یک انسان بدون کمک هوش مصنوعی است. برای دستیابی به این هدف، طبقهبندیکننده پیچیدگی وظیفه را توسعه دادیم، که دشواری وظیفه را با استفاده از طبقهبندی اهداف یادگیری اندرسون و کراتوهل ارزیابی میکند. برای تجزیه و تحلیل خود، اهداف یادگیری را در دو دسته گروهبندی کردهایم: پیچیدگی کم و پیچیدگی زیاد. هر وظیفهای که پیچیدهتر از جستجوی اطلاعات باشد، به عنوان پیچیدگی زیاد طبقهبندی میشود. توجه داشته باشید که طبقهبندی این با استفاده از تکنیکهای سنتی علم داده بسیار چالشبرانگیز خواهد بود.
در مقایسه وظایف با پیچیدگی کم در مقابل پیچیدگی زیاد، بیشتر تعاملات چت به عنوان پیچیدگی زیاد (۷۸.۹٪) طبقهبندی شدهاند، به این معنی که آنها پیچیدهتر از جستجوی اطلاعات بودند. برنامهنویسی و اسکریپتنویسی، بازاریابی و فروش، و نوشتن خلاقانه و حرفهای موضوعاتی هستند که در آنها کاربران درگیر وظایف با پیچیدگی بالاتر (شکل ۷) مانند یادگیری یک مهارت، رفع مشکل یا نوشتن مقاله میشوند.
مسافرت و گردشگری و تاریخ و فرهنگ کمترین امتیاز را در پیچیدگی کسب کردند، و کاربران به دنبال اطلاعاتی مانند زمان پرواز و آخرین بهروزرسانیهای اخبار بودند.
چه زمانی باید از چت به جای جستجو استفاده کرد؟ یک مطالعه تحقیقاتی مایکروسافت در سال ۲۰۲۴: استفاده از موتورهای جستجوی مولد برای کار دانش و وظایف پیچیده، نشان میدهد که مردم در وظایف فنی و پیچیده مانند توسعه وب و تجزیه و تحلیل دادهها ارزش میبینند. جستجوی Bing حاوی پرس و جوهای بیشتری با پیچیدگی کمتر بود که بر زمینههای غیرحرفهای مانند بازی و سرگرمی، مسافرت و گردشگری، و مد و زیبایی متمرکز بود، در حالی که چت توزیع بیشتری از وظایف فنی پیچیده داشت (شکل ۸).
نتیجهگیری
LLMها عصر جدیدی از تعامل انسان و هوش مصنوعی با کیفیت بالا را امکانپذیر کردهاند، و با آن، توانایی تجزیه و تحلیل همان تعاملات با دقت بالا، در مقیاس بزرگ و تقریباً در زمان واقعی. اکنون میتوانیم از دادههای پیچیدهای که با روشهای سنتی تطبیق الگوهای علم داده امکانپذیر نیست، بینش عملی به دست آوریم. طبقهبندیهای تولید شده توسط LLM، تحقیقات را به سمت مسیرهای جدیدی سوق میدهند که در نهایت تجربه و رضایت کاربر را هنگام استفاده از چت و سایر ابزارهای تعامل کاربر و هوش مصنوعی بهبود میبخشد.
این تجزیه و تحلیل نشان میدهد که Copilot در Bing کاربران را قادر میسازد تا کارهای پیچیدهتری را انجام دهند، به ویژه در زمینههایی مانند فناوری. در پست بعدی خود، بررسی خواهیم کرد که چگونه Copilot در Bing از کار دانش حرفهای پشتیبانی میکند و چگونه میتوانیم از این اقدامات به عنوان شاخصهایی برای حفظ و مشارکت استفاده کنیم.
پاورقی: این تحقیق در زمانی انجام شد که ویژگی Copilot در Bing به عنوان بخشی از سرویس Bing در دسترس بود. از اکتبر ۲۰۲۴، Copilot در Bing به نفع سرویس مستقل Microsoft Copilot منسوخ شدهاست.
منابع:
- Krathwohl, D. R. (2002). A Revision of Bloom’s Taxonomy: An Overview.?Theory Into Practice,?41(4), 212–218. https://doi.org/10.1207/s15430421tip4104_2