ابزار "تفکر" جدید Anthropic به کلود اجازه می‌دهد برای حل مسائل پیچیده یادداشت بردارد

نمودار خطی: مقایسه چهار پیکربندی کلود (Think+Prompt، Extended thinking، Think، Baseline) برای وظایف خطوط هوایی در k=1-5. و جدول داده: مقادیر عملکرد دقیق چهار پیکربندی کلود برای k=1 تا k=5 برای وظایف خطوط هوایی.
آزمایش‌ها نشان می‌دهد که روش "Think + Prompt" نتایج بهتری را در وظایف خطوط هوایی در مقایسه با عملکرد پایه ارائه می‌دهد. در حالی که روش‌های دیگر با افزایش پیچیدگی (k=1 تا k=5) با مشکل مواجه می‌شوند، این رویکرد مزیت خود را حفظ می‌کند. | تصویر: Anthropic

Anthropic راهی ساده برای بهبود توانایی دستیار هوش مصنوعی خود در انجام وظایف پیچیده و چند مرحله‌ای پیدا کرده است: به آن اجازه دهید هنگام کار یادداشت بردارد.

این شرکت می‌گوید افزودن یک "دفترچه یادداشت" که کلود بتواند افکار خود را در آن بنویسد، همراه با چند پرامپت مثال، توانایی‌های حل مسئله آن را به طور قابل توجهی بهبود می‌بخشد.

این سیستم از طریق یک دستور "think" کار می‌کند که به کلود فضایی می‌دهد تا قبل از حرکت به جلو، استدلال خود را ثبت کند. در باطن، این فقط یک دستور JSON است که این افکار را ردیابی می‌کند:

{
  "name": "think",
  "description": "Use the tool to think about something. It will not obtain new information or change the database, but just append the thought to the log. Use it when complex reasoning or some cache memory is needed.",
  "input_schema": {
  "type": "object",
  "properties": {
  "thought": {
  "type": "string",
  "description": "A thought to think about."
  }
  },
  }, "required": ["thought"]
  }

این با ویژگی "تفکر گسترده" که اخیراً به کلود اضافه شده است، متفاوت است. در حالی که "تفکر گسترده" به کلود کمک می‌کند قبل از تولید پاسخ، استدلال کند، "ابزار تفکر" جدید در طول فرآیند پاسخ‌دهی خود کار می‌کند، به خصوص زمانی که کلود نیاز به پردازش اطلاعات جدید از ابزارهای دیگر دارد.

تفکر دیگری در زنجیره تفکرات

هنگامی که در سناریوهای خدمات مشتری خطوط هوایی در چارچوب Tau Bench آزمایش شد، کلود با پرامپت بهینه‌سازی شده 54 درصد بهتر از خط پایه عمل کرد. به گفته Anthropic، این پیشرفت‌ها در وظایف چند مرحله‌ای و رعایت بهتر دستورالعمل‌ها می‌تواند به طور قابل توجهی به سیستم‌های هوش مصنوعی مبتنی بر عامل، که هنوز با قابلیت اطمینان دست و پنجه نرم می‌کنند، سود برساند. آزمایش‌های مهندسی نرم‌افزار دستاوردهای متوسط‌تری را نشان داد، با 1.6 درصد بهبود در امتیازات SWE-Bench.

نکته کلیدی فقط خود دفترچه یادداشت نیست - بلکه نشان دادن نحوه استفاده موثر از آن به کلود است. Anthropic پرامپت‌های مثال ارائه می‌دهد که نشان می‌دهد چگونه قوانین را فهرست کنید، حقایق را بررسی کنید و مراحل بعدی را برنامه‌ریزی کنید:

## Using the think tool


 Before taking any action or responding to the user after receiving tool results, use the think tool as a scratchpad to:
 - List the specific rules that apply to the current request
 - Check if all required information is collected
 - Verify that the planned action complies with all policies
 - Iterate over tool results for correctness 


 Here are some examples of what to iterate over inside the think tool:
 <think_tool_example_1>
 User wants to cancel flight ABC123
 - Need to verify: user ID, reservation ID, reason
 - Check cancellation rules:
 * Is it within 24h of booking?
 * If not, check ticket class and insurance
 - Verify no segments flown or are in the past
 - Plan: collect missing info, verify rules, get confirmation
 </think_tool_example_1>


 <think_tool_example_2>
 User wants to book 3 tickets to NYC with 2 checked bags each
 - Need user ID to check:
 * Membership tier for baggage allowance
 * Which payments methods exist in profile
 - Baggage calculation:
 * Economy class × 3 passengers
 * If regular member: 1 free bag each ? 3 extra bags = $150
 * If silver member: 2 free bags each ? 0 extra bags = $0
 * If gold member: 3 free bags each ? 0 extra bags = $0
 - Payment rules to verify:
 * Max 1 travel certificate, 1 credit card, 3 gift cards
 * All payment methods must be in profile
 * Travel certificate remainder goes to waste
 - Plan:
 1. get user ID
 2. verify membership level for bag fees
 3. check which payment methods in profile and if their combination is allowed
 4. calculate total: ticket price + any bag fees
 5. get explicit confirmation for booking
 </think_tool_example_2>

به گفته Anthropic، دستور "think" برای تجزیه و تحلیل خروجی ابزار، پیروی از قوانین پیچیده و تصمیم‌گیری گام به گام که در آن اشتباهات می‌تواند پرهزینه باشد، بسیار مفید است. مثال‌های خاص دامنه به دستیابی به بهترین نتایج کمک می‌کند. ابزار "Think" فقط باید زمانی اضافه شود که وظایف ساده‌تر - مانند تماس‌های ابزار منفرد یا پرامپت‌ها با محدودیت‌های کم - به اندازه کافی به تنهایی قابل اعتماد نباشند.

این ابزار به راحتی با سیستم‌های کلود موجود ادغام می‌شود و فقط زمانی بر عملکرد تأثیر می‌گذارد که واقعاً استفاده شود. اگرچه بیشتر آزمایش‌ها از Claude 3.7 Sonnet استفاده می‌کردند، اما Anthropic گزارش می‌دهد که این پیشرفت‌ها به همان خوبی با Claude 3.5 Sonnet (New) کار می‌کنند.

خلاصه

  • Anthropic یک ابزار "think" برای دستیار هوش مصنوعی خود Claude معرفی کرده است که به سیستم اجازه می‌دهد یادداشت بردارد و وظایف پیچیده را به مراحل کوچکتر تقسیم کند که منجر به حل مسئله ساختاریافته‌تر می‌شود.
  • در شبیه‌سازی‌های خدمات مشتری، استفاده از ابزار "think" عملکرد Claude را 54 درصد بهبود بخشید، در حالی که در وظایف مهندسی نرم‌افزار، افزایش عملکرد به طور متوسط ​​1.6 درصد بود.
  • به گفته Anthropic، ابزار "think" به ویژه برای تصمیم‌گیری‌های پیچیده و وظایف تجزیه و تحلیل موثر است و می‌تواند به راحتی در سیستم‌های موجود گنجانده شود.