گوگل دیپمایند گامهای بلندی در توسعه «مدلهای تفکر» برداشته است - دسته جدیدی از مدلهای هوش مصنوعی که میتوانند استدلال، برنامهریزی و حل مسائل پیچیده را به شکلی مؤثرتر از مدلهای پیشین انجام دهند.
در پادکستی در کانال یوتیوب Google for Developers، جک رائه (Jack Rae)، دانشمند ارشد تحقیقاتی در گوگل دیپمایند، به تفصیل درباره نحوه ساخت مدلهای تفکر گوگل دیپمایند صحبت کرد و چشماندازی از آینده ارائه داد.
او به لوگان کیلپاتریک (Logan Kilpatrick)، مدیر ارشد محصول در گوگل دیپمایند، گفت: «شهود کلیدی در مورد مدل استدلال این است که سعی میکند دانش را برای یک سناریوی خاص که ممکن است جدید یا دیده نشده باشد، ترکیب کند.»
تاکنون چطور پیش رفته است؟
تلاشهای گوگل به پیشرفتهای سریعی در قابلیتهای مدلهای تفکر آنها منجر شده است، با بهبودهای چشمگیر در عملکرد آنها در وظایفی مانند ریاضیات، کدنویسی و استدلال چندوجهی.
گوگل دیپمایند اخیراً مطالعهای انجام داده است که نشان میدهد چگونه هوش مصنوعی میتواند با استفاده از تکنیک «تکامل ذهن» عمیقتر فکر کند. رائه گفت: «آنچه ما میبینیم واقعاً یک پارادایم جدید است. ما در حال یافتن راههای متعددی برای صرف محاسبات بیشتر در زمان استنتاج هستیم، مثلاً در طول پاسخ.»
این شرکت در حال حاضر شاهد ثمرات کار خود است. دو نسخه آزمایشی از مدل تفکر Gemini Flash منتشر کرده است که به صورت رایگان در AI Studio در دسترس هستند. رائه با اشاره به عرضههای محصول، تاکید کرد که مدلهای تفکر در آینده نزدیک از ابزارهای بیشتری از درون Gemini استفاده خواهند کرد.
رائه پیشبینی کرد: «این مدل قرار است از ابزارهای بیشتر و بیشتری در طول تفکر استفاده کند تا واقعاً به هسته اصلی مشکلی که باید حل کند برسد.» او همچنین نمونههایی از ادغام این مدل با جستجوی گوگل و نقشهها را ارائه کرد. رائه معتقد است که به همین دلیل، این مدلها عاملتر (agentic) خواهند شد و این جنبه مهمی خواهد بود، حتی زمانی که در حال تفکر است.
رائه همچنین معتقد است که این صنعت برای دستیابی به امکان داشتن «زمینه بینهایت» برای یک مدل، به هیچ پیشرفت تحقیقاتی نیاز ندارد. او تأکید میکند که مواد اولیه مناسب در دسترس هستند، ما فقط به مهندسی نیاز داریم تا آن را به واقعیت تبدیل کنیم.
بازخورد در حلقه توسعه آن
رائه به کیلپاتریک گفت که از عرضه این مدل در فاز آزمایشی هیجانزده است، زیرا بازخورد کاربران به آنها کمک میکند تا در مورد قابلیتهای مدل تفکر بیشتر بیاموزند.
برای ارائه مثالی از اینکه چگونه بازخورد به شکلگیری توسعه کمک میکند، رائه زمانی را به یاد آورد که متوجه نبود پشتیبانی زمینه 32k محدود به افراد خواهد بود، تا زمانی که با دانشگاهیانی که از مدل استدلال به عنوان بخشی از تحقیقات خود استفاده میکردند، ارتباط برقرار کرد.
به طور مشابه، او نمونه دیگری را به اشتراک گذاشت که در آن یک تغییر کد داخلی زمانی لازم شد که کاربری سعی کرد از مدلهای Gemini Flash به Flash Thinking سوئیچ کند، و سپس او برای رفع آن کار کرد.
او در مورد جدول زمانی توسعه مدلهای تفکر گفت که آنها در اکتبر 2024 شروع به کار روی آن کردند و آماده بودند تا این مدل را در عرض دو سال برای دریافت بازخورد توسعهدهندگان ارسال کنند. با بازخوردی که در طول دوره تعطیلات در پایان دسامبر دریافت کردند، در ژانویه 2025 بهروزرسانیای برای این مدل منتشر کردند.
درحالیکه رائه به طور رسمی به آن اشاره نکرد، ناظران دقیق در اینترنت حدس زدهاند که مدلهای جدید Gemini مبتنی بر مدلهای تفکر غیرآزمایشی باید در 12 مارس منتشر شوند.
آینده مدلهای تفکر گوگل دیپمایند
رائه با هیجان گفت: «ما مشتاقانه منتظر مجموعهای از نسخههای آتی بسیار هیجانانگیز هستیم.» این شرکت فعالانه در حال جمعآوری بازخورد از توسعهدهندگان است و در جهت انتشار در دسترس عموم (GA) این مدل تلاش میکند.
رائه اذعان کرد: «مشخص شده است که مردم میخواهند بر اساس این مدل بسازند و آن را به عنوان یک پایه پایدار داشته باشند. و GA برای این کار ضروری است. بنابراین قطعاً این چیزی است که در نقشه راه قرار دارد.»
گوگل دیپمایند قصد دارد به بهبود قابلیتهای خود، کاوش تجربیات جدید محصول و توانمندسازی آنها برای استفاده از ابزارهایی مانند اجرای کد و جستجو در طول فرآیند تفکر ادامه دهد.
همچنین انتظار میرود مدلهای تفکر نقش مهمی در توسعه عاملهای هوش مصنوعی (AI agents) ایفا کنند که میتوانند با جهان تعامل داشته باشند و وظایف را به طور مستقل انجام دهند. «دو چیز وجود دارد که من فکر میکنم برای قابلیت عاملی مفید بسیار مهم هستند که استدلال ارائه میدهد. یکی قابلیت اطمینان است... دیگری قابلیت پیچیده.»
همانطور که گوگل دیپمایند به پیشبرد مرزهای هوش مصنوعی ادامه میدهد، احتمالاً مدلهای تفکر به سنگ بنای سیستمهای هوش مصنوعی آینده تبدیل خواهند شد و آنها را قادر میسازند تا مسائل پیچیدهتری را حل کنند و به روشهای معنادارتری با جهان تعامل داشته باشند.