چه اتفاقی در این هفته در هوش مصنوعی افتاد؟
در حالی که هوش فوقالعاده ایمن (SSI) ایلیا سوتسکور دور دیگری از سرمایهگذاری به ارزش ۲ میلیارد دلار را با ارزش سنگین ۳۰ میلیارد دلار به دست آورد، گمانهزنیها در مورد اینکه او روی چه چیزی کار میکند و اینکه آیا قوانین مقیاسبندی پیشگامانه دیگری برای هوش مصنوعی کشف خواهد کرد یا خیر، افزایش یافته است. در حالی که یک پیشرفت مقیاسبندی دیگر هیجانانگیز خواهد بود، یک مسیر عملی جایگزین برای پیشرفت قابلیتهای هوش مصنوعی به ظهور خود ادامه میدهد: ساختن نمایندگان پیشرفته بر روی مدلهای پایه موجود. استارتآپ Monica مستقر در چین دقیقاً این نکته را با Manus، محصول چند نمایندهای خود که فقط با دعوتنامه در دسترس است، ثابت میکند، که به سرعت توجهها را به خود جلب کرده است، علیرغم اینکه مدل زبان بزرگ پایه خود را توسعه نداده است. در عوض، Manus مدل Claude 3.5 Sonnet و مدلهای Qwen متنباز سفارشیشده را به هم متصل میکند، و با ابزارها و سندباکسهای تخصصی جفت میکند تا بهطور مستقل وظایف پیچیده دنیای واقعی را انجام دهد.
معماری Manus بهطور منظم به دو لایه کلیدی بسیار تخصصی تقسیم میشود: "برنامهریز" که توسط مدلهای Qwen بهینهسازیشده برای استدلال استراتژیک و تجزیه وظایف پشتیبانی میشود، و "اجراکننده" که توسط Claude 3.5 Sonnet در کنار مجموعه متنوعی از ۲۹ زیر نماینده اختصاصی هدایت میشود. این سیستم با ادغام یکپارچه اجرای کد، مرور وب، مدیریت کد چند فایلی و تولید رابط کاربری تعاملی، قابلیتهای قابل توجهی را نشان میدهد - ویژگیهایی که یادآور ابزارهای پیشرفته اخیر مانند Cursor، نمایندههای Operator و Deep Research OpenAI و رابط کاربری Artifact Claude است. موفقیت Manus از جمعآوری منسجم این عملکردهای جداگانه قبلی در یک چارچوب نماینده واحد پدیدار میشود، که استقلال و کاربرد عملی بیشتری را باز میکند. عملکرد معیار GAIA آن به وضوح این را نشان میدهد: کسب امتیاز چشمگیر 86.5٪ در سؤالات سادهتر "سطح 1" که به راحتی از نتیجه OpenAI Deep Research (74.3٪) فراتر میرود. حتی در وظایف پیچیدهتر و چند مرحلهای "سطح 3"، Manus به طور قابل توجهی پیشتاز است و به 57.7٪ در مقابل 47.6٪ OpenAI Deep Research میرسد.
با این حال، علیرغم نوآوری Monica با استفاده از مدلهای موجود، حتی با بهبود هوش مدل پایه، میتوان قفلهای بیشتری را باز کرد. ایلیا سوتسکور، که قبلاً در گوگل و OpenAI بود، در بسیاری از پیشرفتهای عمده یادگیری عمیق و مدلهای زبان بزرگ در 10 تا 15 سال گذشته مشارکت صمیمانهای داشته است.
افزایش 5 برابری ارزش SSI ایلیا سوتسکور به 30 میلیارد دلار در کمتر از شش ماه، گمانهزنیهایی را در مورد اینکه او روی چه چیزی کار کرده است، برانگیخته است (گفته میشود که به شدت محرمانه است و از داوطلبان کار میخواهد که قبل از ورود به دفاتر خود، تلفنهای خود را در یک قفس فارادی بگذارند). ایلیا به طور مداوم در پیشرفتهای عمده در قوانین مقیاسبندی یادگیری عمیق و اهداف آموزشی برای مدلهای زبان بزرگ نقش محوری داشته است، و این امر باعث میشود که او قانون دیگری را کشف کرده باشد. در واقع، سرنخهایی از مصاحبههای اخیر دقیقاً همین را نشان میدهد. خود ایلیا در ماه سپتامبر به کشف "کوه متفاوتی برای صعود" اشاره کرد و به قانون مقیاسبندی جدیدی اشاره کرد. او با لحنی تأکیدی خاطرنشان کرد: "همه فقط میگویند 'فرضیه مقیاسبندی'. اما مقیاسبندی چه چیزی؟".
ایلیا ابتدا مقیاسبندی شبکه عصبی مبتنی بر GPU را با AlexNet در سال 2012 در کنار جفری هینتون و الکس کریژفسکی نشان داد و راه را برای تسریع چشمگیر عمق مدل، عملکرد و شدت محاسباتی هموار کرد. در حالی که او هدف پیشبینی نشانه بعدی را اختراع نکرد (که یک تکنیک بسیار قدیمیتر بود) یا معماری ترانسفورماتور معرفیشده در سال 2017، او با مدلهای sequence-to-sequence (seq2seq) زمینه اساسی را برای ترانسفورماتورها فراهم کرد. او همچنین بهطور حیاتی تصمیم استراتژیک OpenAI را برای مقیاسبندی گسترده پیشبینی نشانه بعدی با استفاده از GPUها و ترانسفورماتورها، و در نتیجه سوق دادن تنگناهای مقیاسبندی داده (و مقیاسبندی محاسباتی مفید مربوطه) به مقیاس کل اینترنت سوق داد. اخیراً، مشارکتهای اساسی ایلیا در "محاسبات زمان آزمایش" گزارش شده است که زمینه را برای توسعه Q* و o1 توسط Jakub Pachocki و Szymon Sidor فراهم کرده است. این رویکرد منجر به هدف آموزشی جدیدی شد - پیشبینی راهحلهای کامل برای مسائل قابل تأیید - و هم یک رژیم مقیاسبندی آموزشی جدید (یادگیری تقویتی با پاداشهای قابل تأیید یا RLVR) و هم قوانین مقیاسبندی زمان استنتاج جدید را معرفی کرد.
اگر ایلیا در واقع بر روی مکانیسم مقیاسبندی جدید دیگری متمرکز شده باشد - و جهش سریع ارزشگذاری SSI به نظر میرسد نشاندهنده اعتقاد سرمایهگذاران است - این نشاندهنده یک خروج بزرگ از سالهای زیادی است که ما فقط بر روی هدف پیشبینی نشانه بعدی و مقیاسبندی فقط دادهها و پارامترهای پیشآموزشی متمرکز بودیم. مقیاسبندی هم روش آموزشی RLVR جدید و هم نشانههای زمان استنتاج مربوطه به تنهایی ممکن است برای نزدیک شدن به قابلیتهای شبیه AGI در بسیاری از وظایف مستقل انسانی کافی باشد (بهویژه همراه با خطوط لوله نماینده و توسعهدهندگان مدل زبان بزرگ که از تنظیم دقیق تقویت برای سفارشیسازی مدلها برای وظایف مختلف استفاده میکنند). از سوی دیگر، اهداف آموزشی جدید میتوانند این را تسریع کنند و همچنین انواع جدیدی از هوش و دستههایی از قابلیتهای هوش مصنوعی را باز کنند.
چرا باید اهمیت دهید؟
همگرایی پارادایمهای مقیاسبندی جدید و معماریهای نماینده پیشرفته نشاندهنده یک نقطه عطف نزدیک است. شرکتهایی مانند Monica با Manus نشان میدهند که چگونه میتوان مدلهای موجود را به طور موثری دوباره ترکیب کرد تا جهشهای قابل توجهی در عملکرد وظایف دنیای واقعی ایجاد کرد. در همان زمان، پیشرفتهایی از ایلیا و SSI، یا در واقع هر یک از آزمایشگاههای هوش مصنوعی یا حتی محققان فردی، ممکن است اساساً آنچه را که ما حتی به عنوان هوش مصنوعی مقیاسپذیر فکر میکنیم، تغییر دهد و زمینه را برای طیف بسیار گستردهتری از قابلیتهای هوشی فراهم کند. برای توسعهدهندگان و کارآفرینان به طور یکسان، این مسیر نوآوری دوگانه - ادغام نماینده عملی در مقابل تغییرات اساسی پیشگامانه - مسیرهای قانعکنندهای را رو به جلو ارائه میدهد. در حالی که منتظر جهش بزرگ بعدی هستیم، هنوز هم میتوان با استفاده هوشمندانه و اصلاح ابزارهای موجود در نمایندههای تخصصی، مزایای رقابتی قابل توجهی به دست آورد. اما اشتباه نکنید: اگر ایلیا در واقع در حال پیشگامی قانون مقیاسبندی جدید دیگری باشد، چشمانداز هوش مصنوعی ممکن است به زودی دوباره تغییر شکل یابد.
اخبار داغ
1. Alibaba مدل QwQ-32B خود را بر اساس تکنیکهای یادگیری تقویتی در مقیاس بالا منتشر کرد
تیم Qwen Alibaba مدل هوش مصنوعی 32 میلیارد پارامتری QwQ-32B را معرفی کرده است که برای استدلال پیشرفته، کدنویسی و حل مسئله ریاضی طراحی شده است. به دلیل یادگیری تقویتی، عملکرد آن با مدلهای بزرگتر مانند DeepSeek R1 برابری میکند. QwQ-32B تحت Apache 2.0 متنباز است و در Hugging Face و ModelScope در دسترس است.
اندرو بارتو و ریچارد ساتون، پیشگامان یادگیری تقویتی، برنده جایزه تورینگ 2024 برای مشارکتهای پیشگامانه خود در هوش مصنوعی شدهاند. کار آنها پایهای برای سیستمهای هوش مصنوعی مدرن مانند چتباتها، وسایل نقلیه خودران و توصیههای شخصیسازیشده ایجاد کرد. کار آنها همچنین هوش مصنوعی و علوم اعصاب را به هم متصل کرد و بینشهایی را در مورد نقش دوپامین در یادگیری انسان و ماشین آشکار کرد.
مایکروسافت در حال توسعه مدلهای استدلال هوش مصنوعی خود به نام MAI است تا وابستگی به OpenAI را کاهش دهد و پیشنهادات هوش مصنوعی خود را افزایش دهد. گزارش شده است که در مقایسه با سری Phi متمرکز بر دادههای مصنوعی معروفتر خود، مدلهای بسیار بزرگتری را آموزش میدهد. این مدلهای جدید به عنوان جایگزینهای بالقوه برای فناوری OpenAI در سیستم 365 Copilot مایکروسافت آزمایش شدهاند. علاوه بر این، مایکروسافت قصد دارد در یک رویداد ویژه در 4 آوریل، همزمان با پنجاهمین سالگرد خود، از پیشرفتهای آینده برای همراه هوش مصنوعی Copilot خود رونمایی کند.
4. لحظه DeepSeek دوم چین؟ با Manus، اولین نماینده هوش مصنوعی عمومی آشنا شوید
Manus، توسعهیافته توسط استارتآپ چینی Monica، یک نماینده هوش مصنوعی مستقل است که برای رسیدگی به وظایف پیچیده به طور مستقل طراحی شده است. از زمان راهاندازی نسخه بتا در 6 مارس 2025، هیاهوی قابل توجهی ایجاد کرده است و برخی تأثیر آن را با DeepSeek مقایسه میکنند. در دسترس فقط با دعوتنامه، هیجان را در بین کاربرانی که مشتاق آزمایش قابلیتهای آن هستند، برانگیخته است.
5. Mistral AI مدل Mistral OCR را معرفی کرد
Mistral مدل Mistral OCR را راهاندازی کرد، یک API OCR چندوجهی که فایلهای PDF را به فایلهای Markdown آماده برای هوش مصنوعی تبدیل میکند و پذیرش آسانتر مدل هوش مصنوعی را تسهیل میکند. عملکرد آن از رقبا در اسناد پیچیده و غیر انگلیسی بهتر است و آنها را در سیستمهای RAG ادغام میکند. Mistral OCR در پلتفرم API و شرکای ابری آن در دسترس است و استقرار در محل را برای رسیدگی به دادههای حساس ارائه میدهد.
6. حالت هوش مصنوعی جدید جستجوی گوگل به کاربران امکان میدهد سؤالات پیچیده و چند بخشی بپرسند
گوگل تجربه جستجوی خود را با معرفی نمای کلی تولید شده توسط هوش مصنوعی گستردهتر و یک "حالت هوش مصنوعی" جدید بهبود میبخشد. نمای کلی هوش مصنوعی اکنون طیف وسیعتری از موضوعات را پوشش میدهد و برای کاربران بیشتری، از جمله کسانی که وارد سیستم گوگل نشدهاند، در دسترس خواهد بود. "حالت هوش مصنوعی" آزمایشی، که در حال حاضر برای مشترکین Google One AI Premium در دسترس است، یک تجربه چتبات هوش مصنوعی متمرکز بر جستجو را ارائه میدهد و پاسخهای تولید شده بر اساس فهرست جستجوی گوگل را ارائه میدهد.
مایکروسافت Dragon Copilot را راهاندازی کرد، یک دستیار صوتی هوش مصنوعی یکپارچه برای مراقبتهای بهداشتی. Dragon Copilot که برای کاهش فرسودگی شغلی پزشکان و سادهسازی مستندسازی طراحی شده است، هدفش بهبود کارایی و تجربیات بیمار ضمن پشتیبانی از کارکنان مراقبتهای بهداشتی در تنظیمات مختلف با قابلیتهای پیشرفته گفتار و اتوماسیون وظایف است که در مناطق منتخب عرضه میشود.
پنج مطالعه/ویدیوی 5 دقیقهای برای ادامه یادگیری شما
1. راهنمای شروع کار برای اجرای مدلهای زبان بزرگ (LLM)
این مقاله یک راهنمای عملی برای اجرای LLMها است که ملاحظات کلیدی مانند متعادل کردن اندازه مدل و الزامات مجموعه داده را با استفاده از قوانین مقیاسبندی مانند Chinchilla پوشش میدهد. همچنین اهمیت پیشپردازش مناسب مجموعه داده - مانند توکنایز کردن و پاکسازی - برای بهبود کارایی را برجسته میکند.
2. چه چیزی در معماری ترانسفورماتور تغییر کرده است
این مقاله به بررسی بهبودهای کلیدی در معماری ترانسفورماتور از سال 2017 میپردازد و بر کارایی و مقیاسپذیری تمرکز دارد. این مقاله تغییر از رمزگذاری موقعیتی سینوسی به تعبیههای موقعیتی چرخشی (RoPE) برای مدیریت بهتر توالیهای طولانی، پذیرش نرمالسازی پیش از لایه برای آموزش پایدارتر و معرفی توجه پرسش گروهی (GQA) برای کاهش هزینههای محاسباتی را پوشش میدهد.
3. اثر پروانهای هوش مصنوعی: تصمیمات اولیه مهمتر از آن چیزی هستند که فکر میکنید
بر اساس بینشهای مدل کوزه پولیا، این مقاله نشان میدهد که چگونه یک سوگیری تصادفی اولیه میتواند اثرات پایداری بر مسیر یادگیری یک سیستم هوش مصنوعی داشته باشد. بینشهای برگرفته از مدل کوزه پولیا درک ما را از تعامل بین شانس و انتخاب عمیقتر میکند و رویکردی متفکرانهتر را برای مدیریت سوگیریهای داده و روندهای بلندمدت در سیستمهای پیچیده تشویق میکند.
این مقاله به بررسی LLMهای مبتنی بر انتشار میپردازد، رویکردی جدید برای تولید متن که دادههای پر سر و صدا را به خروجیهای ساختاریافته پالایش میکند. این مقاله بحث میکند که چگونه این مدلها با LLMهای خودبازگشتی سنتی متفاوت هستند، مزایای بالقوه آنها در کاهش سوگیریها و بهبود کارایی، و چالشهای آنها در برنامههای کاربردی دنیای واقعی.
این مقاله به بررسی این موضوع میپردازد که چگونه جستجو و چتباتهای مبتنی بر هوش مصنوعی در حال تغییر شکل دادن به چشمانداز دیجیتال هستند و به برخی از شرکتها ضربه سختی میزنند در حالی که برخی دیگر را دست نخورده میگذارند. این مقاله بررسی میکند که چرا پلتفرمهایی مانند WebMD، G2 و Chegg با ارائه پاسخهای فوری توسط هوش مصنوعی، ترافیک خود را از دست میدهند، در حالی که سایتهایی مانند Reddit و Wikipedia همچنان قوی هستند. همچنین استدلال میکند که محتوای تولید شده توسط کاربر و پلتفرمهای مبتنی بر جامعه ممکن است در دنیای تحت سلطه هوش مصنوعی یک مزیت داخلی داشته باشند.
6. نمای کلی سیستم استنتاج DeepSeek-V3/R1
این مقاله یک نمای کلی از سیستم استنتاج DeepSeek برای مدلهای V3 و R1 خود ارائه میدهد و بر بهینهسازی توان عملیاتی و کاهش تأخیر تمرکز دارد. همچنین استراتژیهایی را برای مقابله با این چالشها مانند افزایش پیچیدگی سیستم به دلیل ارتباط بین گرهی و نیاز به تعادل بار مؤثر در بین نمونههای موازیسازی داده (DP) مورد بحث قرار میدهد.
مخازن و ابزارها
1. MetaGPT یک چارچوب هوش مصنوعی است که مانند یک تیم نرمافزاری عمل میکند و یک درخواست ساده را به طرحهای پروژه دقیق، کد و مستندات تقسیم میکند.
2. Light R1 مدل زبانی 32 میلیارد پارامتری Light-R1–32B را معرفی میکند که برای حل مسئله ریاضی بهینهسازی شده است.
مقالات برتر هفته
1. START: استدلالگر خودآموخته با ابزارها
این مقاله START را معرفی میکند، یک LLM استدلالگر خودآموخته که ابزارهای خارجی را ادغام میکند. این ادغام به START اجازه میدهد تا محاسبات پیچیده، بررسی خودکار و اشکالزدایی را انجام دهد و به محدودیتهایی مانند توهمات موجود در مدلهای استدلال سنتی رسیدگی کند. از Hint-infer (استفاده از ابزار تشویقی) و Hint-RFT (تنظیم دقیق با مراحل استدلال فیلتر شده) برای افزایش دقت استفاده میکند. START که بر روی QwQ-32B ساخته شده است، از مدل پایه خود عملکرد بهتری دارد و با مدلهای درجه یک در معیار ریاضی، علوم و کدنویسی رقابت میکند.
2. انتخاب داده پیشبینیکننده: دادههایی که پیشبینی میکنند، دادههایی هستند که آموزش میدهند
محققان انتخاب داده پیشبینیکننده (PreSelect) را معرفی کردهاند، روشی برای افزایش پیشآموزش مدل زبانی با استفاده از امتیازدهی مبتنی بر fastText برای انتخاب داده کارآمد. مدلهایی که بر روی 30 میلیارد نشانه انتخاب شده با PreSelect آموزش داده شدهاند، از مدلهایی که بر روی 300 میلیارد نشانه وانیلی آموزش داده شدهاند، عملکرد بهتری دارند و نیازهای محاسباتی را ده برابر کاهش میدهند. PreSelect همچنین از روشهای دیگر مانند DCLM و FineWeb-Edu در مدلهای 3 میلیارد پارامتری پیشی میگیرد.
3. مدل پاداش یکپارچه برای درک و تولید چندوجهی
UnifiedReward، یک مدل جدید برای ارزیابی درک و تولید چندوجهی، همترازی ترجیحات تصویر و ویدیو را بهبود میبخشد. UnifiedReward با آموزش بر روی یک مجموعه داده بزرگ ترجیحات انسانی، رتبهبندی جفتی و امتیازدهی نقطهای را تسهیل میکند.
4. Babel: مدلهای زبانی بزرگ چندزبانه باز که به بیش از 90٪ از سخنرانان جهانی خدمات ارائه میدهند
Babel یک مدل زبانی بزرگ چندزبانه باز را معرفی میکند که 25 زبان برتر را پوشش میدهد و از بیش از 90٪ از جمعیت جهان پشتیبانی میکند. Babel از یک تکنیک گسترش لایه استفاده میکند و عملکرد را با دو نوع افزایش میدهد: Babel-9B برای استفاده کارآمد و Babel-83B، که استانداردهای جدیدی را تعیین میکند. هر دو نوع عملکرد وظیفه چندزبانه برتری را در مقایسه با LLMهای باز مشابه نشان میدهند.
5. انتخاب داده در مقیاس بزرگ برای تنظیم آموزش
این مقاله به بررسی انتخاب داده در مقیاس بزرگ برای آموزش تنظیم و روشهای آزمایش بر روی مجموعههای داده تا 2.5 میلیون نمونه میپردازد. این مقاله نشان میدهد که بسیاری از تکنیکهای انتخاب در مقیاس بزرگ از انتخاب تصادفی عملکرد پایینتری دارند، در حالی که یک روش ساده مبتنی بر نمایش (RDS+) هم مؤثر و هم کارآمد است.
لینکهای سریع
1. گوگل یک مدل تعبیه متن جدید مبتنی بر Gemini را معرفی میکند. گوگل ادعا میکند که Gemini Embedding از عملکرد مدل تعبیه قبلی خود، text-embedding-004، فراتر میرود و به عملکرد رقابتی در معیارهای تعبیه محبوب دست مییابد. در مقایسه با مدل قبلی، Gemini Embedding میتواند قطعات بزرگتری از متن و کد را به طور همزمان بپذیرد و از بیش از 100 زبان پشتیبانی میکند.
2. Cohere یک مدل هوش مصنوعی چندوجهی "باز" به نام Aya Vision منتشر کرد. این مدل میتواند وظایفی مانند نوشتن زیرنویسهای تصویر، پاسخ دادن به سؤالات در مورد عکسها، ترجمه متن و تولید خلاصه در 23 زبان اصلی را انجام دهد. Cohere همچنین Aya Vision را به صورت رایگان از طریق WhatsApp در دسترس قرار میدهد.
3. Anthropic یک کنسول Anthropic ارتقا یافته را راهاندازی کرده است که به همه افراد در شرکت شما امکان میدهد در مورد هوش مصنوعی همکاری کنند. این پلتفرم بهروزرسانیشده همچنین "کنترلهای تفکر گسترده" را برای Claude 3.7 Sonnet معرفی میکند که به توسعهدهندگان اجازه میدهد هنگام تعیین محدودیتهای بودجه برای کنترل هزینهها، مشخص کنند که هوش مصنوعی چه زمانی باید از استدلال عمیقتری استفاده کند.