تنسنت / میدجورنی
تنسنت / میدجورنی

مدل استدلال Hunyuan-T1 تنسنت در محک زنی‌ها با قابلیت‌های o1 OpenAI مطابقت دارد

نمودار مقایسه‌ای: معیارهای عملکرد مدل‌های هوش مصنوعی (Hunyuan T1، DeepSeek R1، GPT 4.5، o1) در دسته‌هایی مانند دانش، ریاضیات و زبان.
Hunyuan T1 به دقت ۹۶.۲ درصدی در MATH-500 دست می‌یابد و از ۹۰ درصد در چندین کار زبان چینی فراتر می‌رود. | تصویر: از طریق تنسنت

تنسنت می‌گوید مدل جدید Hunyuan-T1 آن می‌تواند پا به پای بهترین سیستم‌های استدلالی OpenAI پیش برود.

به پیروی از رویکردی که برای همه مدل‌های استدلالی بزرگ استفاده می‌شود، تنسنت در طول توسعه به شدت به یادگیری تقویتی متکی بود و ۹۶.۷ درصد از توان محاسباتی پس از آموزش بر بهبود استدلال منطقی و همسویی با ترجیحات انسانی متمرکز بود.

در MMLU-PRO، که دانش را در ۱۴ حوزه موضوعی آزمایش می‌کند، Hunyuan-T1 امتیاز ۸۷.۲ را کسب کرد و پس از o1 OpenAI در جایگاه دوم قرار گرفت. برای استدلال علمی، این مدل امتیاز ۶۹.۳ را در آزمون GPQA-diamond به دست آورد.

تنسنت می‌گوید این مدل به ویژه در ریاضیات عالی است. این مدل امتیاز ۹۶.۲ را در محک MATH-500 به دست آورد و درست پس از Deepseek-R1 قرار گرفت. عملکردهای قوی دیگر شامل LiveCodeBench (۶۴.۹ امتیاز) و ArenaHard (۹۱.۹ امتیاز) است.

نمودار مقایسه‌ای: معیارهای عملکرد مدل‌های هوش مصنوعی (Hunyuan T1، DeepSeek R1، GPT 4.5، o1) در دسته‌هایی مانند دانش، ریاضیات و زبان.
Hunyuan T1 به دقت ۹۶.۲ درصدی در MATH-500 دست می‌یابد و از ۹۰ درصد در چندین کار زبان چینی فراتر می‌رود. | تصویر: از طریق تنسنت

برای آموزش، تنسنت یک رویکرد یادگیری برنامه درسی را پیاده‌سازی کرد و به تدریج دشواری کار را افزایش داد. این شرکت همچنین یک سیستم خود پاداش ایجاد کرد که در آن نسخه‌های قبلی مدل، خروجی‌های نسخه‌های جدیدتر را برای پیشبرد بهبودها ارزیابی می‌کردند.

این مدل از معماری Transformer Mamba استفاده می‌کند، که به گفته تنسنت، متون طولانی را دو برابر سریع‌تر از مدل‌های معمولی در شرایط مشابه پردازش می‌کند. Hunyuan-T1 از طریق Tencent Cloud در دسترس است و یک نسخه آزمایشی در Hugging Face موجود است.

این انتشار پس از معرفی اخیر مدل o1-level خود توسط Baidu و قبل از آن Alibaba است. Alibaba، Baidu و Deepseek همگی استراتژی‌های منبع باز را دنبال می‌کنند. سرمایه‌گذار هوش مصنوعی و رئیس سابق Google China، Kai-Fu Lee، این تحولات را یک تهدید وجودی برای OpenAI توصیف می‌کند.

محک زنی‌ها فقط همین هستند

از آنجایی که مدل‌های برتر به طور مرتب به دقت بالای ۹۰ درصد در آزمون‌های استاندارد دست می‌یابند، Google Deepmind یک محک چالش‌برانگیزتر به نام BIG-Bench Extra Hard (BBEH) را معرفی کرده است. حتی بهترین مدل‌ها با این آزمون جدید دست و پنجه نرم می‌کنند - بهترین عملکرد OpenAI، o3-mini (high)، تنها به دقت ۴۴.۸ درصد دست یافت.

نتیجه شگفت‌انگیزتر این بود که Deepseek-R1، با وجود عملکرد قوی خود در سایر محک زنی‌ها، تنها حدود هفت درصد امتیاز کسب کرد. این اختلاف نشان می‌دهد که نتایج محک زنی تمام داستان را نمی‌گویند و به ندرت عملکرد دنیای واقعی را منعکس می‌کنند، به خصوص که برخی از تیم‌های مدل به طور خاص برای این آزمون‌ها بهینه‌سازی می‌کنند. برخی از مدل‌های چینی مشکلات خاصی دارند، مانند درج کاراکترهای چینی در پاسخ‌های انگلیسی.

خلاصه

  • غول فناوری چینی تنسنت از Hunyuan-T1، یک مدل هوش مصنوعی که عملکردی قابل مقایسه با مدل‌های استدلالی OpenAI در آزمون‌های منطقی نشان می‌دهد، رونمایی کرده است.
  • این مدل در درجه اول با استفاده از تکنیک‌های یادگیری تقویتی آموزش داده شده است و با یادگیری برنامه درسی تکمیل شده است که به تدریج سطح دشواری را افزایش می‌دهد.
  • تنسنت اولین شرکتی است که معماری Mamba را در یک مدل استدلالی به کار می‌گیرد و ادعا می‌کند که سرعت پردازش متون طولانی را افزایش می‌دهد و سرعت تولید پاسخ را در مقایسه با رویکردهای قبلی دو برابر می‌کند.

منابع

تنسنت