معرفی Hunyuan-T1 توسط پژوهشگران هوش مصنوعی تنسنت: مدلی زبانی فوق‌العاده بزرگ مبتنی بر مامبا برای بازتعریف استدلال عمیق، کارایی متنی و یادگیری تقویتی انسان‌محور

مدل‌های زبانی بزرگ در پردازش و استدلال بر روی متون طولانی و پیچیده بدون از دست دادن زمینه اصلی، با چالش روبرو هستند. مدل‌های سنتی اغلب از مشکل از دست دادن زمینه، مدیریت ناکارآمد وابستگی‌های دوربرد، و دشواری در همسویی با ترجیحات انسانی رنج می‌برند که بر دقت و کارایی پاسخ‌هایشان تأثیر می‌گذارد. مدل Hunyuan-T1 شرکت تنسنت مستقیماً با این چالش‌ها مقابله می‌کند؛ این کار از طریق ادغام معماری نوآورانه مبتنی بر مامبا (Mamba) با یادگیری تقویتی پیشرفته و استراتژی‌های برنامه‌ریزی‌شده انجام می‌شود تا از ثبت قوی زمینه و قابلیت‌های استدلال بهبودیافته اطمینان حاصل شود.

Hunyuan-T1 اولین مدلی است که با معماری نوآورانه مامبا (Mamba) کار می‌کند؛ این طراحی ترکیبی از فناوری‌های ترانسفورمر هیبریدی و ترکیب متخصصان (MoE) است. Hunyuan-T1 که بر پایه تفکر سریع TurboS ساخته شده، به طور خاص برای بهینه‌سازی پردازش دنباله‌های متنی طولانی و در عین حال به حداقل رساندن هزینه‌های محاسباتی مهندسی شده است. این امر به مدل اجازه می‌دهد تا به طور مؤثری زمینه گسترده را ثبت کرده و وابستگی‌های دوربرد را مدیریت کند که برای وظایفی که نیازمند استدلال عمیق و منسجم هستند، حیاتی است.

یکی از نکات برجسته Hunyuan-T1، اتکای زیاد آن به یادگیری تقویتی (RL) در طول فاز پس‌آموزش است. تنسنت ۹۶.۷٪ از توان محاسباتی خود را به این رویکرد اختصاص داد که به مدل امکان می‌دهد تا توانایی‌های استدلالی خود را به صورت تکراری بهبود بخشد. تکنیک‌هایی مانند بازپخش داده، بازنشانی دوره‌ای خط‌مشی و حلقه‌های بازخورد خود-پاداش‌دهنده به بهبود کیفیت خروجی کمک می‌کنند و اطمینان می‌دهند که پاسخ‌های مدل دقیق، کارآمد و کاملاً با انتظارات انسانی همسو هستند.

برای تقویت بیشتر مهارت استدلال، تنسنت از یک استراتژی یادگیری برنامه‌ریزی شده (curriculum learning) استفاده کرد. این رویکرد به تدریج دشواری داده‌های آموزشی را افزایش می‌دهد و همزمان طول زمینه مدل را گسترش می‌دهد. در نتیجه، Hunyuan-T1 آموزش می‌بیند تا از توکن‌ها به طور کارآمدتری استفاده کند و به طور یکپارچه از حل مسائل ریاضی پایه به مقابله با چالش‌های پیچیده علمی و منطقی سازگار شود. کارایی یکی دیگر از ارکان طراحی Hunyuan-T1 است. توانایی پایه TurboS در ثبت اطلاعات متون طولانی، از از دست دادن زمینه، که یک مشکل رایج در بسیاری از مدل‌های زبانی است، جلوگیری می‌کند و سرعت رمزگشایی را در مقایسه با سیستم‌های مشابه دو برابر می‌کند. این پیشرفت به این معنی است که کاربران از پاسخ‌های سریع‌تر و با کیفیت‌تر بدون کاهش عملکرد بهره‌مند می‌شوند.

این مدل امتیازات چشمگیری در چندین بنچمارک کسب کرده است: ۸۷.۲ در MMLU-PRO، که موضوعات مختلفی از جمله علوم انسانی، علوم اجتماعی و رشته‌های STEM را آزمایش می‌کند؛ ۶۹.۳ در GPQA-diamond، یک ارزیابی چالش‌برانگیز شامل مسائل علمی در سطح دکترا؛ ۶۴.۹ در LiveCodeBench برای وظایف کدنویسی؛ و امتیاز قابل توجه ۹۶.۲ در بنچمارک MATH-500 برای استدلال ریاضی. این نتایج بر تطبیق‌پذیری و توانایی Hunyuan-T1 در انجام وظایف حرفه‌ای و پرمخاطره در زمینه‌های مختلف تأکید می‌کند. فراتر از معیارهای کمی، Hunyuan-T1 برای ارائه خروجی‌هایی با درک و خلاقیت شبیه به انسان طراحی شده است. در طول فاز یادگیری تقویتی، مدل تحت یک فرآیند همسوسازی جامع قرار گرفت که بازخورد خود-پاداش‌دهنده را با مدل‌های پاداش خارجی ترکیب می‌کرد. این رویکرد دوگانه تضمین می‌کند که پاسخ‌های آن دقیق بوده و جزئیات غنی و جریان طبیعی را به نمایش می‌گذارند.

در نتیجه، Hunyuan-T1 تنسنت، یک معماری در مقیاس فوق‌العاده بزرگ مبتنی بر مامبا را با پیشرفته‌ترین یادگیری تقویتی و استراتژی‌های برنامه‌ریزی شده ترکیب می‌کند. Hunyuan-T1 عملکرد بالا، استدلال بهبودیافته و کارایی استثنایی را ارائه می‌دهد.

برای اطلاعات بیشتر، جزئیات، صفحه Hugging Face و صفحه GitHub را بررسی کنید. تمام اعتبار این پژوهش متعلق به پژوهشگران این پروژه است.

برچسب‌ها مدل‌های زبانی بزرگ مامبا تنسنت هوش مصنوعی Hunyuan-T1 استدلال عمیق یادگیری تقویتی

این گزارش ترجمه و بازنویسی خبری با موتور هوش مصنوعی افق آبی است و برای خوانندهٔ فارسی‌زبان بازتنظیم شده. منبع اصلی: marktechpost