مدلهای زبانی بزرگ در پردازش و استدلال بر روی متون طولانی و پیچیده بدون از دست دادن زمینه اصلی، با چالش روبرو هستند. مدلهای سنتی اغلب از مشکل از دست دادن زمینه، مدیریت ناکارآمد وابستگیهای دوربرد، و دشواری در همسویی با ترجیحات انسانی رنج میبرند که بر دقت و کارایی پاسخهایشان تأثیر میگذارد. مدل Hunyuan-T1 شرکت تنسنت مستقیماً با این چالشها مقابله میکند؛ این کار از طریق ادغام معماری نوآورانه مبتنی بر مامبا (Mamba) با یادگیری تقویتی پیشرفته و استراتژیهای برنامهریزیشده انجام میشود تا از ثبت قوی زمینه و قابلیتهای استدلال بهبودیافته اطمینان حاصل شود.
Hunyuan-T1 اولین مدلی است که با معماری نوآورانه مامبا (Mamba) کار میکند؛ این طراحی ترکیبی از فناوریهای ترانسفورمر هیبریدی و ترکیب متخصصان (MoE) است. Hunyuan-T1 که بر پایه تفکر سریع TurboS ساخته شده، به طور خاص برای بهینهسازی پردازش دنبالههای متنی طولانی و در عین حال به حداقل رساندن هزینههای محاسباتی مهندسی شده است. این امر به مدل اجازه میدهد تا به طور مؤثری زمینه گسترده را ثبت کرده و وابستگیهای دوربرد را مدیریت کند که برای وظایفی که نیازمند استدلال عمیق و منسجم هستند، حیاتی است.
یکی از نکات برجسته Hunyuan-T1، اتکای زیاد آن به یادگیری تقویتی (RL) در طول فاز پسآموزش است. تنسنت ۹۶.۷٪ از توان محاسباتی خود را به این رویکرد اختصاص داد که به مدل امکان میدهد تا تواناییهای استدلالی خود را به صورت تکراری بهبود بخشد. تکنیکهایی مانند بازپخش داده، بازنشانی دورهای خطمشی و حلقههای بازخورد خود-پاداشدهنده به بهبود کیفیت خروجی کمک میکنند و اطمینان میدهند که پاسخهای مدل دقیق، کارآمد و کاملاً با انتظارات انسانی همسو هستند.
برای تقویت بیشتر مهارت استدلال، تنسنت از یک استراتژی یادگیری برنامهریزی شده (curriculum learning) استفاده کرد. این رویکرد به تدریج دشواری دادههای آموزشی را افزایش میدهد و همزمان طول زمینه مدل را گسترش میدهد. در نتیجه، Hunyuan-T1 آموزش میبیند تا از توکنها به طور کارآمدتری استفاده کند و به طور یکپارچه از حل مسائل ریاضی پایه به مقابله با چالشهای پیچیده علمی و منطقی سازگار شود. کارایی یکی دیگر از ارکان طراحی Hunyuan-T1 است. توانایی پایه TurboS در ثبت اطلاعات متون طولانی، از از دست دادن زمینه، که یک مشکل رایج در بسیاری از مدلهای زبانی است، جلوگیری میکند و سرعت رمزگشایی را در مقایسه با سیستمهای مشابه دو برابر میکند. این پیشرفت به این معنی است که کاربران از پاسخهای سریعتر و با کیفیتتر بدون کاهش عملکرد بهرهمند میشوند.
این مدل امتیازات چشمگیری در چندین بنچمارک کسب کرده است: ۸۷.۲ در MMLU-PRO، که موضوعات مختلفی از جمله علوم انسانی، علوم اجتماعی و رشتههای STEM را آزمایش میکند؛ ۶۹.۳ در GPQA-diamond، یک ارزیابی چالشبرانگیز شامل مسائل علمی در سطح دکترا؛ ۶۴.۹ در LiveCodeBench برای وظایف کدنویسی؛ و امتیاز قابل توجه ۹۶.۲ در بنچمارک MATH-500 برای استدلال ریاضی. این نتایج بر تطبیقپذیری و توانایی Hunyuan-T1 در انجام وظایف حرفهای و پرمخاطره در زمینههای مختلف تأکید میکند. فراتر از معیارهای کمی، Hunyuan-T1 برای ارائه خروجیهایی با درک و خلاقیت شبیه به انسان طراحی شده است. در طول فاز یادگیری تقویتی، مدل تحت یک فرآیند همسوسازی جامع قرار گرفت که بازخورد خود-پاداشدهنده را با مدلهای پاداش خارجی ترکیب میکرد. این رویکرد دوگانه تضمین میکند که پاسخهای آن دقیق بوده و جزئیات غنی و جریان طبیعی را به نمایش میگذارند.
در نتیجه، Hunyuan-T1 تنسنت، یک معماری در مقیاس فوقالعاده بزرگ مبتنی بر مامبا را با پیشرفتهترین یادگیری تقویتی و استراتژیهای برنامهریزی شده ترکیب میکند. Hunyuan-T1 عملکرد بالا، استدلال بهبودیافته و کارایی استثنایی را ارائه میدهد.
برای اطلاعات بیشتر، جزئیات، صفحه Hugging Face و صفحه GitHub را بررسی کنید. تمام اعتبار این پژوهش متعلق به پژوهشگران این پروژه است.