جامعه هوش مصنوعی بر سر مدل استدلال منبع باز جدید DeepSeek R1 هیاهو به پا کرده است.
این مدل توسط استارت آپ هوش مصنوعی چینی DeepSeek توسعه داده شده است، که ادعا می کند R1 با ChatGPT o1 شرکت OpenAI در چندین معیار کلیدی مطابقت دارد یا حتی از آن پیشی می گیرد، اما با کسری از هزینه کار می کند.
هانچنگ کائو، استادیار سیستم های اطلاعاتی در دانشگاه اموری، می گوید: "این می تواند یک پیشرفت واقعا برابر کننده باشد که برای محققان و توسعه دهندگان با منابع محدود، به ویژه کسانی که از جنوب جهانی هستند، بسیار عالی است."
موفقیت DeepSeek با توجه به محدودیتهایی که شرکتهای هوش مصنوعی چینی به شکل کنترلهای فزاینده صادرات ایالات متحده بر تراشههای پیشرفته با آن مواجه هستند، شگفتانگیزتر است. اما شواهد اولیه نشان میدهد که این اقدامات آنطور که در نظر گرفته شده کار نمیکنند. به نظر میرسد که تحریمها به جای تضعیف تواناییهای هوش مصنوعی چین، استارتآپهایی مانند DeepSeek را به نوآوری به شیوههایی سوق میدهند که کارایی، اشتراک منابع و همکاری را در اولویت قرار میدهند.
برای ایجاد R1، DeepSeek مجبور شد فرآیند آموزشی خود را تغییر دهد تا فشار روی پردازندههای گرافیکی خود را کاهش دهد، انواع مختلفی که توسط Nvidia برای بازار چین عرضه شدهاند و عملکرد آنها به نصف سرعت محصولات برتر آن محدود شده است، به گفته ژیهان وانگ، کارمند سابق DeepSeek و دانشجوی دکترا در علوم کامپیوتر در دانشگاه نورثوسترن.
DeepSeek R1 توسط محققان به دلیل توانایی آن در مقابله با وظایف استدلالی پیچیده، به ویژه در ریاضیات و برنامه نویسی، مورد تحسین قرار گرفته است. این مدل از رویکرد "زنجیره تفکر" مشابه آنچه توسط ChatGPT o1 استفاده می شود، استفاده می کند، که به آن اجازه می دهد با پردازش گام به گام پرس و جوها، مشکلات را حل کند.
دیمیتریس پاپایلیوپولوس، محقق اصلی در آزمایشگاه تحقیقاتی هوش مصنوعی مرزهای مایکروسافت، می گوید چیزی که بیشتر از همه در مورد R1 او را شگفت زده کرد، سادگی مهندسی آن است. او می گوید: «دیپ سیک به جای شرح دقیق هر مرحله منطقی، به دنبال پاسخ های دقیق بود و در عین حفظ سطح بالایی از اثربخشی، زمان محاسبات را به طور قابل توجهی کاهش داد.»
دیپ سیک همچنین شش نسخه کوچکتر از R1 را منتشر کرده است که به اندازه کافی کوچک هستند که به صورت محلی روی لپ تاپ ها اجرا شوند. ادعا می کند که یکی از آنها حتی از o1-mini شرکت OpenAI در معیارهای خاصی عملکرد بهتری دارد. آراویند سرینیواس، مدیرعامل شرکت Perplexity، توییت کرد: «دیپ سیک تا حد زیادی o1-mini را تکرار کرده و آن را منبع باز کرده است.» DeepSeek به درخواست MIT Technology Review برای اظهار نظر پاسخ نداد.
با وجود هیاهو در مورد R1، DeepSeek هنوز نسبتاً ناشناخته است. این شرکت که در هانگژو چین مستقر است، در ژوئیه 2023 توسط لیانگ ونفنگ، فارغ التحصیل دانشگاه ژجیانگ با سابقه در مهندسی اطلاعات و الکترونیک، تاسیس شد. این شرکت توسط High-Flyer، یک صندوق پوشش ریسک که لیانگ در سال 2015 تأسیس کرد، ایجاد شد. مانند سام آلتمن از OpenAI، لیانگ قصد دارد هوش مصنوعی عمومی (AGI) بسازد، نوعی هوش مصنوعی که می تواند در طیف وسیعی از وظایف با انسان ها مطابقت داشته باشد یا حتی آنها را شکست دهد.
آموزش مدل های زبان بزرگ (LLM) نیاز به تیمی از محققان آموزش دیده و قدرت محاسباتی قابل توجهی دارد. کای-فو لی، کارآفرین با سابقه و رئیس سابق گوگل چین، در مصاحبه اخیر با رسانه چینی LatePost، گفت که فقط "بازیکنان ردیف جلو" معمولاً در ساخت مدل های پایه مانند ChatGPT شرکت می کنند، زیرا بسیار پرهزینه است.
وضعیت با کنترل صادرات ایالات متحده بر نیمه هادی های پیشرفته پیچیده تر شده است. با این حال، تصمیم High-Flyer برای ورود به هوش مصنوعی مستقیماً با این محدودیت ها مرتبط است. مدت ها قبل از تحریم های پیش بینی شده، لیانگ ذخایر قابل توجهی از تراشه های Nvidia A100، نوعی که اکنون صادرات آن به چین ممنوع است، به دست آورد. رسانه چینی 36Kr تخمین می زند که این شرکت بیش از 10000 واحد در انبار دارد، اما دیلن پاتل، بنیانگذار شرکت مشاوره تحقیقاتی هوش مصنوعی SemiAnalysis، تخمین می زند که حداقل 50000 واحد دارد. تشخیص پتانسیل این انبار برای آموزش هوش مصنوعی همان چیزی است که لیانگ را بر آن داشت تا DeepSeek را تأسیس کند، که توانست از آنها در ترکیب با تراشه های کم مصرف برای توسعه مدل های خود استفاده کند.
یک تازه وارد
غول های فناوری مانند علی بابا و بایت دنس، و همچنین انگشت شماری از استارت آپ ها با سرمایه گذاران متمول، بر فضای هوش مصنوعی چین تسلط دارند و رقابت را برای شرکت های کوچک یا متوسط دشوار می کنند. شرکتی مانند DeepSeek، که هیچ برنامه ای برای جمع آوری سرمایه ندارد، نادر است.
ژیهان وانگ، کارمند سابق DeepSeek، به MIT Technology Review گفت که هنگام کار در DeepSeek به منابع محاسباتی فراوانی دسترسی داشته و آزادی آزمایش به او داده شده است، "تجملاتی که تعداد کمی از فارغ التحصیلان جدید در هر شرکتی به دست می آورند."
لیانگ در مصاحبه ای با رسانه چینی 36Kr در ژوئیه 2024 گفت که یک چالش اضافی که شرکت های چینی علاوه بر تحریم های تراشه با آن روبرو هستند این است که تکنیک های مهندسی هوش مصنوعی آنها معمولاً کارایی کمتری دارند. وی گفت: «ما [اکثر شرکتهای چینی] باید دو برابر قدرت محاسباتی مصرف کنیم تا به نتایج مشابهی برسیم. این امر همراه با شکاف های کارایی داده ها، می تواند به معنای نیاز به چهار برابر قدرت محاسباتی بیشتر باشد. هدف ما این است که به طور مداوم این شکاف ها را پر کنیم.»
اما دیپ سیک راه هایی برای کاهش استفاده از حافظه و سرعت بخشیدن به محاسبات بدون فدا کردن دقت به میزان قابل توجهی پیدا کرد. وانگ می گوید: "این تیم عاشق تبدیل یک چالش سخت افزاری به فرصتی برای نوآوری است."
خود لیانگ همچنان عمیقاً در فرآیند تحقیق DeepSeek درگیر است و در کنار تیم خود آزمایش هایی را انجام می دهد. وانگ می گوید: "کل تیم فرهنگ همکاری و فداکاری را برای تحقیقات اصلی به اشتراک می گذارند."
برای همه باز است
شرکت های چینی علاوه بر اولویت دادن به کارایی، به طور فزاینده ای از اصول منبع باز استقبال می کنند. Alibaba Cloud بیش از 100 مدل هوش مصنوعی منبع باز جدید را منتشر کرده است که از 29 زبان پشتیبانی می کنند و به برنامه های مختلفی از جمله برنامه نویسی و ریاضیات پاسخ می دهند. به طور مشابه، استارت آپ هایی مانند Minimax و 01.AI مدل های خود را منبع باز کرده اند.
بر اساس مقاله سفیدی که سال گذشته توسط آکادمی فناوری اطلاعات و ارتباطات چین، یک مؤسسه تحقیقاتی وابسته به دولت، منتشر شد، تعداد مدلهای زبان بزرگ هوش مصنوعی در سراسر جهان به 1328 رسیده است که 36 درصد آن از چین منشا گرفته است. این امر چین را به عنوان دومین مشارکت کننده بزرگ در هوش مصنوعی، پس از ایالات متحده، قرار می دهد.
توماس کیتونگ کائو، استادیار سیاست فناوری در دانشگاه تافتس، می گوید: "این نسل از محققان جوان چینی به شدت با فرهنگ منبع باز همذات پنداری می کنند زیرا آنها از آن سود زیادی می برند."
مت شیهان، محقق هوش مصنوعی در بنیاد کارنگی برای صلح بینالمللی، میگوید: «کنترل صادرات ایالات متحده اساساً شرکتهای چینی را به گوشهای سوق داده است که در آن مجبورند با منابع محاسباتی محدود خود بسیار کارآمدتر عمل کنند.» ما احتمالاً شاهد ادغام زیادی در آینده در رابطه با کمبود محاسبات خواهیم بود.»
شاید از قبل این اتفاق شروع شده باشد. دو هفته پیش، Alibaba Cloud اعلام کرد که با استارت آپ 01.AI مستقر در پکن، که توسط کای-فو لی تأسیس شده است، برای ادغام تیم های تحقیقاتی و ایجاد یک "آزمایشگاه مدل بزرگ صنعتی" همکاری کرده است.
کائو، استاد تافتس، می گوید: "این انرژی کارآمد است و طبیعی است که نوعی تقسیم کار در صنعت هوش مصنوعی ظاهر شود. تحول سریع هوش مصنوعی نیازمند چابکی از سوی شرکت های چینی برای بقا است."