برنامه چت بات توسعه یافته توسط شرکت هوش مصنوعی چینی DeepSeek. عکس: رافائل هوانگ/WSJ
برنامه چت بات توسعه یافته توسط شرکت هوش مصنوعی چینی DeepSeek. عکس: رافائل هوانگ/WSJ

دره سیلیکون شیفته یک مدل هوش مصنوعی ساخت چین شده است

DeepSeek با وجود کار با تراشه‌های کمتر پیشرفته، «شگفت‌انگیز و تأثیرگذار» خوانده می‌شود.

سنگاپور - یک شرکت هوش مصنوعی چینی، دره سیلیکون را به حیرت انداخته است که چگونه برنامه نویسان آن علی رغم استفاده از تراشه های پایین تر، تقریباً با رقبای آمریکایی برابری می کنند.

مدل های هوش مصنوعی DeepSeek، شرکت چینی، بر اساس یک رتبه بندی محبوب، به 10 رتبه برتر جهانی در عملکرد صعود کرده اند، که نشان می دهد محدودیت های صادراتی واشنگتن در جلوگیری از پیشرفت های سریع در چین با مشکل روبرو هستند.

در 20 ژانویه، DeepSeek مدل R1 را معرفی کرد، یک مدل تخصصی که برای حل مسائل پیچیده طراحی شده است.

مارک اندریسن، سرمایه گذار خطرپذیر دره سیلیکون که به رئیس جمهور ترامپ مشاوره می دهد، در پستی در X در روز جمعه گفت: «Deepseek R1 یکی از شگفت انگیزترین و چشمگیرترین پیشرفت هایی است که تا به حال دیده ام.»

توسعه DeepSeek توسط لیانگ ونفنگ، مدیر صندوق پوشش ریسک چینی، که به چهره پیشروی هوش مصنوعی کشور تبدیل شده است، رهبری می شد. در 20 ژانویه، لیانگ با نخست وزیر چین دیدار کرد و در مورد چگونگی کاهش فاصله شرکت‌های داخلی با ایالات متحده گفتگو کرد.

متخصصان گفتند که فناوری DeepSeek هنوز از فناوری OpenAI و گوگل عقب است. اما علیرغم استفاده از تراشه‌های کمتر و کمتر پیشرفته، و در برخی موارد، صرف نظر کردن از مراحلی که توسعه‌دهندگان ایالات متحده ضروری می‌دانستند، رقیب نزدیکی است.

لیانگ ونفنگ—نشسته در مقابل یک میکروفون—در تلویزیون دولتی چین در حال سخنرانی در جلسه ای در مورد هوش مصنوعی نشان داده شد.
لیانگ ونفنگ—نشسته در مقابل یک میکروفون—در تلویزیون دولتی چین در حال سخنرانی در جلسه ای در مورد هوش مصنوعی نشان داده شد.

DeepSeek اعلام کرد که آموزش یکی از آخرین مدل های آن 5.6 میلیون دلار هزینه داشته است، در مقایسه با محدوده 100 میلیون تا 1 میلیارد دلار که داریو آمودی، مدیر عامل توسعه دهنده هوش مصنوعی آنتروپیک، در سال گذشته به عنوان هزینه ساخت یک مدل ذکر کرد.

بارت وودساید، یکی از بنیانگذاران شرکت سخت افزار هوش مصنوعی Positron در سانفرانسیسکو، گفت که او و همکارانش در مورد DeepSeek غوغا کرده اند. وودساید با اشاره به مدل‌های متن باز DeepSeek که در آن کد نرم‌افزار پشت مدل هوش مصنوعی به‌صورت رایگان در دسترس قرار می‌گیرد، گفت: «خیلی جالب است».

کاربران آخرین مدل پرچمدار DeepSeek که V3 نام دارد و در ماه دسامبر منتشر شد، متوجه شده اند که از پاسخ دادن به سوالات سیاسی حساس در مورد چین و رهبر شی جین پینگ خودداری می کند. در برخی موارد، این محصول به جای اینکه دیدگاه منتقدان دولت را در بر بگیرد، پاسخ هایی مطابق با تبلیغات رسمی پکن می دهد، همانطور که ChatGPT انجام می دهد.

وودساید با اشاره به جمهوری خلق چین، گفت: «تنها ایراد آن سانسور نیمه پخته PRC است»، اما گفت که این مشکل می تواند برطرف شود زیرا سایر توسعه دهندگان می توانند آزادانه کد را تغییر دهند.

DeepSeek گفت R1 و V3 هر دو عملکردی بهتر یا نزدیک به مدل های پیشرو غربی داشتند. تا روز شنبه، این دو مدل در 10 رتبه برتر در چت بات آرنا، پلتفرمی که توسط محققان دانشگاه کالیفرنیا، برکلی میزبانی می شود و عملکرد چت بات را رتبه بندی می کند، قرار گرفتند. یک مدل گوگل جمینی در جایگاه اول قرار داشت، در حالی که DeepSeek از Claude Anthropic و Grok از xAI ایلان ماسک پیشی گرفت.

DeepSeek از واحد تحقیقات هوش مصنوعی High-Flyer، یک مدیر صندوق پوشش ریسک با 8 میلیارد دلار دارایی که به استفاده از هوش مصنوعی برای معاملات معروف است، رشد کرد.

DeepSeek اعلام کرد که برای آموزش مدل V3 خود از خوشه ای با بیش از 2000 تراشه انویدیا استفاده کرده است، در مقایسه با ده ها هزار تراشه برای آموزش مدل هایی با اندازه مشابه.
DeepSeek اعلام کرد که برای آموزش مدل V3 خود از خوشه ای با بیش از 2000 تراشه انویدیا استفاده کرده است، در مقایسه با ده ها هزار تراشه برای آموزش مدل هایی با اندازه مشابه. عکس: آکیو کون/بلومبرگ

لیانگ در سخنرانی در سال 2019 گفت: «وقتی انسان ها تصمیمات سرمایه گذاری می گیرند، این یک هنر است و آنها فقط با احساس خود این کار را انجام می دهند. وقتی برنامه های کامپیوتری چنین تصمیماتی می گیرند، این یک علم است و راه حل بهینه ای دارد.»

لیانگ متولد سال 1985، در استان گوانگدونگ در جنوب شرقی چین بزرگ شد. او به دانشگاه معتبر ژجیانگ چین رفت و در بینایی ماشین تخصص گرفت. چند سال پس از فارغ التحصیلی، لیانگ با دو دوست دانشگاهی در سال 2015 High-Flyer را تاسیس کرد.

به گفته افراد نزدیک به او، لیانگ ترجیح می دهد به عنوان مهندس شناخته شود تا یک معامله گر. High-Flyer او در چین در استفاده از یادگیری عمیق در معاملات رایانه ای پیشگام بود. این تکنیک که بر اساس مغز انسان مدل‌سازی شده است، به رایانه‌ها اجازه می‌دهد تا انواع متنوع‌تری از داده‌ها را تجزیه و تحلیل کنند.

در حالی که مدل پرچمدار DeepSeek رایگان است، این شرکت از کاربرانی که برنامه های خود را به مدل DeepSeek و زیرساخت های محاسباتی متصل می کنند، هزینه دریافت می کند. به عنوان مثال، کسب و کاری است که می خواهد از این فناوری برای ارائه پاسخ های هوش مصنوعی به سوالات مشتریان استفاده کند.

در اوایل سال گذشته، DeepSeek قیمت‌های خود را برای این سرویس به کسری از آنچه سایر فروشندگان شارژ می‌کردند کاهش داد، و باعث شد این صنعت در چین جنگ قیمتی را آغاز کند.

آنتونی پو، یکی از بنیانگذاران یک استارت آپ مستقر در دره سیلیکون که از هوش مصنوعی مولد برای پیش بینی بازده مالی استفاده می کند، گفت که شرکتش در ماه سپتامبر از مدل Claude Anthropic به DeepSeek نقل مکان کرده است. آزمایش‌ها نشان داد که DeepSeek به طور مشابهی با حدود یک چهارم هزینه عمل می کند.

پو گفت: «مدل OpenAI از نظر عملکرد بهترین است، اما ما نمی خواهیم برای ظرفیت هایی که به آن نیاز نداریم نیز هزینه کنیم.»

لیانگ DeepSeek در جلسه 20 ژانویه خود به لی کیانگ، نخست وزیر چین گفت که در حالی که شرکت های چینی در تلاش برای جبران عقب ماندگی هستند، محدودیت های آمریکا در مورد صادرات تراشه های پیشرفته به چین همچنان یک مانع است، به گفته افراد آشنا با این نشست.

در سال 2019، High-Flyer شروع به ساخت خوشه ای از تراشه ها برای تحقیقات هوش مصنوعی کرد، تا حدی با بودجه ای که از تجارت مالی خود به دست آورده بود. این شرکت گفته است که بعداً خوشه بزرگتری از حدود 10000 واحد پردازش گرافیکی انویدیا ساخته است که می توان از آن برای آموزش مدل های زبان بزرگ استفاده کرد.

تنها تعداد انگشت شماری از شرکت ها در چین تا اواخر سال 2022، زمانی که OpenAI ChatGPT را منتشر کرد، زیرساخت های محاسباتی قدرتمندی برای توسعه چنین مدل هایی داشتند.

DeepSeek در گزارش فنی اعلام کرد که از خوشه ای با بیش از 2000 تراشه انویدیا برای آموزش مدل V3 خود استفاده کرده است، در مقایسه با ده ها هزار تراشه برای آموزش مدل هایی با اندازه مشابه. چند متخصص هوش مصنوعی ایالات متحده اخیراً این سوال را مطرح کرده اند که آیا High-Flyer و DeepSeek به قدرت محاسباتی فراتر از آنچه اعلام کرده اند دسترسی دارند یا خیر.

برخی از محققان خارجی گفتند که مدل DeepSeek فاقد برخی قابلیت‌های رقبای گران‌قیمت‌تر خود در پیگیری زمینه مکالمات طولانی است، به عنوان مثال.

برای جدیدترین مدل استدلال خود که در 20 ژانویه منتشر شد، DeepSeek از فرآیندی به نام تنظیم دقیق نظارت شده که در آن برنامه نویسان دانش متخصصان انسانی را برای شروع کار در مدل وارد می کنند، صرف نظر کرد. DeepSeek گفت مدل آن که برای حل مسائل پیچیده ریاضی و چالش های مشابه طراحی شده است، با مدل استدلال o1 OpenAI قابل مقایسه بود، حتی اگر از تنظیم دقیق نظارت شده صرف نظر کرده و بر یادگیری تقویتی متمرکز شده بود - اساساً آزمایش و خطای هدایت شده.

جیم فن، دانشمند ارشد تحقیقات در انویدیا، مقاله DeepSeek را که نتایج را گزارش می کرد، به عنوان یک پیشرفت تحسین کرد. او در X گفت که این موضوع او را به یاد برنامه های هوش مصنوعی پیشگام قبلی می اندازد که در بازی های تخته ای مانند شطرنج "از ابتدا و بدون تقلید از استادان بزرگ انسانی" تسلط یافتند.

زک کاس، مدیر اجرایی سابق OpenAI، گفت که پیشرفت های DeepSeek علیرغم محدودیت های آمریکا "درس گسترده تری را برجسته می کند: محدودیت های منابع اغلب خلاقیت را تقویت می کند."

استو وو در این مقاله مشارکت داشته است.

با رافائل هوانگ در [email protected] تماس بگیرید.