درباره دیپ‌سیک و کنترل صادرات

چند هفته پیش من استدلال کردم برای اعمال کنترل‌های صادراتی قوی‌تر ایالات متحده بر روی تراشه‌ها به چین. از آن زمان، دیپ‌سیک، یک شرکت هوش مصنوعی چینی، موفق شده است — حداقل از برخی جهات — به عملکرد مدل‌های هوش مصنوعی پیشرو آمریکا با هزینه کمتر نزدیک شود.

در اینجا، من بر این موضوع تمرکز نخواهم کرد که آیا دیپ‌سیک تهدیدی برای شرکت‌های هوش مصنوعی آمریکایی مانند آنتروپیک هست یا نه (اگرچه معتقدم بسیاری از ادعاها در مورد تهدید آنها برای رهبری هوش مصنوعی آمریکا بسیار اغراق‌آمیز است). در عوض، بر این موضوع تمرکز خواهم کرد که آیا انتشار مدل‌های دیپ‌سیک، استدلال برای سیاست‌های کنترل صادرات تراشه‌ها را تضعیف می‌کند یا نه. من فکر نمی‌کنم اینطور باشد. در واقع، به نظر من آنها سیاست‌های کنترل صادرات را از آنچه که هفته پیش بود، مهم‌تر و حیاتی‌تر می‌کنند.

کنترل‌های صادراتی هدف حیاتی دارند: حفظ کشورهای دموکراتیک در خط مقدم توسعه هوش مصنوعی. برای روشن شدن، آنها راهی برای فرار از رقابت بین ایالات متحده و چین نیستند. در پایان، شرکت‌های هوش مصنوعی در ایالات متحده و سایر دموکراسی‌ها باید مدل‌های بهتری نسبت به شرکت‌های چینی داشته باشند، اگر می‌خواهیم پیروز شویم. اما ما نباید مزایای تکنولوژیکی را در اختیار حزب کمونیست چین قرار دهیم، وقتی که نیازی به این کار نداریم.

سه پویایی توسعه هوش مصنوعی

قبل از اینکه استدلال سیاستی خود را مطرح کنم، سه پویایی اساسی سیستم‌های هوش مصنوعی را شرح می‌دهم که درک آنها بسیار مهم است:

  1. قوانین مقیاس‌پذیری. یکی از ویژگی‌های هوش مصنوعی — که من و هم‌بنیانگذارانم از اولین کسانی بودیم که آن را مستند کردیم زمانی که در OpenAI کار می‌کردیم — این است که با ثابت بودن سایر شرایط، مقیاس دادن آموزش سیستم‌های هوش مصنوعی منجر به نتایج بهتر و هموارتری در طیف وسیعی از وظایف شناختی، در همه زمینه‌ها می‌شود. بنابراین، به عنوان مثال، یک مدل 1 میلیون دلاری ممکن است 20٪ از وظایف مهم کدنویسی را حل کند، یک مدل 10 میلیون دلاری ممکن است 40٪ را حل کند، یک مدل 100 میلیون دلاری ممکن است 60٪ را حل کند و غیره. این تفاوت‌ها معمولاً پیامدهای بزرگی در عمل دارند — یک عامل 10 برابر دیگر ممکن است مربوط به تفاوت بین سطح مهارت یک دانشجوی لیسانس و دکترا باشد — و بنابراین شرکت‌ها سرمایه‌گذاری زیادی در آموزش این مدل‌ها انجام می‌دهند.

  2. تغییر دادن منحنی. این حوزه به طور مداوم با ایده‌های بزرگ و کوچک روبرو می‌شود که باعث کارآمدتر یا موثرتر شدن چیزها می‌شوند: می‌تواند بهبود در معماری مدل باشد (تغییری در معماری ترانسفورمر اصلی که همه مدل‌های امروزی از آن استفاده می‌کنند) یا به سادگی راهی برای اجرای کارآمدتر مدل بر روی سخت‌افزار زیربنایی. نسل‌های جدید سخت‌افزار نیز همین تأثیر را دارند. کاری که این معمولاً انجام می‌دهد این است که منحنی را تغییر می‌دهد: اگر نوآوری یک "ضریب محاسباتی" (CM) 2 برابری باشد، به شما امکان می‌دهد 40% در یک وظیفه کدنویسی را با 5 میلیون دلار به جای 10 میلیون دلار بدست آورید؛ یا 60% را با 50 میلیون دلار به جای 100 میلیون دلار بدست آورید و غیره. هر شرکت هوش مصنوعی پیشرو به طور منظم بسیاری از این CM ها را کشف می‌کند: اغلب موارد کوچک (1.2 برابر)، گاهی اوقات موارد متوسط (2 برابر) و هر از چند گاهی موارد بسیار بزرگ (10 برابر). از آنجایی که ارزش داشتن یک سیستم هوشمندتر بسیار زیاد است، این تغییر منحنی معمولاً باعث می‌شود شرکت‌ها بیشتر، نه کمتر، برای آموزش مدل‌ها خرج کنند: سودهای حاصل از کارایی هزینه به طور کامل صرف آموزش مدل‌های هوشمندتر می‌شود، و فقط به منابع مالی شرکت محدود می‌شود. مردم به طور طبیعی جذب این ایده می‌شوند که "ابتدا چیزی گران است، سپس ارزان‌تر می‌شود" — انگار که هوش مصنوعی یک چیز واحد با کیفیت ثابت است و وقتی ارزان‌تر می‌شود، از تراشه‌های کمتری برای آموزش آن استفاده خواهیم کرد. اما آنچه مهم است منحنی مقیاس‌پذیری است: وقتی تغییر می‌کند، به سادگی سریع‌تر آن را طی می‌کنیم، زیرا ارزش آنچه در انتهای منحنی وجود دارد بسیار زیاد است. در سال 2020، تیم من مقاله‌ای منتشر کرد که نشان می‌داد تغییر در منحنی به دلیل پیشرفت الگوریتمی حدود 1.68 برابر در سال است. احتمالاً از آن زمان به طور قابل توجهی سرعت گرفته است؛ همچنین کارایی و سخت‌افزار را در نظر نمی‌گیرد. من حدس می‌زنم که این عدد امروزه شاید 4 برابر در سال باشد. تخمین دیگری اینجا است. تغییرات در منحنی آموزش، منحنی استنتاج را نیز تغییر می‌دهد، و در نتیجه کاهش‌های زیادی در قیمت با ثابت نگه داشتن کیفیت مدل برای سال‌ها رخ داده است. به عنوان مثال، Claude 3.5 Sonnet که 15 ماه بعد از GPT-4 اصلی منتشر شد، در تقریباً همه معیارها از GPT-4 پیشی می‌گیرد، در حالی که قیمت API آن تقریباً 10 برابر کمتر است.

  3. تغییر پارادایم. هر از گاهی، چیز اصلی که در حال مقیاس شدن است کمی تغییر می‌کند، یا نوع جدیدی از مقیاس‌بندی به فرآیند آموزش اضافه می‌شود. از سال 2020 تا 2023، چیز اصلی که در حال مقیاس شدن بود، مدل‌های از پیش آموزش دیده بود: مدل‌هایی که با مقادیر فزاینده‌ای از متن اینترنت با مقدار کمی آموزش دیگر در بالا آموزش می‌دیدند. در سال 2024، ایده استفاده از یادگیری تقویتی (RL) برای آموزش مدل‌ها برای تولید زنجیره‌های فکری به کانون جدیدی برای مقیاس‌بندی تبدیل شده است. آنتروپیک، دیپ‌سیک، و بسیاری از شرکت‌های دیگر (به ویژه OpenAI که مدل o1-preview خود را در ماه سپتامبر منتشر کرد) متوجه شده‌اند که این آموزش به طور چشمگیری عملکرد را در برخی از وظایف انتخابی و قابل اندازه‌گیری عینی مانند ریاضیات، مسابقات کدنویسی و استدلال‌هایی که شبیه این وظایف هستند، افزایش می‌دهد. این پارادایم جدید شامل شروع با نوع معمولی مدل‌های از پیش آموزش دیده است، و سپس به عنوان مرحله دوم از RL برای افزودن مهارت‌های استدلال استفاده می‌شود. نکته مهم این است که از آنجایی که این نوع RL جدید است، ما هنوز در ابتدای منحنی مقیاس‌بندی قرار داریم: مقدار هزینه‌ای که برای مرحله دوم RL صرف می‌شود برای همه بازیکنان کم است. صرف 1 میلیون دلار به جای 0.1 میلیون دلار برای به دست آوردن سودهای هنگفت کافی است. شرکت‌ها اکنون بسیار سریع برای مقیاس‌بندی مرحله دوم به صدها میلیون و میلیاردها کار می‌کنند، اما درک این موضوع بسیار مهم است که ما در یک "نقطه تقاطع" منحصر به فرد قرار داریم، جایی که یک پارادایم جدید قدرتمند وجود دارد که در ابتدای منحنی مقیاس‌بندی قرار دارد و بنابراین می‌تواند به سرعت سودهای زیادی کسب کند.

مدل‌های دیپ‌سیک

سه پویایی بالا می‌تواند به ما در درک انتشار اخیر مدل‌های دیپ‌سیک کمک کند. حدود یک ماه پیش، دیپ‌سیک مدلی به نام "DeepSeek-V3" منتشر کرد که یک مدل از پیش آموزش دیده خالص بود — اولین مرحله توصیف شده در شماره 3 بالا. سپس هفته گذشته، آنها "R1" را منتشر کردند، که مرحله دوم را اضافه کرد. تعیین همه چیز در مورد این مدل‌ها از بیرون امکان‌پذیر نیست، اما درک من از این دو انتشار به شرح زیر است.

DeepSeek-V3 در واقع نوآوری واقعی بود و چیزی بود که باید باعث می‌شد مردم یک ماه پیش متوجه شوند (ما قطعا متوجه شدیم). به عنوان یک مدل از پیش آموزش دیده، به نظر می‌رسد به عملکرد نزدیک شود مدل‌های پیشرفته ایالات متحده در برخی از وظایف مهم، در حالی که هزینه آموزش آن به طور قابل توجهی کمتر است (اگرچه ما متوجه می‌شویم که Claude 3.5 Sonnet به ویژه در برخی دیگر از وظایف کلیدی مانند کدنویسی در دنیای واقعی بسیار بهتر است). تیم دیپ‌سیک این کار را از طریق برخی از نوآوری‌های واقعی و چشمگیر، که بیشتر بر کارایی مهندسی متمرکز بود، انجام داد. به ویژه بهبودهای نوآورانه‌ای در مدیریت جنبه‌ای به نام "حافظه پنهان کلید-مقدار" و در فعال کردن روشی به نام "مخلوطی از متخصصان" برای پیش بردن بیشتر از آنچه قبلا بود، وجود داشت.

  • دیپ‌سیک "با 6 میلیون دلار کاری را که شرکت‌های هوش مصنوعی آمریکایی میلیاردها دلار هزینه می‌کنند انجام نمی‌دهد". من فقط می‌توانم از طرف آنتروپیک صحبت کنم، اما Claude 3.5 Sonnet یک مدل متوسط ​​بود که چند ده میلیون دلار برای آموزش هزینه داشت (من شماره دقیقی ارائه نمی‌دهم). همچنین، 3.5 Sonnet به هیچ وجه با استفاده از یک مدل بزرگتر یا گران‌تر آموزش داده نشد (برخلاف برخی شایعات). آموزش Sonnet 9-12 ماه پیش انجام شد، و مدل دیپ‌سیک در نوامبر/دسامبر آموزش داده شد، در حالی که Sonnet در بسیاری از ارزیابی‌های داخلی و خارجی به طور قابل توجهی پیشتاز است. بنابراین، من فکر می‌کنم یک جمله منصفانه این است: "دیپ‌سیک مدلی نزدیک به عملکرد مدل‌های ایالات متحده با 7-10 ماه قدمت، با هزینه بسیار کمتر (اما نه در نزدیکی نسبت‌هایی که مردم پیشنهاد کرده‌اند) تولید کرد".

  • اگر روند تاریخی کاهش منحنی هزینه حدود 4 برابر در سال باشد، این بدان معناست که در روال عادی کسب‌وکار — در روندهای عادی کاهش هزینه تاریخی مانند آنچه در سال‌های 2023 و 2024 اتفاق افتاد — انتظار داریم مدلی 3-4 برابر ارزان‌تر از 3.5 Sonnet/GPT-4o در حال حاضر وجود داشته باشد. از آنجایی که DeepSeek-V3 بدتر از مدل‌های پیشروی ایالات متحده است — بیایید بگوییم حدود 2 برابر در منحنی مقیاس‌پذیری، که فکر می‌کنم برای DeepSeek-V3 بسیار سخاوتمندانه است — این بدان معناست که کاملاً عادی و کاملاً "در روند" خواهد بود اگر هزینه آموزش DeepSeek-V3 حدود 8 برابر کمتر از مدل‌های فعلی ایالات متحده باشد که یک سال پیش توسعه یافته‌اند. من عددی ارائه نمی‌دهم، اما از نکته قبلی مشخص است که حتی اگر هزینه آموزش دیپ‌سیک را به صورت اسمی در نظر بگیرید، آنها در بهترین حالت در روند هستند و احتمالاً حتی اینطور هم نیست. به عنوان مثال، این کمتر از اختلاف قیمت استنتاج GPT-4 اصلی تا Claude 3.5 Sonnet (10 برابر) است و 3.5 Sonnet مدل بهتری نسبت به GPT-4 است. همه اینها به این معنی است که DeepSeek-V3 یک پیشرفت منحصر به فرد نیست یا چیزی نیست که اساساً اقتصاد LLMها را تغییر دهد؛ بلکه یک نقطه مورد انتظار در منحنی کاهش هزینه مداوم است. چیزی که این بار متفاوت است این است که شرکتی که اولین بار کاهش هزینه‌های مورد انتظار را نشان داد، چینی بود. این هرگز اتفاق نیفتاده است و از نظر ژئوپلیتیکی اهمیت دارد. با این حال، شرکت‌های آمریکایی به زودی از این روند پیروی خواهند کرد — و آنها این کار را با کپی کردن دیپ‌سیک انجام نخواهند داد، بلکه به این دلیل که آنها نیز به روند معمول کاهش هزینه دست می‌یابند.

  • هم دیپ‌سیک و هم شرکت‌های هوش مصنوعی ایالات متحده پول و تراشه‌های بسیار بیشتری نسبت به آنچه قبلا برای آموزش مدل‌های اصلی خود استفاده می‌کردند، دارند. تراشه‌های اضافی برای تحقیق و توسعه برای توسعه ایده‌های پشت مدل و گاهی اوقات برای آموزش مدل‌های بزرگتر که هنوز آماده نیستند (یا به بیش از یک بار تلاش برای درست کردن نیاز داشتند) استفاده می‌شوند. گزارش شده است — نمی‌توانیم مطمئن باشیم که درست است — که دیپ‌سیک در واقع 50000 تراشه نسل Hopper داشته است، که من حدس می‌زنم در محدوده فاکتور 2-3 برابر از آنچه که شرکت‌های بزرگ هوش مصنوعی ایالات متحده دارند، باشد (به عنوان مثال، 2-3 برابر کمتر از کلاستر "Colossus" شرکت xAI است). هزینه این 50000 تراشه Hopper در حدود 1 میلیارد دلار است. بنابراین، کل هزینه‌کرد دیپ‌سیک به عنوان یک شرکت (به غیر از هزینه‌کرد برای آموزش یک مدل خاص) تفاوت چندانی با آزمایشگاه‌های هوش مصنوعی ایالات متحده ندارد.

  • شایان ذکر است که تجزیه و تحلیل "منحنی مقیاس‌پذیری" کمی ساده‌سازی شده است، زیرا مدل‌ها تا حدودی متمایز هستند و نقاط قوت و ضعف متفاوتی دارند؛ اعداد منحنی مقیاس‌پذیری یک میانگین خام است که بسیاری از جزئیات را نادیده می‌گیرد. من فقط می‌توانم در مورد مدل‌های آنتروپیک صحبت کنم، اما همانطور که در بالا به آن اشاره کردم، Claude در کدنویسی و داشتن سبک تعامل خوب با افراد بسیار خوب است (بسیاری از افراد از آن برای مشاوره یا پشتیبانی شخصی استفاده می‌کنند). در این وظایف و برخی وظایف اضافی، هیچ مقایسه‌ای با دیپ‌سیک وجود ندارد. این عوامل در اعداد مقیاس‌پذیری ظاهر نمی‌شوند.

R1، مدلی که هفته گذشته منتشر شد و باعث انفجار توجه عمومی شد (از جمله کاهش 17 درصدی در قیمت سهام انویدیا)، از دیدگاه نوآوری یا مهندسی بسیار کم‌اهمیت‌تر از V3 است. این مدل فاز دوم آموزش را اضافه می‌کند — یادگیری تقویتی، که در شماره 3 در بخش قبلی توضیح داده شد — و اساساً کاری را که OpenAI با o1 انجام داده است، تکرار می‌کند (به نظر می‌رسد آنها در مقیاس مشابه با نتایج مشابه هستند). با این حال، از آنجایی که ما در بخش ابتدایی منحنی مقیاس‌پذیری هستیم، امکان تولید مدل‌هایی از این نوع برای چندین شرکت وجود دارد، به شرطی که از یک مدل از پیش آموزش دیده قوی شروع کنند. تولید R1 با توجه به V3 احتمالاً بسیار ارزان بود. بنابراین ما در یک "نقطه تقاطع" جالب قرار داریم، جایی که به طور موقت این امکان وجود دارد که چندین شرکت بتوانند مدل‌های استدلالی خوبی تولید کنند. با حرکت همه به سمت بالای منحنی مقیاس‌پذیری در این مدل‌ها، این موضوع به سرعت متوقف خواهد شد.

کنترل‌های صادرات

همه اینها فقط مقدمه‌ای بر موضوع اصلی مورد علاقه من است: کنترل‌های صادرات تراشه‌ها به چین. با توجه به حقایق فوق، من وضعیت را به شرح زیر می‌بینم:

  • روندی در حال انجام است که در آن شرکت‌ها بیشتر و بیشتر برای آموزش مدل‌های هوش مصنوعی قدرتمند هزینه می‌کنند، حتی با وجود اینکه منحنی به طور دوره‌ای تغییر می‌کند و هزینه آموزش یک سطح مشخص از هوش مدل به سرعت کاهش می‌یابد. فقط ارزش اقتصادی آموزش مدل‌های هوشمندتر و هوشمندتر به قدری زیاد است که هرگونه سود حاصل از هزینه به سرعت بیشتر از بین می‌رود — آنها به همان هزینه هنگفتی که در ابتدا قصد داشتیم خرج کنیم، برای ساخت مدل‌های هوشمندتر ریخته می‌شوند. تا حدی که آزمایشگاه‌های ایالات متحده هنوز آنها را کشف نکرده‌اند، نوآوری‌های کارآمدی که دیپ‌سیک توسعه داده است به زودی توسط آزمایشگاه‌های ایالات متحده و چین برای آموزش مدل‌های چند میلیارد دلاری به کار گرفته می‌شود. اینها عملکرد بهتری نسبت به مدل‌های چند میلیارد دلاری که قبلاً قصد آموزش آنها را داشتند، خواهند داشت — اما همچنان چند میلیارد هزینه خواهند کرد. این عدد همچنان افزایش خواهد یافت، تا زمانی که به هوش مصنوعی برسیم که تقریباً در همه چیز از تقریباً همه انسان‌ها هوشمندتر باشد.

  • ساخت هوش مصنوعی که تقریباً در همه چیز از تقریباً همه انسان‌ها هوشمندتر باشد، به میلیون‌ها تراشه، ده‌ها میلیارد دلار (حداقل) نیاز دارد و به احتمال زیاد در سال‌های 2026-2027 اتفاق می‌افتد. انتشار مدل‌های دیپ‌سیک این موضوع را تغییر نمی‌دهد، زیرا آنها تقریباً بر روی منحنی کاهش هزینه مورد انتظار هستند که همیشه در این محاسبات در نظر گرفته شده است.

  • این بدان معناست که در سال‌های 2026-2027 می‌توانیم در یکی از دو دنیای کاملاً متفاوت قرار بگیریم. در ایالات متحده، چندین شرکت قطعا میلیون‌ها تراشه مورد نیاز را خواهند داشت (با هزینه ده‌ها میلیارد دلار). سوال این است که آیا چین نیز می‌تواند میلیون‌ها تراشه به دست آورد یا نه.

    • اگر بتوانند، ما در یک دنیای دوقطبی زندگی خواهیم کرد، جایی که هم ایالات متحده و هم چین مدل‌های قدرتمند هوش مصنوعی دارند که باعث پیشرفت‌های بسیار سریع در علم و فناوری خواهند شد — آنچه من آن را "کشورهای نوابغ در یک مرکز داده" نامیده‌ام. یک دنیای دوقطبی لزوماً برای همیشه متوازن نخواهد بود. حتی اگر ایالات متحده و چین در سیستم‌های هوش مصنوعی برابر باشند، به نظر می‌رسد که چین می‌تواند استعداد، سرمایه و تمرکز بیشتری را به کاربردهای نظامی فناوری هدایت کند. این امر همراه با پایگاه صنعتی بزرگ و مزایای نظامی-استراتژیک آن، می‌تواند به چین کمک کند تا در صحنه جهانی نه تنها برای هوش مصنوعی بلکه برای همه چیز پیشتاز شود.
    • اگر چین نتواند میلیون‌ها تراشه به دست آورد، ما (حداقل به طور موقت) در یک دنیای تک قطبی زندگی خواهیم کرد، جایی که فقط ایالات متحده و متحدانش این مدل‌ها را دارند. مشخص نیست که آیا دنیای تک قطبی دوام خواهد آورد یا نه، اما حداقل این احتمال وجود دارد که، از آنجا که سیستم‌های هوش مصنوعی در نهایت می‌توانند به ساخت سیستم‌های هوش مصنوعی هوشمندتر کمک کنند، یک برتری موقت می‌تواند به یک مزیت پایدار تبدیل شود. بنابراین، در این دنیا، ایالات متحده و متحدانش ممکن است در صحنه جهانی به برتری فرماندهی و طولانی مدت دست یابند.
  • کنترل‌های صادراتی به خوبی اجرا شده تنها چیزی است که می‌تواند از دستیابی چین به میلیون‌ها تراشه جلوگیری کند و بنابراین مهم‌ترین عامل تعیین کننده این است که آیا ما در یک دنیای تک قطبی یا دوقطبی قرار خواهیم گرفت.

  • عملکرد دیپ‌سیک به این معنا نیست که کنترل‌های صادراتی شکست خورده‌اند. همانطور که در بالا ذکر کردم، دیپ‌سیک تعداد متوسط ​​تا زیادی تراشه داشت، بنابراین جای تعجب نیست که توانستند یک مدل قدرتمند را توسعه داده و سپس آموزش دهند. آنها از نظر منابع به طور قابل توجهی محدودتر از شرکت‌های هوش مصنوعی ایالات متحده نبودند و کنترل‌های صادراتی عامل اصلی "نوآوری" آنها نبود. آنها صرفاً مهندسان بسیار با استعدادی هستند و نشان می‌دهند که چرا چین رقیب جدی برای ایالات متحده است.

  • دیپ‌سیک همچنین نشان نمی‌دهد که چین همیشه می‌تواند تراشه‌های مورد نیاز خود را از طریق قاچاق به دست آورد، یا اینکه کنترل‌ها همیشه دارای حفره هستند. من باور نمی‌کنم که کنترل‌های صادراتی هرگز برای جلوگیری از دستیابی چین به چند ده هزار تراشه طراحی شده باشند. 1 میلیارد دلار فعالیت اقتصادی را می‌توان پنهان کرد، اما پنهان کردن 100 میلیارد دلار یا حتی 10 میلیارد دلار دشوار است. قاچاق یک میلیون تراشه نیز ممکن است از نظر فیزیکی دشوار باشد. همچنین بررسی تراشه‌هایی که گزارش شده دیپ‌سیک در حال حاضر دارد آموزنده است. به گفته SemiAnalysis، این ترکیبی از H100، H800 و H20 است که در مجموع 50 هزار عدد می‌شود. H100 از زمان انتشار خود تحت کنترل‌های صادراتی ممنوع شده است، بنابراین اگر دیپ‌سیک هر کدام از آنها را داشته باشد، باید قاچاق شده باشد (توجه داشته باشید که انویدیا اعلام کرده است که پیشرفت‌های دیپ‌سیک "کاملاً مطابق با کنترل صادرات" است). H800 در دور اول کنترل‌های صادراتی سال 2022 مجاز بود، اما در اکتبر 2023 زمانی که کنترل‌ها به روز شدند، ممنوع شد، بنابراین اینها احتمالاً قبل از ممنوعیت ارسال شده‌اند. H20 برای آموزش کارایی کمتری دارد و برای نمونه‌برداری کارآمدتر است — و هنوز مجاز است، اگرچه من فکر می‌کنم باید ممنوع شود. همه اینها به این معنی است که به نظر می‌رسد بخش قابل توجهی از ناوگان تراشه‌های هوش مصنوعی دیپ‌سیک از تراشه‌هایی تشکیل شده است که ممنوع نشده‌اند (اما باید ممنوع شوند)؛ تراشه‌هایی که قبل از ممنوع شدن ارسال شده‌اند؛ و برخی که به نظر می‌رسد بسیار محتمل است که قاچاق شده باشند. این نشان می‌دهد که کنترل‌های صادراتی در واقع کار می‌کنند و در حال انطباق هستند: حفره‌ها در حال بسته شدن هستند؛ در غیر این صورت، احتمالاً آنها ناوگان کاملی از H100های پیشرفته خواهند داشت. اگر بتوانیم آنها را به اندازه کافی سریع ببندیم، ممکن است بتوانیم از دستیابی چین به میلیون‌ها تراشه جلوگیری کنیم و احتمال یک دنیای تک قطبی با پیشتازی ایالات متحده را افزایش دهیم.

با توجه به تمرکز من بر کنترل‌های صادراتی و امنیت ملی ایالات متحده، می‌خواهم یک چیز را روشن کنم. من خود دیپ‌سیک را به عنوان دشمن نمی‌بینم و هدف این نیست که آنها را به طور خاص هدف قرار دهیم. در مصاحبه‌هایی که آنها انجام داده‌اند، به نظر می‌رسند محققان باهوش و کنجکاوی هستند که فقط می‌خواهند فناوری مفیدی بسازند.

اما آنها مدیون یک دولت مستبد هستند که مرتکب نقض حقوق بشر شده است، در صحنه جهانی رفتاری تهاجمی داشته است و اگر بتواند در هوش مصنوعی با ایالات متحده برابری کند، در این اقدامات بسیار آزادتر خواهد بود. کنترل‌های صادراتی یکی از قدرتمندترین ابزارهای ما برای جلوگیری از این امر است، و این ایده که فناوری قدرتمندتر می‌شود، بیشتر ارزش پیدا می‌کند، دلیلی برای لغو کنترل‌های صادراتی ما نیست.