در هفتهای که از زمانی که یک مدل هوش مصنوعی چینی به نام DeepSeek به یک نام آشنا تبدیل شد، تعدادی روایت گیجکننده با درجات مختلف دقت به دست آمده است: اینکه مدل در حال جمعآوری اطلاعات شخصی شماست (شاید)؛ اینکه هوش مصنوعی را آنطور که می شناسیم دگرگون خواهد کرد (خیلی زود است که بگوییم - اما حتما داستان همکارم ویل را در این مورد بخوانید داستان!)؛ و شاید مهمتر از همه، رویکرد جدید و کارآمدتر DeepSeek به این معنی است که هوش مصنوعی ممکن است نیازی به مصرف مقادیر عظیمی از انرژی که در حال حاضر مصرف می کند، نداشته باشد.
ایده اخیر گمراه کننده است و اعداد جدیدی که با MIT Technology Review به اشتراک گذاشته شده است به نشان دادن دلیل آن کمک می کند. این ارقام اولیه - بر اساس عملکرد یکی از مدل های کوچکتر DeepSeek در تعداد کمی از درخواست ها - نشان می دهد که هنگام تولید پاسخ ها می تواند فشرده تر از مدل هم اندازه متا باشد. مشکل ممکن است این باشد که انرژی ذخیره شده در آموزش با تکنیک های فشرده تر برای پاسخ دادن به سوالات و پاسخ های طولانی که آنها تولید می کنند جبران شود.
این واقعیت را اضافه کنید که سایر شرکتهای فناوری، با الهام از رویکرد DeepSeek، ممکن است اکنون شروع به ساخت مدلهای استدلالی کمهزینه مشابه خود کنند، و چشمانداز مصرف انرژی در حال حاضر به نظر خیلی کمتر خوشایند است.
چرخه عمر هر مدل هوش مصنوعی دو مرحله دارد: آموزش و استنتاج. آموزش فرآیندی است که اغلب ماهها طول میکشد که در آن مدل از دادهها یاد میگیرد. سپس مدل برای استنتاج آماده می شود، که هر بار که کسی در جهان از آن چیزی می پرسد اتفاق می افتد. هر دو معمولاً در مراکز داده انجام می شوند، جایی که برای اجرای تراشه ها و سرورهای خنک کننده به انرژی زیادی نیاز دارند.
در سمت آموزش برای مدل R1 خود، تیم DeepSeek تکنیکی به نام "مخلوطی از متخصصان" را بهبود بخشید، که در آن تنها بخشی از میلیاردها پارامتر یک مدل - "دکمه هایی" که یک مدل برای ارائه پاسخ های بهتر استفاده می کند - در یک زمان معین در طول آموزش روشن می شوند. مهمتر از آن، آنها یادگیری تقویتی را بهبود بخشیدند، جایی که خروجی های یک مدل نمره دهی می شوند و سپس برای بهتر کردن آن استفاده می شوند. این کار اغلب توسط حاشیه نویسان انسانی انجام می شود، اما تیم DeepSeek در خودکارسازی آن خوب شد.
معرفی راهی برای کارآمدتر کردن آموزش ممکن است نشان دهد که شرکت های هوش مصنوعی از انرژی کمتری برای رساندن مدل های هوش مصنوعی خود به یک استاندارد معین استفاده می کنند. با این حال، این واقعاً نحوه عملکرد آن نیست.
داریو آمودی، یکی از بنیانگذاران Anthropic در وبلاگ خود نوشت: «؟زیرا ارزش داشتن یک سیستم هوشمندتر بسیار بالا است، «باعث می شود شرکت ها بیشتر، نه کمتر، برای آموزش مدل ها هزینه کنند. اگر شرکتها برای پول خود بیشتر به دست آورند، ارزش صرف هزینه بیشتر را خواهند داشت و بنابراین از انرژی بیشتری استفاده میکنند. او نوشت: «درآمدهای ناشی از بهرهوری هزینه، کاملاً صرف آموزش مدلهای هوشمندتر میشود و تنها محدود به منابع مالی شرکت است.» این نمونه ای از چیزی است که به عنوان پارادوکس Jevons شناخته می شود.
اما این در سمت آموزش تا زمانی که مسابقه هوش مصنوعی ادامه داشته است، صادق بوده است. انرژی مورد نیاز برای استنتاج جایی است که همه چیز جالب تر می شود.
DeepSeek به عنوان یک مدل استدلالی طراحی شده است، به این معنی که برای عملکرد خوب در مواردی مانند منطق، یافتن الگو، ریاضیات و سایر کارهایی که مدل های معمولی هوش مصنوعی مولد با آن دست و پنجه نرم می کنند، طراحی شده است. مدل های استدلالی این کار را با استفاده از چیزی به نام "زنجیره تفکر" انجام می دهند. این به مدل هوش مصنوعی اجازه می دهد تا کار خود را به بخش هایی تقسیم کند و قبل از رسیدن به نتیجه، آنها را به ترتیب منطقی طی کند.
شما می توانید این را با DeepSeek ببینید. بپرسید که آیا دروغ گفتن برای محافظت از احساسات کسی اشکالی ندارد یا خیر، و مدل ابتدا با سودگرایی به این سوال می پردازد و خوبی فوری را در برابر آسیب احتمالی آینده می سنجد. سپس اخلاق کانتی را در نظر می گیرد، که پیشنهاد می کند شما باید مطابق با اصول کلی عمل کنید که می توانند قوانین جهانی باشند. قبل از به اشتراک گذاشتن نتیجه گیری خود، اینها و سایر ظرایف را در نظر می گیرد. (اگر کنجکاو هستید، متوجه می شود که دروغ گفتن "به طور کلی در شرایطی که مهربانی و جلوگیری از آسیب در درجه اول اهمیت قرار دارد، قابل قبول است، اما با راه حل جهانی دقیق نیست.")
مدلهای زنجیره تفکر تمایل دارند در معیارهای خاصی مانند MMLU، که دانش و حل مسئله را در 57 موضوع آزمایش میکند، عملکرد بهتری داشته باشند. اما، همانطور که با DeepSeek روشن می شود، آنها برای رسیدن به پاسخ های خود به انرژی بسیار بیشتری نیز نیاز دارند. ما سرنخ های اولیه ای در مورد میزان بیشتر بودن آن داریم.
اسکات چمبرلین سالها در مایکروسافت و بعداً اینتل، ابزارهایی را برای کمک به آشکار کردن هزینههای زیستمحیطی فعالیتهای دیجیتالی خاص ایجاد کرد. چمبرلین آزمایشهای اولیهای را انجام داد تا ببیند هنگام رسیدن DeepSeek به پاسخ، یک GPU چقدر انرژی مصرف میکند. این آزمایش با انبوهی از هشدارها همراه است: او فقط یک نسخه متوسط از R-1 DeepSeek را با استفاده از تعداد کمی از درخواست ها آزمایش کرد. همچنین مقایسه با سایر مدل های استدلالی دشوار است.
او می گوید: DeepSeek "واقعاً اولین مدل استدلالی است که نسبتاً محبوب است و هر یک از ما به آن دسترسی داریم." مدل o1 OpenAI نزدیکترین رقیب آن است، اما این شرکت آن را برای آزمایش باز نمی کند. در عوض، او آن را در برابر مدلی از متا با همان تعداد پارامتر: 70 میلیارد آزمایش کرد.
درخواست پرسیدن اینکه آیا دروغ گفتن اشکالی ندارد، یک پاسخ 1000 کلمه ای از مدل DeepSeek تولید کرد که تولید آن 17800 ژول انرژی مصرف کرد - تقریباً همان چیزی که برای پخش یک ویدیوی 10 دقیقه ای در یوتیوب لازم است. این میزان انرژی حدود 41 درصد بیشتر از انرژی بود که مدل متا برای پاسخگویی به درخواست مصرف کرده است. به طور کلی، هنگامی که بر روی 40 درخواست آزمایش شد، مشخص شد که DeepSeek کارایی انرژی مشابهی با مدل متا دارد، اما DeepSeek تمایل داشت پاسخ های بسیار طولانی تری تولید کند و بنابراین مشخص شد که 87 درصد انرژی بیشتری مصرف می کند.
این در مقایسه با مدلهایی که به جای استدلال زنجیره تفکر، از هوش مصنوعی مولد قدیمی استفاده میکنند، چگونه است؟ آزمایشهای تیمی در دانشگاه میشیگان در ماه اکتبر نشان داد که نسخه 70 میلیارد پارامتری Llama 3.1 متا به طور متوسط فقط 512 ژول در هر پاسخ مصرف می کند.
نه DeepSeek و نه متا به درخواست ها برای اظهار نظر پاسخ ندادند.
باز هم: عدم قطعیت ها فراوان است. اینها مدل های متفاوتی برای اهداف مختلف هستند و یک مطالعه علمی دقیق در مورد میزان انرژی مصرفی DeepSeek نسبت به رقبا انجام نشده است. اما بر اساس معماری مدلها بهتنهایی، واضح است که مدلهای زنجیره تفکر هنگام رسیدن به پاسخهای قویتر، انرژی بسیار بیشتری مصرف میکنند.
ساشا لوچیونی، محقق هوش مصنوعی و مسئول آب و هوا در هاگینگ فیس، نگران است که هیجان حول محور DeepSeek ممکن است منجر به عجله برای وارد کردن این رویکرد به همه چیز شود، حتی در مواردی که نیازی به آن نیست.
او میگوید: «اگر به طور گسترده این الگو را اتخاذ کنیم، مصرف انرژی استنتاج سر به فلک میکشد. اگر همه مدلهایی که منتشر میشوند فشردهتر باشند و زنجیره تفکر شوند، در این صورت هرگونه دستاورد کارایی را به طور کامل باطل میکند.»
هوش مصنوعی قبلاً اینجا بوده است. قبل از راه اندازی ChatGPT در سال 2022، نام بازی در هوش مصنوعی استخراج بود - اساساً یافتن اطلاعات در متن های زیاد یا دسته بندی تصاویر. اما در سال 2022، تمرکز از هوش مصنوعی استخراجی به هوش مصنوعی مولد تغییر یافت که بر اساس پیش بینی های بهتر و بهتر است. این انرژی بیشتری می طلبد.
لوچیونی میگوید: «این اولین تغییر پارادایم است.» بر اساس تحقیقات او، این تغییر منجر به استفاده از انرژی بسیار بیشتری برای انجام کارهای مشابه شده است. او می گوید، اگر هیجان پیرامون DeepSeek ادامه پیدا کند، شرکت ها ممکن است تحت فشار قرار گیرند تا مدل های سبک زنجیره تفکر خود را در همه چیز قرار دهند، همانطور که هوش مصنوعی مولد به همه چیز از جستجوی گوگل گرفته تا برنامه های پیام رسانی اضافه شده است.
به نظر میرسد که ما در مسیری از استدلال بیشتر زنجیره تفکر پیش میرویم: OpenAI در 31 ژانویه اعلام کرد که دسترسی به مدل استدلالی خود، o3 را گسترش خواهد داد. اما تا زمانی که DeepSeek و سایر مدل های مشابه به طور بهتری مورد مطالعه قرار نگیرند، اطلاعات بیشتری در مورد هزینه های انرژی نخواهیم داشت.
ناتان بنایچ، بنیانگذار و شریک عمومی در Air Street Capital میگوید: «این بستگی به این دارد که آیا این معامله از نظر اقتصادی برای کسبوکار مورد نظر ارزشمند است یا خیر.» «هزینههای انرژی باید از نمودارها خارج شود تا نقش معناداری در تصمیمگیری ایفا کنند.»