تیمی از محققان به سرپرستی بابک حسیبی، دانشمند کامپیوتر و ریاضیدان از موسسه فناوری کالیفرنیا (Caltech)، ادعا میکنند که یک مدل زبان بزرگ (LLM) ایجاد کردهاند که اندازه آن را بدون به خطر انداختن عملکرد به طور چشمگیری فشرده میکند.
شرکت PrismML، روز سهشنبه از حالت پنهان خارج شد و مدل فناوری 1-بیتی خود را به صورت منبع باز منتشر کرد و امکان استفاده از آن را برای دیگران فراهم آورد.
به گفته حسیبی، PrismML شکل بسیار فشردهای از فناوری را توسعه داده است که به هوش مصنوعی امکان میدهد به صورت محلی روی گوشیها، لپتاپها و سایر دستگاهها اجرا شود و ایجاد مراکز داده را ممکن میسازد که میتوانند با منابع کمتر کارهای بیشتری انجام دهند و از افزایش هزینههای انرژی جلوگیری کنند.
حسیبی، مدیر عامل این پروژه، گفت: «ما سالها را صرف توسعه نظریه ریاضی مورد نیاز برای فشردهسازی یک شبکه عصبی بدون از دست دادن قابلیتهای استدلالی آن کردیم. ما در حال ایجاد پارادایم جدیدی برای هوش مصنوعی هستیم: پارادایمی که با محیطهای سختافزاری متنوع سازگار میشود و حداکثر هوش را در هر واحد محاسبه و انرژی ارائه میدهد.»
دیگر همبنیانگذاران وابسته به کلتک شامل شاهین لاله، امید پولادزندی و رضا صدری هستند که همچنین معاون استراتژی شرکت است.
حسیبی اظهار داشت که مالکیت فکری متعلق به کلتک است و PrismML تنها دارنده مجوز انحصاری آن است.
این شرکت 16.25 میلیون دلار در یک دوره SAFE (قرارداد ساده برای سهام آتی) و سرمایهگذاری اولیه با سرمایهگذاران Khosla Ventures، Cerberus Capital و کلتک جذب کرده است. SAFE زمانی اتفاق میافتد که سرمایهگذار به یک استارتاپ پول میدهد در ازای حق دریافت سهام در آینده.
به گفته وینود خوسلا، سرمایهگذار، آینده هوش مصنوعی نه با کسی که بزرگترین مراکز داده را میسازد، بلکه با کسی که بیشترین هوش را در هر واحد انرژی و هزینه ارائه میدهد، تعریف خواهد شد. خوسلا گفت: «بنابراین این یک تکرار کوچک نیست. این یک پیشرفت فنی بزرگ است. این یک پیشرفت ریاضی است، نه فقط یک مدل کوچک دیگر.»
خوسلا گفت که PrismML نیاز به مدلهای سریع، کوچک اما با عملکرد بالا را برآورده میکند که طیف وسیعی از کاربردها را از مکالمات صوتی تا برخی جنبههای مالی را پوشش میدهد.
مدلهای توسعهیافته توسط PrismML برای اجرا بر روی دستگاههای مصرفی مانند گوشیهای هوشمند و لپتاپها، و همچنین دستگاههای لبه صنعتی طراحی شدهاند. این شرکت گفت که هدف، فعال کردن کاربردهایی در رباتیک، دستگاههای پوشیدنی و محاسبات شخصی است که پیش از این غیرعملی بودند.
خوسلا گفت: «شما میتوانید یک مدل بسیار بهتر را روی یک گوشی جا دهید. این یک موضوع مهم است. البته روی گوشی یا دستگاه موبایل شما، مصرف انرژی بسیار، بسیار مهم است.»
PrismML اعلام کرد که همان افزایش کارایی که امکان استقرار محلی را فراهم میکند، به مراکز داده نیز اجازه میدهد تا به طور موثرتری عمل کنند.
به گفته حسیبی، در حالی که صنعت فناوری در مورد اینکه آینده هوش مصنوعی در مدلهای ترنسفورمر، انتشار، یا مفاهیم جدیدتر نهفته است، به شدت بحث میکند، چارچوب ریاضی PrismML میتواند برای هر یک از آنها به کار رود.
نحوه عملکرد
یکی از راههای توصیف یک مدل هوش مصنوعی از نظر بیتها است که به میزان کد مورد نیاز برای ارائه یک مقدار عددی در صفر و یک، زبان کامپیوتر، اشاره دارد. اکثر مدلهای هوش مصنوعی با دقت 16-بیتی نوشته میشوند، اگرچه برخی رویکردها از 4-بیت یا کمتر استفاده میکنند. به گفته حسیبی، PrismML به یک پیشرفت ریاضی دست یافته است که یک مدل 1-بیتی را بدون به خطر انداختن قابلیتهای استدلال، کدنویسی و دانش عمومی مدلهای با دقت کامل، محقق میسازد. ریاضیات اختصاصی هستند، اما حسیبی گفت که این تأثیر بسیار شبیه فشردهسازی یک عکس دیجیتال بدون از دست دادن وضوح بصری است.
وقتی نوبت به اجرای مدلهای هوش مصنوعی میرسد، تأخیرها، معروف به نهفتگی (latency)، و مصرف انرژی با انتقال دادهها به داخل و خارج از حافظه مرتبط است. حسیبی اظهار داشت با کاهش واحدهای داده، یا وزنهای مدل، به یک بیت واحد که با +1 یا -1 نشان داده میشود، مدل پرچمدار 1-بیتی Bonsai 8B شرکت PrismML میتواند سرعت پردازش را تا هشت برابر در مقایسه با یک مدل 16-بیتی افزایش دهد. وی افزود که همچنین میتواند کاهش 75 تا 80 درصدی در مصرف انرژی را روی پلتفرمهای سختافزاری فعلی به دست آورد. حسیبی گفت اگر سختافزار آینده به طور خاص برای مدلهای یک بیتی طراحی شود، نیاز به ضربهای ریاضی پیچیده را به طور کامل از بین خواهد برد. به گفته حسیبی، سختافزار تنها نیاز به انجام عملیات جمع و تفریق ساده خواهد داشت که مصرف انرژی و نهفتگی را حتی بیشتر کاهش میدهد.
امیر سالک، مدیر ارشد عامل در Cerberus Capital Management، گفت که او متقاعد شده است که PrismML به یک پیشرفت ریاضی بزرگ با پتانسیل بهبود اقتصاد هوش مصنوعی دست یافته است.
به گفته PrismML، با استفاده از معماری 1-بیتی، یک مدل دو ترابایتی بلافاصله به 150 گیگابایت تبدیل میشود. سالک گفت: «نیاز پهنای باند شما به طور قابل توجهی کاهش مییابد، اندازه ذخیرهسازی حافظه شما به طور قابل توجهی کاهش مییابد و انرژی که برای انتقال داده مصرف میکنید... به مقدار زیادی کاهش مییابد.» او قبلاً بنیانگذار و رئیس بخش سیلیکون برای زیرساختهای فنی گوگل و کسبوکارهای Google Cloud بود. پیش از آن، او بنیانگذار و رئیس سازمان طراحی سیستم روی تراشه (System-on-a-Chip) انویدیا بود.
توسعهدهندگان، محققان و سایر کاربران میتوانند مدل منبع باز 1-بیتی Bonsai 8B شرکت PrismML را به صورت رایگان دانلود کنند.
Bonsai 8B یک مدل زبان بزرگ 8 میلیارد پارامتری است که با استفاده از TPUهای (واحد پردازش تانسور) Google v4 آموزش دیده است.
به گفته PrismML، این مدل به استدلال و درک زبان با دقت بالا مشابه مدلهای 16-بیتی دست مییابد، اما با حجم حافظه 1 گیگابایت در مقابل 16 گیگابایت. استدلال با دقت بالا، توانایی موفقیتآمیز انجام استدلالهای پیچیده است.
این شرکت اعلام کرد که مدلهای 1-بیتی Bonsai با 4 میلیارد و 1.7 میلیارد پارامتر را نیز با حجم حافظه 0.5 گیگابایت و 0.24 گیگابایت و تراکم هوش حتی بالاتر منتشر میکند.
درباره نویسنده:
استیون روزنبوش رئیس بخش فناوری سازمانی در موسسه رهبری WSJ است. این تیم به بررسی تعامل تجارت، فناوری و رهبری برای مخاطبان حرفهای میپردازد. این گروه CIO Journal و خبرنامه ایمیل روزانه آن، Morning Download، را منتشر میکند.
ستون هفتگی او به بررسی چگونگی شکلگیری مجدد کسبوکارها توسط هوش مصنوعی و سایر فناوریهای پیشرفته – و پول و افراد پشت آنها – میپردازد. او سخنران مکرر در کنفرانسهای وال استریت ژورنال و رویدادهای صنعتی است.