تصویرسازی توسط نالینی نیراد
تصویرسازی توسط نالینی نیراد

چگونه TurboML قصد دارد یک مدل پایه را با کمتر از 12 میلیون دلار بسازد؟

پلتفرم یادگیری ماشین TurboML یکی از پیشتازان منتظر تصمیم از طرف ماموریت IndiaAI در مورد پیشنهاد خود برای ساخت مدل‌های هوش مصنوعی پایه است که بر روی مجموعه داده‌های هندی آموزش داده شده‌اند.

به عنوان یک بنیانگذار برای اولین بار، سیدارت باتیا از TurboML با AIM در مورد هدف خود برای ساخت یک مدل پایه بومی با کمتر از 12 میلیون دلار صحبت کرد.

DeepSeek چین ادعا می‌کند که مدل خود را با کمتر از 6 میلیون دلار ساخته است. اگرچه باتیا به طور خاص به این رقم اشاره نکرد، اما خاطرنشان کرد که عضویت در ماموریت IndiaAI به او امکان دسترسی به نرخ‌های محاسباتی یارانه‌ای از طریق فروشندگان و قراردادهای دولتی را می‌دهد.

اما، آیا واقعاً می‌توان یک مدل پایه SOTA را در 6 ماه ساخت؟

باتیا معتقد است که این امر با یادگیری تقویتی، تولید داده و همکاری جهانی امکان‌پذیر است.

مسئله هند منحصر به فرد است. باتیا گفت که هند عمدتاً به دلیل کمبود داده در مقیاس اینترنت در مقایسه با کشورهایی مانند ایالات متحده و چین با چالش‌هایی روبرو است. علاوه بر این، تنوع زبانی به مشکلات ما می‌افزاید.

باتیا گفت که TurboML یک رویکرد مرحله‌ای را اتخاذ خواهد کرد، و با مجموعه‌های داده و پارامترهای مدل کوچک‌تر شروع می‌کند و در هر مرحله 10 برابر افزایش می‌دهد. نقشه راه شامل پیشرفت از کمتر از 20 میلیارد توکن در ابتدا به حدود 70 میلیارد توکن در مراحل بعدی است.

وی همچنین مراحل مختلف، از جمله پیش‌آموزش، پس‌آموزش و یادگیری تقویتی برای داده‌های ترجیحی را برجسته کرد. این پلتفرم تلاش می‌کند تا این فرآیند را به صورت مرحله‌ای ساختاربندی کند تا جدول زمانی قابل دستیابی شود.

اشوینی وایشناو، وزیر فناوری اطلاعات، انتظار دارد که LLM هند در ده ماه آماده شود. دولت 2000 کرور روپیه برای ماموریت IndiaAI اختصاص داده است و تاکنون 67 پیشنهاد، از جمله 22 پیشنهاد برای LLM دریافت کرده است. وزارت الکترونیک و فناوری اطلاعات (MeitY) تا پانزدهم هر ماه به مدت شش ماه آینده یا تا زمانی که تعداد کافی داشته باشند، به پذیرش پیشنهادات ادامه خواهد داد.

AIM همچنین با بالارامان راویندران، استاد IIT Madras و مربی آرویند سرینیواس، مدیرعامل Perplexity، صحبت کرد تا ارزیابی کند که آیا این جدول زمانی قابل قبول است یا خیر.

او به AIM گفت: "من فکر می‌کنم شش ماه یک جدول زمانی بسیار تهاجمی است تا ما واقعاً مدل‌های فوق‌العاده توانمندی بسازیم. چیزی که احتمالاً به دست خواهیم آورد مدل‌های درست یا مناسب هستند. ما قرار نیست دنیا را تکان دهیم." جالب اینجاست که IIT Madras نیز در همکاری با یک استارت‌آپ، پیشنهادی را تحت ماموریت IndiaAI ارائه کرده است.

بازیکنان دیگری مانند Sarvam AI، Krutrim، CoRover.ai، Zoho، LossFunk، Kissan AI، Soket AI Labs، TurboML و IIIT Hyderabad نیز در مسابقه توسعه مدل‌های GenAI نسل بعدی هند تحت این ماموریت هستند.

ایجاد یک "تیم جهانی"

کلید دستیابی به این هدف نیز در جمع‌آوری یک تیم در سطح جهانی نهفته است. باتیا از طریق پستی در شبکه‌های اجتماعی، محققان و مهندسان هوش مصنوعی از راه دور را فراخواند. باتیا گفت: "ما سعی می‌کنیم کاری مشابه آزمایشگاه ماشین‌های تفکر [میرا موراتی] انجام دهیم و محققان مختلف را گرد هم آوریم."

باتیا در مورد فلسفه استخدام خود خاطرنشان کرد که تیم فقط به استعدادهای هندی محدود نمی‌شود. آنها به دنبال متخصصان بین‌المللی از شرکت‌هایی مانند متا، OpenAI و Anthropic نیز هستند.

او گفت که تیم اصلی از راه دور است و در هند و منطقه خلیج سانفرانسیسکو حضور دارد.

ریشه‌های TurboML

باتیا دکترای خود را در زمینه یادگیری ماشین بی‌درنگ در دانشگاه ملی سنگاپور (NUS) گرفت. این همچنین جایی است که او با یکی از بنیانگذاران خود، آرجیت جین، ملاقات کرد. "یکی از بنیانگذاران من در IIT بمبئی بود و برای یک دوره کارآموزی در NUS آمده بود. این اولین استخدام من به عنوان دانشجوی دکترا بود." تحقیقات آنها نیز در کنفرانس‌هایی مانند NeurIPS منتشر شده است.

او در مورد پیشرفت استارت‌آپی خود گفت: "یکی از پروژه‌های ما در صفحه اول Hacker News Y Combinator قرار گرفت... افرادی از آمازون، مسترکارت و اینستاکارت نسخه‌های خود را پیاده‌سازی کردند."

باتیا گفت: متعاقباً، این خبر منجر به علاقه زیادی از طرف شرکت‌های بزرگ شد که در مورد محصولی در اطراف پروژه خود سوال کردند.

این همچنین منجر به انتقال آنها از دانشگاه به کارآفرینی و مشاوره شد. در ابتدا، آنها تقاضا را از طریق تعاملات مشاوره‌ای و با همکاری مستقیم با شرکت‌ها در پیاده‌سازی‌های خاص، مدیریت می‌کردند.

باتیا خاطرنشان کرد: "ما شروع به همکاری با چند شرکت فقط بر اساس مشاوره قراردادی کردیم." باتیا خاطرنشان کرد که چنین تعاملاتی به آنها کمک کرد تا موارد استفاده و نیازهای دنیای واقعی را فراتر از تحقیقات آکادمیک درک کنند.

این امر منجر به شروع TurboML شد.

این شرکت بر موارد استفاده از یادگیری ماشین بی‌درنگ مانند تشخیص ناهنجاری و تشخیص تقلب تمرکز دارد.

به گفته باتیا، این پلتفرم مدل‌های سنتی ML و LLM را به طور مداوم با داده‌های تازه از طریق یک الگوی جریانی به‌روز نگه می‌دارد. همچنین از مهندسی ویژگی بی‌درنگ پشتیبانی می‌کند و راه‌حل‌های API و سازمانی ارائه می‌دهد.

در پایان، باتیا نتیجه گرفت که مستقل از حمایت دولت، آنها قصد دارند به کار خود ادامه دهند، زیرا ارزش قابل توجهی در مدل پایه‌ای که در حال توسعه آن هستند، می‌بینند. این شرکت قبلاً بودجه جمع‌آوری کرده است، اگرچه هنوز از حالت مخفی خارج نشده‌اند.