Yuichiro Chino/Getty Images
Yuichiro Chino/Getty Images

به گفته دانشمند ارشد هوش مصنوعی Databricks، هوش مصنوعی مولد سرانجام جایگاه مناسب خود را پیدا می‌کند

به گفته Databricks، غول ابزارهای داده، اگر تمام اصطلاحات رایج در مورد هوش مصنوعی سازمانی مانند "هوش مصنوعی عاملی" را کنار بگذاریم، واقعیت این است که شرکت‌ها در حین آزمایش با این فناوری، در حال یادگیری این موضوع هستند که چه چیزی در عمل کار می‌کند.

همچنین:

جاناتان فرانکل، دانشمند ارشد هوش مصنوعی Databricks، در مصاحبه‌ای که اخیراً با او در نیویورک داشتم، گفت: «ما هنوز در حال یادگیری این هستیم که کجا مکان‌های مناسبی برای قرار دادن هوش مصنوعی هستند، جایی که می‌توانید نقطه بهینه هوش مصنوعی را برای کمک به حل یک مشکل به دست آورید.»

نوع جدیدی از تجزیه و تحلیل سازمانی

به گفته فرانکل، در یک سطح اساسی، هوش مصنوعی مولد، مانند مدل‌های زبانی بزرگ (Large Language Models یا LLM)، نوع جدیدی از تجزیه و تحلیل سازمانی را ممکن می‌سازد. فرانکل خاطرنشان کرد که داده‌های بدون ساختار، مانند فایل‌های Word، تصاویر یا ویدیوها، قبل از هوش مصنوعی مولد، در تجزیه و تحلیل داده‌های سنتی جایگاهی نداشتند. اما اکنون، یک معدن طلا هستند.

او گفت: «تصور کنید انبوهی از اسناد بدون ساختار وجود دارد که تجزیه و تحلیل آنها در دنیای قبل از هوش مصنوعی مولد یا قبل از LLM بسیار دشوار است، و ناگهان می‌توانید ویژگی‌های معناداری را از آنها استخراج کنید. داده‌هایی که در دنیای تجزیه و تحلیل بی‌فایده بودند، اکنون در اینجا فوق‌العاده ارزشمند هستند.»

همچنین:

در حالی که بسیاری از مردم بر این موضوع تمرکز می‌کنند که هوش مصنوعی مولد جایگزین کدنویسی واقعی می‌شود، یک کاربرد بسیار ساده‌تر، تجزیه و تحلیل کد کامپیوتر یک شرکت است.

«تمام مستندات مربوط به تمام کدهای شرکت شما» در سال ۲۰۱۵ «به عنوان یک منبع داده واقعاً مفید نبود، اما، در سال ۲۰۲۵، فوق‌العاده ارزشمند است [...] فقط به سؤالات مربوط به کد شما برای توسعه‌دهندگان پاسخ می‌دهد.»

به طور مشابه، «می‌توانید هر لاگ چت را از یک برنامه خدمات مشتری با انسان‌های واقعی تصور کنید، که تجزیه و تحلیل سطح بالایی را روی آن انجام می‌دهد. میانگین تعداد تعاملات در یک مکالمه چقدر است؟ میانگین زمان برای حل یک مشکل چقدر است؟ چیزهایی که ده سال پیش ممکن نبود.»

به گفته فرانکل، نقش داده‌ها در توسعه برنامه‌های هوش مصنوعی مولد محوری است. فرانکل در سال ۲۰۲۳، زمانی که Databricks استارت‌آپ یادگیری ماشینی MosaicML را که در آن کار می‌کرد، خرید، به Databricks آمد. MosaicML بر بهینه‌سازی زیرساخت برای اجرای هوش مصنوعی تمرکز دارد، در حالی که Databricks یکی از پیشروان دریاچه‌های داده و فناوری برای انتقال و شکل‌دهی داده‌ها است.

همچنین:

فرانکل گفت: «تمام فرضیه برای این خرید این بود که ما یک قطعه داشتیم، Databricks قطعات زیادی دیگر داشت، و با هم بودن بسیار منطقی‌تر بود.»

فرانکل توضیح داد: «شما در تلاش هستید تا یک ربات خدمات مشتری هوش مصنوعی را مستقر کنید. این ربات خدمات مشتری از چه داده‌هایی استفاده می‌کند؟» «این ربات از اطلاعات مشتری، از مستندات شما، از پایگاه‌های داده SQL شما استفاده می‌کند. همه اینها در Databricks قرار دارد.»

از داده به ساختار

داشتن داده‌ها در کنار هم در Databricks، آغاز ایجاد انواع جدیدی از تجزیه و تحلیل است که فرانکل به آنها اشاره می‌کند. در حالی که LLMها می‌توانند از یک پشته داده‌های بدون ساختار استفاده کنند، اما وارد کردن داده‌های یک شرکت به نوعی ساختار از قبل ضرری ندارد.

«اگر از قبل کار استفاده از یک LLM را برای پیش پردازش آن داده‌ها به نوعی فرم ساختاریافته، مانند SQL یا JSON، انجام داده‌اید، کار کمتری را از هوش مصنوعی می‌خواهید -- همیشه باید سعی کنید کارها را تا حد امکان برای هوش مصنوعی آسان کنید، زیرا این سیستم‌ها قطعاً معصوم نیستند.»

همچنین:

یک گام مقدماتی مهم، قرار دادن داده‌ها در چیزی است که "embedding" نامیده می‌شود.

یک "مدل embedding" یک مدل هوش مصنوعی است که برای تبدیل کاراکترها، کلمات یا جملات به یک بردار -- گروهی از اعداد -- استفاده می‌شود که برخی از محتوای معنایی آن کاراکترها، کلمات یا جملات را ثبت می‌کند.

می‌توانید embeddingها را به عنوان نمرات عددی نشان‌دهنده ارتباط اصطلاحات، مانند "سیب" به "میوه"، یا "نوزاد" به "انسان" در نظر بگیرید.

مدل‌های زبانی ساده، حتی مدل‌های نسبتاً کوچک، مانند BERT گوگل از سال ۲۰۱۸، می‌توانند برای ایجاد embeddingها استفاده شوند. فرانکل گفت: «برای به دست آوردن embeddingهای عالی به مدل‌های بزرگ نیاز ندارید.»

فرانکل خاطرنشان کرد که بسیاری از مدل‌های embedding در جامعه منبع باز، با تطبیق مدل Llama Meta Platforms از طریق فرآیندی که به عنوان fine-tuning شناخته می‌شود، توسعه یافته‌اند.

با این حال، با توجه به اینکه مدل‌های موجود "بر اساس داده‌های وب ساخته شده‌اند"، و آنها را بسیار کلی می‌کنند، "ممکن است نیاز به آموزش یک مدل embedding سفارشی داشته باشید."

در حوزه‌های خاص، مانند مراقبت‌های بهداشتی، به عنوان مثال، یک مدل embedding سفارشی می‌تواند روابط بین کلمات و عبارات را بهتر از یک مدل embedding عمومی پیدا کند.

فرانکل گفت: «ما دریافتیم که سفارشی کردن مدل‌های embedding می‌تواند منجر به بهبود بازیابی فوق‌العاده خوبی شود. ما فکر می‌کنیم هنوز پتانسیل زیادی برای استفاده از آنها [مدل‌های embedding] وجود دارد تا آنها را خاص‌تر برای یک حوزه کنیم.»

یک مدل embedding به خوبی توسعه یافته فوق‌العاده مهم است زیرا "آنها کارهای سنگینی را که [توسط مدل زبانی بزرگ] انجام می‌شود، بسیار آسان‌تر می‌کنند."

همچنین:

فرانکل گفت که چندین مدل embedding نیز می‌توانند به هم زنجیر شوند. این می‌تواند به یک مدل هوش مصنوعی که برای مثال در جستجوی سند استفاده می‌شود، اجازه دهد تا از یک گروه بزرگ صد سند، فقط به تعداد انگشت شماری که به یک پرسش پاسخ می‌دهند، محدود شود.

علاوه بر تنظیم یک مدل embedding، نحوه تغذیه داده‌ها به embedding نیز حوزه برتری خود است. او گفت: «وقتی این اسناد را به یک مدل embedding ارائه می‌دهید، معمولاً نمی‌خواهید کل سند را یکباره ارائه دهید.»

«اغلب می‌خواهید آن را به قطعات تقسیم کنید»، و چگونگی انجام این کار بهینه نیز مسئله آزمایش و تلاش برای رویکردها است.

فرانکل افزود که Databricks "در حال تحقیق در مورد تمام این موضوعات است، زیرا، در بسیاری از موارد، ما فکر نمی‌کنیم که وضعیت هنر به اندازه کافی خوب باشد"، از جمله embeddingها.

فرانکل می‌گوید در حالی که بسیاری از موارد از طریق Databricks می‌توانند "plug and play" باشند، "پیچیده‌ترین بخش این است که هنوز آزمایش‌های زیادی وجود دارد. دستگیره‌های زیادی وجود دارد که باید چرخانده شوند. آیا باید fine-tune کنید، یا نباید fine-tune کنید؟ چند سند را باید بازیابی کرده و در متن قرار دهید؟ اندازه قطعه شما چقدر است؟"

سؤال در مورد چه چیزی ساخته شود

فراتر از تکنیک‌ها، دانستن اینکه چه برنامه‌هایی ساخته شوند، خود یک سفر و چیزی شبیه به یک سفر ماهیگیری است.

فرانکل گفت: «من فکر می‌کنم سخت‌ترین بخش در هوش مصنوعی، داشتن اطمینان از این است که این کار خواهد کرد. اگر شما پیش من بیایید و بگویید، "این یک مشکل در فضای مراقبت‌های بهداشتی است، این اسنادی است که من دارم، آیا فکر می‌کنید هوش مصنوعی می‌تواند این کار را انجام دهد؟" پاسخ من این خواهد بود: "بیایید دریابیم."»

از آنچه فرانکل با مشتریان می‌بیند، «برنامه‌هایی که در حال حاضر وارد عمل می‌شوند، تمایل دارند به دنبال چیزهایی باشند که کمی بازتر هستند»، او گفت -- به این معنی که آنچه مدل هوش مصنوعی تولید می‌کند می‌تواند مبهم باشد، نه لزوماً خاص. او مشاهده کرد: «هوش مصنوعی در تولید یک پاسخ عالی است، اما همیشه در تولید پاسخ عالی نیست.»

همچنین:

فرانکل توضیح داد: «با هوش مصنوعی، می‌توانید کارهای مبهم انجام دهید، می‌توانید درک سند را به روش‌هایی انجام دهید که من هرگز نتوانستم یک برنامه پایتون برای آن بنویسم.»

«من همچنین به دنبال برنامه‌هایی هستم که در آنها رسیدن به یک پاسخ نسبتاً پرهزینه است اما بررسی پاسخ نسبتاً ارزان است.» نمونه‌ای از آن، تولید خودکار یادداشت‌های متنی برای یک پزشک از ضبط‌های معاینات بیمار او است. "یک مجموعه پیش نویس از یادداشت‌های بیمار می‌تواند تولید شود، آنها [پزشک یا دستیار پزشک] می‌توانند آن را بررسی کنند، چند مورد را تغییر دهند، و آن را تمام کنند." او گفت که این یک روش مفید برای از بین بردن خستگی است.

برعکس، «برنامه‌هایی که در آنها به پاسخ درست نیاز دارید، و بررسی آنها دشوار است» ممکن است چیزی باشد که در حال حاضر باید از آن اجتناب کرد. او نمونه‌ای از تهیه پیش نویس یک سند قانونی ارائه داد. فرانکل مشاهده کرد: «اگر هوش مصنوعی یک مورد را از دست بدهد، اکنون انسان باید کل سند را بررسی کند تا مطمئن شود که چیز دیگری را از دست نداده است. بنابراین، هدف از استفاده از هوش مصنوعی چه بود؟»

از طرف دیگر، پتانسیل زیادی برای هوش مصنوعی وجود دارد تا کارهایی مانند بر عهده گرفتن کارهای سخت برای وکلا و دستیاران حقوقی انجام دهد و در نتیجه، دسترسی مردم به وکلا را گسترش دهد.

همچنین:

فرانکل که والدینش وکیل هستند، گفت: «فرض کنید که هوش مصنوعی می‌تواند برخی از خسته‌کننده‌ترین وظایف قانونی موجود را خودکار کند؟ اگر می‌خواستید یک هوش مصنوعی به شما کمک کند تا تحقیقات حقوقی انجام دهید، و به شما کمک کند در مورد نحوه حل یک مشکل ایده پردازی کنید، یا به شما کمک کند تا مواد مربوطه را پیدا کنید -- فوق‌العاده است!»

«ما هنوز در روزهای بسیار اولیه» هوش مصنوعی مولد هستیم، «و بنابراین، ما از نقاط قوت بهره می‌بریم، اما هنوز در حال یادگیری چگونگی کاهش نقاط ضعف هستیم.»

مسیر برنامه‌های هوش مصنوعی

در میان عدم اطمینان، فرانکل تحت تأثیر این قرار گرفته است که مشتریان چگونه به سرعت منحنی یادگیری را طی کرده‌اند. او خاطرنشان کرد: «دو یا سه سال پیش، توضیح زیادی به مشتریان در مورد هوش مصنوعی مولد وجود داشت. اکنون، وقتی با مشتریان صحبت می‌کنم، آنها از پایگاه‌های داده برداری استفاده می‌کنند.»

او در مورد مشتریان Databricks گفت: «این افراد شهود بسیار خوبی در مورد اینکه این چیزها در کجا موفق می‌شوند و در کجا موفق نمی‌شوند، دارند.»

با توجه به اینکه هیچ شرکتی بودجه نامحدودی ندارد، فرانکل توصیه کرد که با یک نمونه اولیه اولیه شروع کنید، به طوری که سرمایه‌گذاری فقط تا جایی پیش رود که مشخص باشد یک برنامه هوش مصنوعی ارزش ایجاد می‌کند.

همچنین:

او گفت: «این باید چیزی باشد که بتوانید در یک روز با استفاده از GPT-4 و تعداد انگشت شماری از اسنادی که از قبل دارید، کنار هم قرار دهید.» توسعه‌دهنده می‌تواند از «چند نفر تصادفی از سراسر شرکت که می‌توانند به شما بگویند که در مسیر درستی قرار دارید یا نه» کمک بگیرد.

فرانکل به مدیران توصیه می‌کند که اکتشاف هوش مصنوعی مولد را به طور منظم بخشی از کار قرار دهند.

او خاطرنشان کرد: «افراد انگیزه دارند»، مانند دانشمندان داده. «این حتی کمتر در مورد پول است و بیشتر در مورد دادن زمان و گفتن، به عنوان بخشی از مسئولیت‌های شغلی خود، چند هفته وقت بگذارید، یک هکاتون دو روزه انجام دهید، و فقط بروید ببینید چه کاری می‌توانید انجام دهید. این واقعاً برای مردم هیجان‌انگیز است.»

شعار در هوش مصنوعی مولد سازمانی ممکن است این باشد: از بلوط‌های کوچک، بلوط‌های بزرگ رشد می‌کنند.

همانطور که فرانکل بیان کرد، «فردی که اتفاقاً آن GPU را در زیرزمین خود دارد، و با Llama بازی می‌کند، در واقع بسیار ماهر است، و می‌تواند متخصص هوش مصنوعی مولد فردا باشد.»