به گفته Databricks، غول ابزارهای داده، اگر تمام اصطلاحات رایج در مورد هوش مصنوعی سازمانی مانند "هوش مصنوعی عاملی" را کنار بگذاریم، واقعیت این است که شرکتها در حین آزمایش با این فناوری، در حال یادگیری این موضوع هستند که چه چیزی در عمل کار میکند.
همچنین:
جاناتان فرانکل، دانشمند ارشد هوش مصنوعی Databricks، در مصاحبهای که اخیراً با او در نیویورک داشتم، گفت: «ما هنوز در حال یادگیری این هستیم که کجا مکانهای مناسبی برای قرار دادن هوش مصنوعی هستند، جایی که میتوانید نقطه بهینه هوش مصنوعی را برای کمک به حل یک مشکل به دست آورید.»
نوع جدیدی از تجزیه و تحلیل سازمانی
به گفته فرانکل، در یک سطح اساسی، هوش مصنوعی مولد، مانند مدلهای زبانی بزرگ (Large Language Models یا LLM)، نوع جدیدی از تجزیه و تحلیل سازمانی را ممکن میسازد. فرانکل خاطرنشان کرد که دادههای بدون ساختار، مانند فایلهای Word، تصاویر یا ویدیوها، قبل از هوش مصنوعی مولد، در تجزیه و تحلیل دادههای سنتی جایگاهی نداشتند. اما اکنون، یک معدن طلا هستند.
او گفت: «تصور کنید انبوهی از اسناد بدون ساختار وجود دارد که تجزیه و تحلیل آنها در دنیای قبل از هوش مصنوعی مولد یا قبل از LLM بسیار دشوار است، و ناگهان میتوانید ویژگیهای معناداری را از آنها استخراج کنید. دادههایی که در دنیای تجزیه و تحلیل بیفایده بودند، اکنون در اینجا فوقالعاده ارزشمند هستند.»
همچنین:
در حالی که بسیاری از مردم بر این موضوع تمرکز میکنند که هوش مصنوعی مولد جایگزین کدنویسی واقعی میشود، یک کاربرد بسیار سادهتر، تجزیه و تحلیل کد کامپیوتر یک شرکت است.
«تمام مستندات مربوط به تمام کدهای شرکت شما» در سال ۲۰۱۵ «به عنوان یک منبع داده واقعاً مفید نبود، اما، در سال ۲۰۲۵، فوقالعاده ارزشمند است [...] فقط به سؤالات مربوط به کد شما برای توسعهدهندگان پاسخ میدهد.»
به طور مشابه، «میتوانید هر لاگ چت را از یک برنامه خدمات مشتری با انسانهای واقعی تصور کنید، که تجزیه و تحلیل سطح بالایی را روی آن انجام میدهد. میانگین تعداد تعاملات در یک مکالمه چقدر است؟ میانگین زمان برای حل یک مشکل چقدر است؟ چیزهایی که ده سال پیش ممکن نبود.»
به گفته فرانکل، نقش دادهها در توسعه برنامههای هوش مصنوعی مولد محوری است. فرانکل در سال ۲۰۲۳، زمانی که Databricks استارتآپ یادگیری ماشینی MosaicML را که در آن کار میکرد، خرید، به Databricks آمد. MosaicML بر بهینهسازی زیرساخت برای اجرای هوش مصنوعی تمرکز دارد، در حالی که Databricks یکی از پیشروان دریاچههای داده و فناوری برای انتقال و شکلدهی دادهها است.
همچنین:
فرانکل گفت: «تمام فرضیه برای این خرید این بود که ما یک قطعه داشتیم، Databricks قطعات زیادی دیگر داشت، و با هم بودن بسیار منطقیتر بود.»
فرانکل توضیح داد: «شما در تلاش هستید تا یک ربات خدمات مشتری هوش مصنوعی را مستقر کنید. این ربات خدمات مشتری از چه دادههایی استفاده میکند؟» «این ربات از اطلاعات مشتری، از مستندات شما، از پایگاههای داده SQL شما استفاده میکند. همه اینها در Databricks قرار دارد.»
از داده به ساختار
داشتن دادهها در کنار هم در Databricks، آغاز ایجاد انواع جدیدی از تجزیه و تحلیل است که فرانکل به آنها اشاره میکند. در حالی که LLMها میتوانند از یک پشته دادههای بدون ساختار استفاده کنند، اما وارد کردن دادههای یک شرکت به نوعی ساختار از قبل ضرری ندارد.
«اگر از قبل کار استفاده از یک LLM را برای پیش پردازش آن دادهها به نوعی فرم ساختاریافته، مانند SQL یا JSON، انجام دادهاید، کار کمتری را از هوش مصنوعی میخواهید -- همیشه باید سعی کنید کارها را تا حد امکان برای هوش مصنوعی آسان کنید، زیرا این سیستمها قطعاً معصوم نیستند.»
همچنین:
یک گام مقدماتی مهم، قرار دادن دادهها در چیزی است که "embedding" نامیده میشود.
یک "مدل embedding" یک مدل هوش مصنوعی است که برای تبدیل کاراکترها، کلمات یا جملات به یک بردار -- گروهی از اعداد -- استفاده میشود که برخی از محتوای معنایی آن کاراکترها، کلمات یا جملات را ثبت میکند.
میتوانید embeddingها را به عنوان نمرات عددی نشاندهنده ارتباط اصطلاحات، مانند "سیب" به "میوه"، یا "نوزاد" به "انسان" در نظر بگیرید.
مدلهای زبانی ساده، حتی مدلهای نسبتاً کوچک، مانند BERT گوگل از سال ۲۰۱۸، میتوانند برای ایجاد embeddingها استفاده شوند. فرانکل گفت: «برای به دست آوردن embeddingهای عالی به مدلهای بزرگ نیاز ندارید.»
فرانکل خاطرنشان کرد که بسیاری از مدلهای embedding در جامعه منبع باز، با تطبیق مدل Llama Meta Platforms از طریق فرآیندی که به عنوان fine-tuning شناخته میشود، توسعه یافتهاند.
با این حال، با توجه به اینکه مدلهای موجود "بر اساس دادههای وب ساخته شدهاند"، و آنها را بسیار کلی میکنند، "ممکن است نیاز به آموزش یک مدل embedding سفارشی داشته باشید."
در حوزههای خاص، مانند مراقبتهای بهداشتی، به عنوان مثال، یک مدل embedding سفارشی میتواند روابط بین کلمات و عبارات را بهتر از یک مدل embedding عمومی پیدا کند.
فرانکل گفت: «ما دریافتیم که سفارشی کردن مدلهای embedding میتواند منجر به بهبود بازیابی فوقالعاده خوبی شود. ما فکر میکنیم هنوز پتانسیل زیادی برای استفاده از آنها [مدلهای embedding] وجود دارد تا آنها را خاصتر برای یک حوزه کنیم.»
یک مدل embedding به خوبی توسعه یافته فوقالعاده مهم است زیرا "آنها کارهای سنگینی را که [توسط مدل زبانی بزرگ] انجام میشود، بسیار آسانتر میکنند."
همچنین:
فرانکل گفت که چندین مدل embedding نیز میتوانند به هم زنجیر شوند. این میتواند به یک مدل هوش مصنوعی که برای مثال در جستجوی سند استفاده میشود، اجازه دهد تا از یک گروه بزرگ صد سند، فقط به تعداد انگشت شماری که به یک پرسش پاسخ میدهند، محدود شود.
علاوه بر تنظیم یک مدل embedding، نحوه تغذیه دادهها به embedding نیز حوزه برتری خود است. او گفت: «وقتی این اسناد را به یک مدل embedding ارائه میدهید، معمولاً نمیخواهید کل سند را یکباره ارائه دهید.»
«اغلب میخواهید آن را به قطعات تقسیم کنید»، و چگونگی انجام این کار بهینه نیز مسئله آزمایش و تلاش برای رویکردها است.
فرانکل افزود که Databricks "در حال تحقیق در مورد تمام این موضوعات است، زیرا، در بسیاری از موارد، ما فکر نمیکنیم که وضعیت هنر به اندازه کافی خوب باشد"، از جمله embeddingها.
فرانکل میگوید در حالی که بسیاری از موارد از طریق Databricks میتوانند "plug and play" باشند، "پیچیدهترین بخش این است که هنوز آزمایشهای زیادی وجود دارد. دستگیرههای زیادی وجود دارد که باید چرخانده شوند. آیا باید fine-tune کنید، یا نباید fine-tune کنید؟ چند سند را باید بازیابی کرده و در متن قرار دهید؟ اندازه قطعه شما چقدر است؟"
سؤال در مورد چه چیزی ساخته شود
فراتر از تکنیکها، دانستن اینکه چه برنامههایی ساخته شوند، خود یک سفر و چیزی شبیه به یک سفر ماهیگیری است.
فرانکل گفت: «من فکر میکنم سختترین بخش در هوش مصنوعی، داشتن اطمینان از این است که این کار خواهد کرد. اگر شما پیش من بیایید و بگویید، "این یک مشکل در فضای مراقبتهای بهداشتی است، این اسنادی است که من دارم، آیا فکر میکنید هوش مصنوعی میتواند این کار را انجام دهد؟" پاسخ من این خواهد بود: "بیایید دریابیم."»
از آنچه فرانکل با مشتریان میبیند، «برنامههایی که در حال حاضر وارد عمل میشوند، تمایل دارند به دنبال چیزهایی باشند که کمی بازتر هستند»، او گفت -- به این معنی که آنچه مدل هوش مصنوعی تولید میکند میتواند مبهم باشد، نه لزوماً خاص. او مشاهده کرد: «هوش مصنوعی در تولید یک پاسخ عالی است، اما همیشه در تولید پاسخ عالی نیست.»
همچنین:
فرانکل توضیح داد: «با هوش مصنوعی، میتوانید کارهای مبهم انجام دهید، میتوانید درک سند را به روشهایی انجام دهید که من هرگز نتوانستم یک برنامه پایتون برای آن بنویسم.»
«من همچنین به دنبال برنامههایی هستم که در آنها رسیدن به یک پاسخ نسبتاً پرهزینه است اما بررسی پاسخ نسبتاً ارزان است.» نمونهای از آن، تولید خودکار یادداشتهای متنی برای یک پزشک از ضبطهای معاینات بیمار او است. "یک مجموعه پیش نویس از یادداشتهای بیمار میتواند تولید شود، آنها [پزشک یا دستیار پزشک] میتوانند آن را بررسی کنند، چند مورد را تغییر دهند، و آن را تمام کنند." او گفت که این یک روش مفید برای از بین بردن خستگی است.
برعکس، «برنامههایی که در آنها به پاسخ درست نیاز دارید، و بررسی آنها دشوار است» ممکن است چیزی باشد که در حال حاضر باید از آن اجتناب کرد. او نمونهای از تهیه پیش نویس یک سند قانونی ارائه داد. فرانکل مشاهده کرد: «اگر هوش مصنوعی یک مورد را از دست بدهد، اکنون انسان باید کل سند را بررسی کند تا مطمئن شود که چیز دیگری را از دست نداده است. بنابراین، هدف از استفاده از هوش مصنوعی چه بود؟»
از طرف دیگر، پتانسیل زیادی برای هوش مصنوعی وجود دارد تا کارهایی مانند بر عهده گرفتن کارهای سخت برای وکلا و دستیاران حقوقی انجام دهد و در نتیجه، دسترسی مردم به وکلا را گسترش دهد.
همچنین:
فرانکل که والدینش وکیل هستند، گفت: «فرض کنید که هوش مصنوعی میتواند برخی از خستهکنندهترین وظایف قانونی موجود را خودکار کند؟ اگر میخواستید یک هوش مصنوعی به شما کمک کند تا تحقیقات حقوقی انجام دهید، و به شما کمک کند در مورد نحوه حل یک مشکل ایده پردازی کنید، یا به شما کمک کند تا مواد مربوطه را پیدا کنید -- فوقالعاده است!»
«ما هنوز در روزهای بسیار اولیه» هوش مصنوعی مولد هستیم، «و بنابراین، ما از نقاط قوت بهره میبریم، اما هنوز در حال یادگیری چگونگی کاهش نقاط ضعف هستیم.»
مسیر برنامههای هوش مصنوعی
در میان عدم اطمینان، فرانکل تحت تأثیر این قرار گرفته است که مشتریان چگونه به سرعت منحنی یادگیری را طی کردهاند. او خاطرنشان کرد: «دو یا سه سال پیش، توضیح زیادی به مشتریان در مورد هوش مصنوعی مولد وجود داشت. اکنون، وقتی با مشتریان صحبت میکنم، آنها از پایگاههای داده برداری استفاده میکنند.»
او در مورد مشتریان Databricks گفت: «این افراد شهود بسیار خوبی در مورد اینکه این چیزها در کجا موفق میشوند و در کجا موفق نمیشوند، دارند.»
با توجه به اینکه هیچ شرکتی بودجه نامحدودی ندارد، فرانکل توصیه کرد که با یک نمونه اولیه اولیه شروع کنید، به طوری که سرمایهگذاری فقط تا جایی پیش رود که مشخص باشد یک برنامه هوش مصنوعی ارزش ایجاد میکند.
همچنین:
او گفت: «این باید چیزی باشد که بتوانید در یک روز با استفاده از GPT-4 و تعداد انگشت شماری از اسنادی که از قبل دارید، کنار هم قرار دهید.» توسعهدهنده میتواند از «چند نفر تصادفی از سراسر شرکت که میتوانند به شما بگویند که در مسیر درستی قرار دارید یا نه» کمک بگیرد.
فرانکل به مدیران توصیه میکند که اکتشاف هوش مصنوعی مولد را به طور منظم بخشی از کار قرار دهند.
او خاطرنشان کرد: «افراد انگیزه دارند»، مانند دانشمندان داده. «این حتی کمتر در مورد پول است و بیشتر در مورد دادن زمان و گفتن، به عنوان بخشی از مسئولیتهای شغلی خود، چند هفته وقت بگذارید، یک هکاتون دو روزه انجام دهید، و فقط بروید ببینید چه کاری میتوانید انجام دهید. این واقعاً برای مردم هیجانانگیز است.»
شعار در هوش مصنوعی مولد سازمانی ممکن است این باشد: از بلوطهای کوچک، بلوطهای بزرگ رشد میکنند.
همانطور که فرانکل بیان کرد، «فردی که اتفاقاً آن GPU را در زیرزمین خود دارد، و با Llama بازی میکند، در واقع بسیار ماهر است، و میتواند متخصص هوش مصنوعی مولد فردا باشد.»