دفعه بعدی که از ChatGPT یا سرویس دیگری از هوش مصنوعی مولد (Generative AI) سوالی میپرسید، به ترتیب کلمات در پاسخی که دریافت میکنید توجه کنید.
چند کلمه آخر در پرسش شما، تقریباً همیشه اولین کلمات پاسخ تولید شده خواهند بود.
بروس مومجیان، معاون EDB و مروج Postgres، در سخنرانی خود در کنفرانس FOSDEM 2025 در بروکسل ماه گذشته، اشاره کرد که این یک فرآیند مهم در نحوه کار مدلهای زبان بزرگ (LLMها) است — به صورت معکوس، هر کلمه را بر اساس کلمه قبلیاش ارزیابی میکند.
مومجیان با استفاده از فناوری پایگاه داده به عنوان نقطه شروع، حضار را با چگونگی تبدیل داده به هوش مصنوعی آشنا کرد و توضیح داد که چرا هنوز نباید دستکاری دادهها را با هوش واقعی انسان اشتباه بگیریم.
از توصیفی به مولد
قبل از سال ۲۰۲۲، آنچه ما به عنوان «هوش مصنوعی» میشناختیم عمدتاً وظایف تمایز و شفافسازی بود، جایی که هوش مصنوعی به سوالاتی مانند «سگ یا گربه؟» یا اینکه آیا تراکنش کارت اعتباری واقعی است یا نه، پاسخ میداد. این فناوری برای پیشبینیها، طبقهبندیها و توصیهها عالی بود.
«هوش مصنوعی» جدید، که با موفقیت فوری ChatGPT آشکار شد، مربوط به تولید محتوایی است که قبلاً وجود نداشته است: خلاصهسازی، رباتهای گفتگو، جستجوی معنایی، و ایجاد تصاویر، برنامهنویسی، صداها و ویدیو.
به جای جستجوی مرزها، همانطور که هوش مصنوعی پیشبینیکننده قبلی انجام میداد، هوش مصنوعی مولد به طور موثر محتوای جدیدی را تولید میکند.
مومجیان گفت: «ما در غرب وحشی هستیم. واقعاً نمیدانیم چه کارهایی میتوانیم انجام دهیم.»
جهانی عظیم از بردارها
کلید این رویکرد با پردازش برداری (vector processing) آغاز میشود. گوگل این تکنیک را در مقالهای در سال ۲۰۱۸ با عنوان «تخمین کارآمد نمایش کلمات در فضای برداری» پیشگام کرد و مدلی به نام word2vec ارائه داد.
بردار یک شیء ریاضی با دو عدد است: اندازه (طول) و جهت.
هر کلمه در دادههای آموزشی دارای یک بردار نسبت به هر کلمه دیگر است که یک فضای برداری با ابعاد بسیار بالا را تشکیل میدهد. (برای سادگی، مومجیان بر روی هوش مصنوعی مولد مبتنی بر متن تمرکز کرد، اگرچه تولید تصاویر و سایر اشکال محتوا بر اساس اصول مشابهی عمل میکنند).
این جهان کلمات واقعاً بسیار بزرگ است.
مومجیان گفت: «ما با مقیاسی سروکار داریم که از هر چیزی که در دنیای فیزیکی میتوانیم درک کنیم، بسیار فراتر است.»
یک مدل زبان بزرگ (LLM) ChatGPT میتواند تا ۱۲٬۲۸۸ بُعد داشته باشد که در مجموع به بیش از ۱۰ به توان ۱۸۸٬۰۰۰ بُعد میرسد، که به گفته مومجیان، بسیار بیشتر از تعداد کل اتمهای موجود در جهان است.
بردار هر کلمه طول یکسانی دارد. همچنین به آن یک جهت اختصاص داده میشود، یک عدد اعشاری شناور به صورت تصادفی که در جایی در این جهان ۱۰ به توان ۱۸۸٬۰۰۰ بُعدی وجود دارد.
روز آموزش
گام بعدی، تزریق حجم عظیمی از اسناد آموزشی به این فضا است.
برای هر کلمه، بردار آن طوری تنظیم میشود که به کلمات اطرافش نزدیکتر شود و بردارهای کلمات اطرافش نیز به کلمه اصلی نزدیکتر شوند.
در این مجموعه معروف از دادههای آموزشی:
پادشاه مردی قدبلند است.
ملکه زنی زیبا است.
آنها با هم در اتاق تخت پادشاهی قصر مینشینند.
بردار «پادشاه» به سمت «مرد»، «ملکه» به سمت «زن» و «تخت پادشاهی» به سمت «قصر» خم میشود و این روند در هزاران بُعد تکرار میشود.
در تکرارهای متوالی، کلماتی مانند «مرد» و «زن» به یکدیگر نزدیکتر میشوند، همانطور که «پادشاه» و «ملکه» نیز چنین خواهند شد.
همچنین توجه داشته باشید که «مرد» و «زن» فاصلهای مشابه با «پادشاه» و «ملکه» خواهند داشت، که به LLM امکان میدهد تا با انجام برخی محاسبات ریاضی پایه، روابط بین کلمات را بهتر درک کند.
و از آنجا که ابعاد بسیار زیادی وجود دارد، نزدیک کردن یک کلمه به کلمه دیگر در یک بُعد لزوماً به معنای دورتر شدن این کلمات از کلمات دیگر نیست.
مومجیان گفت: «وقتی "مرد" را به "زن" نزدیکتر میکنیم، لزوماً آن را از "پادشاه" دورتر نمیکنیم، زیرا نزدیکی "پادشاه" به "مرد" احتمالاً در بُعدی متفاوت از نزدیکی "مرد" به "زن" قرار دارد.»
از داده به هوش
پایگاههای داده رابطهای جستجوی تماممتن را ارائه میدهند اما معنای کلمات را جستجو نمیکنند. این قدرت جستجوی معنایی (semantic search) مبتنی بر بردار است.
معمولاً در فرآیند آموزش LLM، بلوکهای متن را میتوان به قطعات کوتاهتر «تقسیمبندی» (chunked) کرد. آنها میتوانند به جملات، پاراگرافها تقسیم شوند، یا کل قطعه میتواند یک تکه واحد باشد.
جستجوی معنایی میانگین تمام امتیازات برداری را در هر تکه محاسبه میکند.
سپس هوش مصنوعی مولد، میانگین بردارهای موجود در خود پرسش را محاسبه کرده و جمله یا تکه متنی را که نزدیکترین امتیاز را دارد، پیدا میکند.
بنابراین، پرسش «پادشاه کیست؟» (Who is the King?) به طور میانگین به عبارت «پادشاه مردی قدبلند است» (The king is a tall man) نزدیکتر خواهد بود، به این معنی که میانگین بردار این عبارت به میانگین بردار پرسش نزدیکتر است.
مومجیان مقداری کد SQL را برای اجرای این نمونه نشان داد که با استفاده از PGVector، افزونه برداری برای PostgreSQL، قابل اجرا است. او جدولی برای نگهداری محتوا و جدولی برای جاسازیهای (embeddings) آنها ایجاد کرد. یک اسکریپت پایتون که مومجیان ایجاد کرده است، OpenAI را فراخوانی میکند، هر کلمه را ارسال میکند و یک جاسازی دریافت میکند. بردارها میانگینگیری شده و در پایگاه داده نیز ذخیره میشوند.
سپس پرسش «پادشاه کیست؟» از طریق یک فراخوانی API به OpenAI ارسال میشود تا اعداد جاسازی آن نیز محاسبه گردد. این نیز میانگینگیری شده و سپس با تمام میانگینهای موجود در پایگاه داده مقایسه میشود که از بیشترین شباهت به کمترین رتبهبندی شدهاند:
مومجیان گفت: «این با جستجوی تماممتن متفاوت است زیرا درکی از نحوه ارتباط کلمات با یکدیگر دارد.»
هوش مصنوعی مولد
مومجیان توضیح داد که پردازش برداری تنها اولین بلوک هوش مصنوعی مولد است. برای تولید جملات کامل، به ترانسفورمرهای حالت (state transformers) نیز نیاز دارید، نوعی شبکه عصبی برای پردازش زبان طبیعی (natural language processing).
یک بلوک توجه (attention block)، که آن هم توسط گوگل در سال ۲۰۱۷ پیشگام شد، یک نسخه وزندار از متن ورودی است. هر پرسش یک بلوک توجه جدید دریافت میکند. هر کلمه جستجو شده و یک عدد ۱۲۸ بعدی از LLM به آن اختصاص داده میشود. هر کلمه در متن ورودی وزندهی میشود تا به کلمات دیگر، کلمه به کلمه، نزدیکتر شود.
این فرآیند نزدیک کردن کلمات به یکدیگر در فضای برداری برای چندین تکرار ادامه مییابد تا یک جمله کامل تولید شود.
و به همین دلیل است که آخرین عبارت در پاسخ ChatGPT شما اغلب در ابتدای پاسخ ظاهر میشود — «پایتخت فرانسه پاریس است» — زیرا آخرین عبارتی است که برداری میشود. یک LLM یک جمله را به ترتیب معکوس تفسیر میکند:
کلمبوس در اوهایو است. پاریس کجاست؟
...ممکن است این پاسخ را برای شما به ارمغان بیاورد:
پاریس در فرانسه است. همچنین شهری به نام پاریس در ایالات متحده وجود دارد که در تگزاس واقع شده است. اگر به پاریس دیگری اشاره داشتید، لطفاً مشخص کنید!
پاسخها همچنین میتوانند از طریق تولید افزوده با بازیابی (retrieval augmented generation - RAG) بیشتر اصلاح شوند، که دستورالعملهای اضافی به LLM میدهد، مانند کوتاه نگه داشتن پاسخ. در این حالت، سوالی در مورد موقعیت مکانی پاریس، پاسخ سادهای خواهد بود که پاریس در فرانسه است.
همچنین میتوانید از RAG برای بازگرداندن پاسخ به سوالات تحلیل داده استفاده کنید. به عنوان مثال، مومجیان نشان داد که چگونه میتوانید سه دستور درج پایگاه داده SQL را در پیشوند RAG وارد کنید و RAG دادههایی را که هر دستور در آن commit شده است، برمیگرداند، زیرا LLM زبان SQL را «میداند».
در پایان، مومجیان نتیجه گرفت که گرچه سرعت تکامل هوش مصنوعی واقعاً سرسامآور است، با این وجود LLMها شکلی پیچیده از دستکاری دادهها هستند و دارای هیچ نوع آگاهی یا هوشیاری واقعی نیستند.
ارائه کامل مومجیان را اینجا مشاهده کنید. اسلایدها اینجا در دسترس هستند.