تصویرسازی DALL-E/Every
تصویرسازی DALL-E/Every

مدل‌های زبانی بزرگ (LLM) هر پرسش را به پاسخ تبدیل می‌کنند

دنیای ما از آخرین «هفته تفکر» ما در پنج ماه پیش تغییرات چشمگیری داشته است—و Every نیز همینطور. ما واحدهای تجاری جدید، محصولات جدید را راه‌اندازی کرده‌ایم و هم‌تیمی‌های جدیدی را به خدمت گرفته‌ایم. بنابراین، این هفته را صرف ارائه ایده‌ها و محصولات جدیدی کرده‌ایم که می‌توانند به ما در بهبود نحوه انجام کارمان و مهم‌تر از آن، تجربه شما به عنوان عضوی از جامعه ما کمک کنند. در این میان، چهار مقاله از دن شیپر را که به سؤالات اساسی و قدرتمند در مورد هوش مصنوعی می‌پردازند، دوباره منتشر می‌کنیم. بدین ترتیب، ما توضیح بدون اصطلاحات تخصصی او در مورد نحوه کار مدل‌های زبانی و مقاله‌اش درباره نحوه عملکرد مدل‌های زبانی به عنوان فشرده‌ساز—یا خلاصه‌ساز—متن را دوباره منتشر کرده‌ایم. امروز به اشتراک می‌گذاریم که چگونه مدل‌های زبانی به عنوان عکس آن—به عنوان توسعه‌دهنده‌های متن—عمل می‌کنند. —Kate Lee


شما نمی‌توانید انرژی را به صورت رایگان به دست آورید. انرژی نه ایجاد می‌شود و نه از بین می‌رود، بلکه فقط جابجا می‌شود. این کم و بیش همان کاری است که رایانه‌ها برای مدت طولانی به تنهایی قادر به انجام آن با متن بودند. به جز خرابی دیسک، متن همیشه حفظ می‌شد، اغلب جابجا می‌شد و گاهی اوقات به طور خام تغییر می‌یافت.

اما آنها تقریباً هرگز آن را ایجاد نمی‌کردند. به غیر از انجام بررسی املایی، اگر متنی را روی رایانه می‌دیدید، احتمالاً به این دلیل بود که یک انسان، در جایی، آن را تایپ کرده بود.

مدل‌های زبانی این را به طور کامل تغییر دادند.

اکنون، من و شما می‌توانیم چند جمله را در ChatGPT تایپ کنیم و تماشا کنیم که چگونه کاراکتر به کاراکتر، خط به خط، به چیزی جدید گسترش می‌یابد—که از هیچ ساخته شده است، فقط برای شما. مدل‌های زبانی متن شما را می‌گیرند و آن را به شکل متفاوتی کش می‌دهند، مانند شیشه‌ای که گرم شده و از طریق یک لوله دمیده می‌شود.

چیزی که قبلاً مجموعه‌ای بی‌اثر از بیت‌ها بود—یک خط از کاراکترها که در سراسر یک صفحه نمایش امتداد داشت—اکنون چیزی متفاوت است، چیزی که به طور بالقوه زنده است. وقتی یک قطعه متن را به یک مدل زبانی می‌دهید، متن مانند یک بلوط است که به یک درخت تبدیل می‌شود. خود بلوط حاوی دستورالعمل‌هایی برای درختی است که به آن تبدیل خواهد شد، و مدل زبانی به خاک غنی، آب و آفتاب گرم تابستان تبدیل می‌شود.

به طور خلاصه، مدل‌های زبانی انرژی رایگان برای متن هستند. بیایید در مورد چگونگی استفاده از این عملکرد برای اهداف خلاقانه صحبت کنیم.

مثالی از پاسخگویی مدل زبانی به یک سؤال
تمام تصاویر متعلق به نویسنده است.

دنیایی که در آن هر پرسش حاوی یک پاسخ است

مدل‌های زبانی دنیایی را ایجاد می‌کنند که در آن هر پرسش می‌تواند به یک پاسخ گسترش یابد.

این برای خلاقیت بسیار مهم است زیرا پرسیدن سؤالات یک کار منحصراً انسانی است.

به عنوان مثال، میمون‌ها بسیاری از ویژگی‌های انسانی را به اشتراک می‌گذارند، از جمله طبیعت اجتماعی و یک فرهنگ بدوی که به آنها اجازه می‌دهد برخی از آموخته‌های خود را به فرزندان خود منتقل کنند. اما آنها حداقل در یک جنبه مهم با انسان‌ها متفاوت هستند: میمون‌ها سؤال نمی‌پرسند.

پرسش‌گری فضا را برای پاسخ‌ها ایجاد می‌کند و پاسخ‌ها فضا را برای سؤالات بیشتر ایجاد می‌کنند. این اولین گام برای به دست آوردن ایده‌های جدید و ساختن چیزهای جدید است.

در طول قرن‌ها، اگر پاسخی برای یک سؤال وجود داشته باشد، یافتن آن برای پرسشگر به طور فزاینده‌ای آسان شده است. کتاب‌ها می‌توانند به سؤالات پاسخ دهند، مشروط بر اینکه شما توانایی جستجو در آنها را داشته باشید. گوگل ما را حتی نزدیک‌تر کرد: بسیاری از رایج‌ترین سؤالات ما فقط یک جستجوی ساده در گوگل شدند.

اما پاسخ‌های خاصی از بشریت وجود دارد که تا به حال به طور سرسختانه‌ای غیرقابل جستجو در گوگل باقی مانده‌اند. گوگل فقط به سؤالاتی پاسخ می‌دهد که قبلاً پرسیده و پاسخ داده شده‌اند. به عنوان مثال، سعی کنید در گوگل جستجو کنید "آیا دن شیپر در مورد هوش مصنوعی ابراز تردید می‌کند؟" شرط می‌بندم که در یافتن یک پاسخ مختصر با مشکل مواجه خواهید شد.

مدل‌های زبانی سؤالاتی مانند این را دوست دارند:

آنها هر سؤالی را به یک پاسخ گسترش می‌دهند. از آنجا که مدل‌های زبانی همیشه پیش‌بینی می‌کنند که در یک توالی چه چیزی در ادامه می‌آید، خود سؤال به ابتدای پاسخ خود اشاره می‌کند.

هرکسی که مدتی را در اطراف کودکان می‌گذراند و به سؤالات بی‌پایانی که می‌پرسند گوش می‌دهد، می‌داند که چرا اینقدر مهم است. در گذشته، یک سؤال به معنای تلاش برای یافتن یک پاسخ بود. امروزه، سؤالات از قبل پاسخ هستند—همه آنچه که نیاز دارند، گسترش از طریق مدل‌های زبانی است.

بیایید در مورد برخی از مفیدترین انواع گسترش‌ها صحبت کنیم.

مدل‌های زبانی به عنوان توسعه‌دهنده‌های جامع

اگر می‌خواهید درک جامعی از هر حوزه گسترده‌ای از دانش انسانی به دست آورید، مدل‌های زبانی می‌توانند کمک کنند. گسترش‌های جامع از مدل‌های زبانی بسیار شبیه به ویکی‌پدیا شخصی خودتان است که در زمان واقعی در مورد هر موضوعی که بیشتر به آن اهمیت می‌دهید نوشته شده است.

"به من در مورد تاریخ پادشاهان در امپراتوری روم بگو."

"اگر کنه‌ای روی بازوی خود پیدا کردم چه کار کنم؟"

"استراتژی‌های برتر برای مذاکرات قیمت‌گذاری با مشتریان سازمانی چیست؟"

گسترش‌های جامع، توضیح‌دهنده‌های اساسی سطح بالا هستند که برای هیچ مخاطب خاصی اصلاح نشده‌اند، بلکه برای همه ارائه شده‌اند.

این سؤالات می‌توانست قبل از ChatGPT با سطوح مختلف سرعت و کیفیت پاسخ داده شود، اما من استدلال می‌کنم که ChatGPT و سایر مدل‌های هوش مصنوعی منابع بسیار بهتری هستند. اول، به این دلیل که سریع هستند. و دوم، به این دلیل که می‌توانید سؤالات پیگیری بپرسید.

که ما را به نوع بعدی گسترش می‌رساند: گسترش‌های متنی.

توضیح کلود از نظریه ویتگنشتاین

مدل‌های زبانی به عنوان توسعه‌دهنده‌های متنی

اطلاعات زمانی به دانش تبدیل می‌شود که در یک زمینه خاص قرار گیرد. ChatGPT در گسترش یک سؤال به پاسخی که بیشترین ارتباط را با یک میزان توجه، دانش پیشینه، حساسیت و شرایط خاص دارد، عالی است.

بخش بزرگی از کار خلاقانه مربوط به مصرف ورودی خام مورد نیاز برای انجام کارتان است. اغلب این شامل خواندن منابع اصلی است که درک آنها دشوار است. اما هوش مصنوعی می‌تواند یک سؤال خاص در مورد یک منبع را به مقاله‌ای که فقط برای شما نوشته شده است، گسترش دهد.

من در واقع از Claude به این شکل استفاده کردم تا برای مصاحبه‌ام با رید هافمن، یکی از بنیانگذاران لینکدین، آماده شوم. از آن خواستم یکی از نکات اصلی فلسفه زبان کلاسیک «رساله منطقی-فلسفی» لودویگ ویتگنشتاین، فیلسوف اتریشی را توضیح دهد:

این یک گسترش خوب و جامع از سؤال من است. اما سطح بالا و انتزاعی است. اگر چیزی متناسب‌تر با من می‌خواهم، می‌توانم یک پیگیری بپرسم، مانند:

توضیح کلود از حقایق

شما می‌توانید خودتان با جستجو در گوگل به این سؤال پاسخ دهید، اما هوش مصنوعی بهترین چیزهایی را که باید بدانید به یکباره در قالبی که برای شما مناسب است، ارائه می‌کند. (اگر توضیح کلود را مفید نیافتید، همیشه می‌توانید از آن بخواهید پاسخ را به گونه‌ای بازنویسی کند که به جای مغز من، با مغز شما هماهنگ شود.)

این مهم‌تر از آن چیزی است که به نظر می‌رسد.

وقتی کلاس سوم بودم، قصد نوشتن یک رمان را داشتم، بنابراین می‌خواستم نویسندگی خلاقانه را یاد بگیرم. فقط یک مشکل وجود داشت: مادرم نمی‌توانست هیچ کلاس نویسندگی خلاقانه برای بچه‌های همسن من پیدا کند. آنها وجود نداشتند، به جز برای بچه‌های بزرگتر. و والدینم آنقدر نمی‌دانستند که خودشان به من آموزش دهند.

قدرت فوق‌العاده‌ای در این وجود دارد که بتوان یک سؤال مانند "چگونه می‌توانم مهارت‌های خلاقانه خود را ارتقا دهم؟ من 9 ساله هستم" را به پاسخی متناسب با سن برای کودکان گسترش داد.

این فقط در مورد گسترش‌های واقعی صدق نمی‌کند. هوش مصنوعی در گسترش‌های خلاقانه نیز بسیار خوب است.

مدل‌های زبانی به عنوان توسعه‌دهنده‌های خلاق

وقتی در نوشته‌هایم به دنبال یک استعاره یا تشبیه هستم، اولین کاری که انجام می‌دهم این است که به ChatGPT یا Claude می‌روم و از آنها می‌خواهم 20 مورد از آنها را خروجی دهند.

به عنوان مثال، در مقاله‌ام درباره کتاب «مصمم» رابرت ساپولسکی در مورد اراده آزاد، نوشتم:

«من عاشق رابرت ساپولسکی هستم، عصب‌شناس استنفوردی که کتاب‌هایش در مورد رفتار بیولوژیکی و استرس، «چرا گورخرها زخم معده نمی‌گیرند»، «خاطرات یک نخستی‌سان» و «رفتار»، برخی از بهترین نوشته‌های علمی هستند که تا به حال خوانده‌ام. به نظر من، او شاعر برگزیده عصب‌شناسی است. او در عین حال دقیق و انسان‌دوست، طعنه‌آمیز و دلسوز، ادبی و علمی است. بنابراین باید بتوانید احساسات متضاد من را هنگام اطلاع از اینکه او کتاب جدیدی (هورا!) در مورد اراده آزاد (اه!) به نام «مصمم» نوشته است، تصور کنید. این مانند این است که اسکات الکساندر مقاله‌ای 10000 کلمه‌ای در مورد روش صحیح آویزان کردن دستمال توالت بنویسد. این مانند این است که آنی دیلارد کتاب جدیدی در مورد اینکه آیا هات داگ در واقع یک ساندویچ است یا نه، بنویسد. این مانند این است که بیل سیمونز سه‌گانه‌ای در مورد اینکه آیا Die Hard واقعاً یک فیلم کریسمس است یا نه، بنویسد. (باشه، باشه، من آن را می‌خوانم.)»

حدس بزنید این تشبیه‌ها از کجا آمده‌اند؟ یک جلسه سرگرم‌کننده 20 دقیقه‌ای با کلود، که در طی آن به من کمک کرد هم آنچه را که در مورد کتاب ساپولسکی احساس می‌کردم، شناسایی کنم و هم چند تشبیه عالی برای بیان واضح آن پیدا کنم.

گسترش‌های خلاقانه بخش واقعاً تولیدی هوش مصنوعی مولد هستند. آنها پیمایش در فضای احتمالات را آسان می‌کنند.

می‌توانید یک کلمه در یک زمان پیش بروید، مانند تولید یک تشبیه. اما می‌توانید کل داستان‌ها را از یک درخواست ساده ایجاد کنید. بسیاری از والدینی که می‌شناسم در حال حاضر از ChatGPT در حالت صوتی برای ایجاد داستان‌های سفارشی برای فرزندان خود استفاده می‌کنند و شخصیت‌هایی از فرهنگ عامه را با زندگی و علایق فرزندان خود در هم می‌آمیزند تا داستان‌هایی بسازند که فقط برای آنها ساخته شده‌اند.

توانایی ارزان کاوش در احتمالات خلاقانه یکی از مهم‌ترین کاربردهای مدل‌های زبانی برای کار خلاقانه است. این کاملاً بدون زحمت از طرف ما نیست: ما باید سلیقه خود را به کار گیریم—آنچه را که به دنبالش هستیم بخواهیم و وقتی آن را به دست آوردیم، تشخیص دهیم. اما این کار زیادی را برای ما انجام می‌دهد.

ویرایش برای انسان آسان‌تر از تولید است، و ما همیشه انرژی لازم برای فیلتر کردن تمام احتمالات که ممکن است بخواهیم در آنها به دنبال کلمه دقیق، ایده درخشان یا بهترین چرخش داستانی باشیم را نداریم. گسترش‌های خلاقانه به ما کمک می‌کنند فضای احتمالات را ترسیم کنیم تا بتوانیم بهترین چیزهایی را که پیدا می‌کنیم به کار خود بازگردانیم.

فشرده‌سازی و گسترش

بسیاری از عملیات گسترشی که در اوایل این مقاله در مورد آنها نوشتم، هدفی مشابه با عملیات فشرده‌سازی که قبلاً در مورد آنها نوشتم، دارند. به عنوان مثال، می‌توانید از طریق گسترش یا انقباض به یک سؤال پاسخ دهید. کدام یک را باید انتخاب کنید و چرا؟

انقباض مانند فشردن یک لیمو در آب لیمو است. در پایان فشردن، آنچه در فنجان شما وجود دارد احتمالاً فقط حاوی آنچه در لیمو بوده است.

گسترش غیرقابل پیش‌بینی‌تر است. با بازگشت به استعاره بلوط: به طور کلی، یک بلوط یک درخت تولید می‌کند. اما ویژگی‌های آن درخت تا حد زیادی به شرایط رشد بلوط بستگی دارد. درجه آزادی بسیار بالاتری از نظر محصول نهایی با یک بلوط نسبت به یک لیمو فشرده شده وجود دارد.

فشرده‌سازی مدل زبانی به احتمال زیاد یک پاسخ واقعی بر اساس درخواستی که به آن می‌دهید، برمی‌گرداند، با این فرض که آن پاسخ در متنی که در حال فشرده‌سازی آن هستید، یافت شود. وقتی ربات چت Huberman Lab خود را ساختم، رونویسی‌های قسمت‌های او را در هر درخواست در ChatGPT وارد کردم، زیرا آنها مدل را در آنچه او واقعاً گفته بود، ثابت نگه می‌دارند. (این یک تکنیک رایج است که تولید تقویت‌شده بازیابی نامیده می‌شود، یا RAG.)

در مقایسه، گسترش مدل زبانی خلاقانه‌تر و شاعرانه‌تر است. این کار خوبی در پاسخ واقعی به سؤالات رایج انجام می‌دهد. اما وقتی از آن خواسته می‌شود از مسیرهای معمولی خارج شود و احتمالات کشف نشده قبلی را پیدا کند، می‌درخشد.

وقتی سعی می‌کردم برای نقد کتاب رابرت ساپولسکی خود تشبیه‌هایی پیدا کنم، کل کتاب او را در ChatGPT بارگذاری نکردم. فقط سعی کردم به طور خلاصه آنچه را که احساس می‌کردم بیان کنم: «من در حال نوشتن نقدی بر کتاب رابرت ساپولسکی در مورد اراده آزاد هستم و می‌خواهم چند تشبیه برای بیان آن پیدا کنم. من همزمان احساس بی‌حوصلگی و هیجان دارم. 20 مورد تولید کنید.»

به مدل زبانی اجازه دادم بقیه کارها را انجام دهد. پس از اینکه 20 مورد اول خود را برگرداند، دستورالعمل‌های بیشتری به آن دادم و از آن خواستم موارد بیشتری تولید کند.

این در مورد پاسخ دادن به یک سؤال دقیق در مورد کتاب او نبود. این در مورد کاوش در احتمالات بود.

دنیای جدید گسترش متن

در دنیایی که رایانه‌ها می‌توانند متن را گسترش دهند، در داخل هر سؤالی یک پاسخ پنهان شده است و هر داستانی برای شما نوشته شده است. گسترش متن خلاقانه و تا حدودی غیرقابل اعتماد است، اما این چیزی است که آن را هیجان‌انگیز می‌کند. این روشن کردن یک موشک و تماشای شلیک آن به آسمان است. این انداختن یک سکه از روی یک پل و نگاه کردن به نرده برای دیدن اتفاقات است.

ما شرایط را ایجاد می‌کنیم و سپس عقب می‌رویم تا نمایش را تماشا کنیم. این یک بخش انکارناپذیر قدرتمند از هر زرادخانه خلاقانه است.

بنابراین، پیش بروید و گسترش دهید!


Dan Shipper هم‌بنیانگذار و مدیر عامل Every است، جایی که ستون Chain of Thought را می‌نویسد و میزبان پادکست AI & I است. می‌توانید او را در X با نام @danshipper و در LinkedIn دنبال کنید.