تازه‌های دنیای LLMها، برای NICAR 2025

من امسال دو جلسه در کنفرانس روزنامه‌نگاری داده‌محور NICAR 2025 ارائه کردم. اولین جلسه بر اساس مرور من بر LLMها در سال 2024 بود که چندین ماه تمدید شد تا همه اتفاقات سال 2025 را پوشش دهد. دومین جلسه، کارگاهی در مورد تکنیک‌های پیشرفته وب‌اسکرپینگ بود که جداگانه درباره آن نوشته‌ام.

در اینجا اسلایدها و یادداشت‌های مفصل مرور من بر تازه‌های LLMها، با تمرکز بر روندهایی که مرتبط با روزنامه‌نگاری داده‌محور هستند، آورده شده است.

من با مروری بر داستان تا به امروز، از 30 نوامبر 2022 با انتشار ChatGPT شروع کردم.

۳۰ نوامبر ۲۰۲۲

این یک جهش بزرگ تکنولوژیکی نسبت به GPT-3 نبود، که ما قبلاً چند سال به آن دسترسی داشتیم... اما مشخص شد که قرار دادن یک رابط چت در اطراف آن، *بهبودی* بود که آن را برای مخاطبان عام قابل دسترس کرد. نتیجه چیزی بود که به عنوان سریع‌ترین برنامه کاربردی در حال رشد در تمام دوران‌ها شناخته شده است.

با نگاهی به گذشته، سال ۲۰۲۳ نسبتاً کسل‌کننده بود

با نگاهی به گذشته، بقیه سال 2023 در واقع کمی کسل‌کننده بود! حداقل در مقایسه با 2024.

صفحه اول نیویورک تایمز از 17 فوریه 2023. دوستت دارم، متاهلی؟ متن چت بینگ.

... با چند استثنا. بینگ به خاطر تلاش برای به هم زدن ازدواج کوین روس در صفحه اول نیویورک تایمز قرار گرفت.

GPT-4 در ماه مارس عرضه شد و در تمام طول سال هیچ رقیبی نداشت

بزرگترین جهش رو به جلو در سال 2023، GPT-4 بود که ابتدا توسط بینگ پیش‌نمایش شد و سپس در ماه مارس برای همه عرضه شد. ... و تقریباً در بقیه سال بی‌رقیب ماند. برای مدتی، به نظر می‌رسید که GPT-4 یک دستاورد منحصر به فرد است و هیچ کس دیگری نمی‌تواند به OpenAI برسد. این موضوع در سال 2024 به طور کامل تغییر کرد.

سال ۲۰۲۴ پرماجرا بود

به چیزهایی که در مورد LLMها در سال 2024 آموختیم مراجعه کنید. اتفاقات بسیار زیادی در سال 2024 رخ داد.

۱۸ آزمایشگاه یک مدل معادل GPT-4 منتشر کردند: گوگل، OpenAI، علی‌بابا (Qwen)، آنتروپیک، متا، رکا ای‌آی، 01 ای‌آی، آمازون، Cohere، دیپ‌سیک، انویدیا، میسترال، NexusFlow، ژیپو ای‌آی، xAI، Al21 Labs، پرینستون و تنسنت

من در مورد این موضوع در مانع GPT-4 به طور جامع شکسته شد نوشتم - ابتدا توسط جمینای و آنتروپیک، سپس اندکی بعد تقریباً توسط همه. یک مدل کلاس GPT-4 در حال حاضر تقریباً یک کالای رایج است. 18 آزمایشگاه به این نقطه عطف دست یافته‌اند.

OpenAI جایگاه «بهترین مدل» خود را از دست داد

و OpenAI دیگر بدون شک از هر کس دیگری در این زمینه بهتر نیست.

مدل‌های چندوجهی (تصویر، صدا، ویدیو) ظهور کردند

یکی از روندهای مورد علاقه من در 15 ماه گذشته، ظهور LLMهای چندوجهی بوده است. هنگامی که مردم از کند شدن پیشرفت LLM در سال گذشته شکایت می‌کردند، من همیشه از مدل‌های چندوجهی به عنوان استدلال متقابل استفاده می‌کردم. این مدل‌ها به طرز شگفت‌انگیزی در پردازش تصاویر خوب شده‌اند و هم صدا و هم ویدیو نیز در حال حاضر مفید می‌شوند. من پشتیبانی چندوجهی را به ابزار LLM خود در ماه اکتبر اضافه کردم. تگ vision-llms من پیشرفت‌های این فضا را به طور دقیق دنبال می‌کند.

تقریباً همه چیز به طرز چشمگیری ارزان شد

اگر مدل ذهنی شما از این چیزها این است که دسترسی به آنها از طریق API گران است، باید دوباره ارزیابی کنید. من کاهش هزینه‌های مدل‌ها را در تگ llm-pricing خود پیگیری کرده‌ام.

GPT-4.5  GPT-4o  GPT-4o mini بزرگترین مدل GPT طراحی شده  مدل با هوش بالا برای  مدل کوچک مقرون به صرفه برای برای وظایف خلاقانه و  وظایف پیچیده | زمینه 128 هزارتایی  وظایف سریع و روزمره | زمینه برنامه‌ریزی، در حال حاضر در  زمینه 128 هزارتایی 128 هزارتایی  پیش‌نمایش تحقیقاتی موجود است قیمت  قیمت  قیمت ورودی:  ورودی:  ورودی: 75.00 دلار / 1 میلیون توکن  2.50 دلار / 1 میلیون توکن  0.150 دلار / 1 میلیون توکن ورودی کش شده:  ورودی کش شده:  ورودی کش شده: 37.50 دلار / 1 میلیون توکن  1.25 دلار / 1 میلیون توکن  0.075 دلار / 1 میلیون توکن خروجی:  خروجی:  خروجی: 150.00 دلار / 1 میلیون توکن  10.00 دلار / 1 میلیون توکن  0.600 دلار / 1 میلیون توکن   GPT-4.5  500 برابر گرانتر از 4o-mini است! (اما GPT-3 Da Vinci در زمان عرضه 60 دلار در میلیون قیمت داشت)

در بیشتر موارد، قیمت‌ها مانند سنگ در حال سقوط بوده‌اند. ... به استثنای GPT-4.5، که به عنوان یک مدل *واقعاً* گران قیمت قابل توجه است - 500 برابر گران‌تر از ارزان‌ترین مدل فعلی OpenAI، یعنی GPT-4o mini است! هنوز هم جالب است که با GPT-3 Da Vinci مقایسه کنیم که چند سال پیش تقریباً به اندازه GPT-4. 5 ارزان بود.

مقدار زمینه به 1 میلیون توکن رسید (از 4 هزار، 8 هزار، 32 هزار، 128 هزار)

این برای روزنامه‌نگاران بسیار مهم است - بدین معنا که اکنون می‌توانید کل اسناد را در LLMها وارد کنید. دیدگاه من این است که ارزش «بخش‌هایی از یک سند» را در LLM قرار دادن، کاهش یافته است - اکنون بهتر است کل سند را در آن قرار دهید.

LLMها در  مشارکت با سایر ابزارها برتری پیدا می‌کنند

این چیزی است که در مقاله‌ام با عنوان LLMها اکسل هستند در مورد آن نوشتم - LLMها واقعاً در مشارکت با ابزارهای دیگر بهتر هستند. مهارت اصلی آنها در «تصمیم‌گیری» در مورد اینکه چه کاری باید انجام شود، نه انجام محاسبات پیچیده است. وقتی آنها را درگیر این موارد می‌کنید، شروع به دیدن ناهنجاری‌ها می‌کنید، بنابراین باید از LLMها در تصمیم‌گیری در مورد اینکه چه زمانی سایر ابزارها را صدا بزنید، استفاده کنید.

معرفی ابزارها و بازیابی آگاهانه  (RAG) به اندازه کافی خوب شده‌اند که ارزش استفاده را دارند

این دلیلی است که من در مقاله‌ام در مورد LLMها به عنوان اکسل، بر روی معرفی ابزارها تمرکز کردم. این ابزار یک الگو به اندازه کافی خوب است که ارزش استفاده را دارد.

این پست را ببینید و همچنین نحوه ادغام معرفی ابزارها با Llama 2 را ببینید.

RAG - بازیابی آگاهانه مولد - الگوی دیگری است که اکنون به اندازه کافی خوب است که ارزش استفاده را دارد.

الگوی RAG - بازیابی آگاهانه مولد

این الگویی است که شما ابتدا یک پرس و جو انجام می‌دهید (معمولاً با استفاده از minicloud یا Cloud Run سرویس میزبانی شده datasette-faiss من برای ایجاد تعبیه‌ها و انجام جستجوی برداری)، سپس محتوای مرتبط را به LLM می‌فرستید تا به سؤال اصلی پاسخ دهد.

ساخت مدل خود به اندازه کافی ساده شده است که برخی از شما باید این کار را انجام دهید

ممکن است برخی از شما به این استدلال پاسخ دهند که «باید نگران تعصب، حقیقت‌گویی، خطاهای عجیب و غریب و مسائل مالکیت معنوی باشیم». اگر بتوانید این کار را توجیه کنید، من استدلال می‌کنم که می‌توانید راهی را پیدا کنید که برای خودتان مدل fine-tune کنید (احتمالاً از یک مدل پایه منبع باز با مجوز دوستانه استفاده می‌کنید) که برای مورد استفاده شما مناسب باشد.

من عاشق مدل‌های چندوجهی هستم  LLMهای بصری (تصویری)  LLMهای صوتی  LLMهای ویدویی

من عاشق مدل‌های چندوجهی هستم. آنها واقعاً بازگشایی پتانسیل من برای ایجاد یک وبلاگ از عکس شامم را باز کردند.

LLMهای بصری برای روزنامه‌نگاران ده‌برابر هستند

LLMهای بصری (LLMهای تصویری) پتانسیل ده‌برابر کردن کار روزنامه‌نگاران را دارند - پتانسیل شناسایی مواردی را دارند که در غیر این صورت کشف نمی‌شدند.

«از این عکس خبری تهیه کنید» + یک روزنامه‌نگار انسان = مقاله‌ای بهتر از: «از این عکس خبری تهیه کنید»

به ویژه اگر به یک روزنامه‌نگار انسان متصل شوند! من هنوز فکر نمی‌کنم که LLMها در کل «نوشتن یک مقاله خبری» خیلی خوب باشند. اما آنها در بررسی یک عکس و پیشنهاد چندین خط داستانی که روزنامه‌نگار می‌تواند آنها را دنبال کند، بسیار خوب هستند.

اما LLMهای بصری  همچنان گران و کم‌توان هستند

اما در حال حاضر LLMهای بصری هنوز گران و نسبتاً کم‌توان هستند. من فکر می‌کنم که در سال 2025 تغییر خواهد کرد.

من از ابزارهای LLM خود برای موارد زیر استفاده کرده‌ام :  خلاصه کردن یک پست وبلاگ  تبدیل یک متن به هجا   تبدیل یک متن به ایموجی  پیشنهاد کلمات کلیدی

من از ابزارهای LLM خود برای طیف گسترده‌ای از کارها استفاده کرده‌ام - بسیاری از آنها کم‌اهمیت، اما همچنان مفید هستند.

من  از ابزارهای LLM خود  برای این موارد استفاده نکرده‌ام:  یافتن این که  چه کسی بیشتر برای یک کاندیدای سیاسی پول می‌دهد  تولید مقاله های دروغین

اما جالب‌تر این است که من *استفاده نکرده‌ام* از ابزارهای LLM خود برای کارهایی مانند یافتن اینکه چه کسی بیشتر به یک کاندیدای سیاسی پول داده است، یا تولید مقالات دروغین.

به دنبال موارد کم‌هزینه، کم‌خطر، بسیار زیاد باشید

پیام اصلی من این است که شما باید به دنبال موارد کم‌هزینه، کم‌خطر و بسیار زیاد باشید.

بررسی کنید:  هزینه های مدل  اندازه زمینه  پشتیبانی چندوجهی  آیا می‌توانید خوب به آنها آموزش دهید؟

ارزیابی‌ها باید بررسی کنند: هزینه‌های مدل، اندازه زمینه، پشتیبانی چندوجهی و اینکه آیا می‌توانید به خوبی به آنها آموزش دهید.

در پایان:  به‌روز بمانید!  همه‌چیز در حال تغییر است  از انجام کارهای خطرناک نترسید  از آزمایش نترسید

پیام نهایی من این است: به‌روز بمانید! همه چیز در حال تغییر است. از انجام کارهای خطرناک نترسید. از آزمایش نترسید.