من امسال دو جلسه در کنفرانس روزنامهنگاری دادهمحور NICAR 2025 ارائه کردم. اولین جلسه بر اساس مرور من بر LLMها در سال 2024 بود که چندین ماه تمدید شد تا همه اتفاقات سال 2025 را پوشش دهد. دومین جلسه، کارگاهی در مورد تکنیکهای پیشرفته وباسکرپینگ بود که جداگانه درباره آن نوشتهام.
در اینجا اسلایدها و یادداشتهای مفصل مرور من بر تازههای LLMها، با تمرکز بر روندهایی که مرتبط با روزنامهنگاری دادهمحور هستند، آورده شده است.
من با مروری بر داستان تا به امروز، از 30 نوامبر 2022 با انتشار ChatGPT شروع کردم.
این یک جهش بزرگ تکنولوژیکی نسبت به GPT-3 نبود، که ما قبلاً چند سال به آن دسترسی داشتیم... اما مشخص شد که قرار دادن یک رابط چت در اطراف آن، *بهبودی* بود که آن را برای مخاطبان عام قابل دسترس کرد. نتیجه چیزی بود که به عنوان سریعترین برنامه کاربردی در حال رشد در تمام دورانها شناخته شده است.
با نگاهی به گذشته، بقیه سال 2023 در واقع کمی کسلکننده بود! حداقل در مقایسه با 2024.
... با چند استثنا. بینگ به خاطر تلاش برای به هم زدن ازدواج کوین روس در صفحه اول نیویورک تایمز قرار گرفت.
بزرگترین جهش رو به جلو در سال 2023، GPT-4 بود که ابتدا توسط بینگ پیشنمایش شد و سپس در ماه مارس برای همه عرضه شد. ... و تقریباً در بقیه سال بیرقیب ماند. برای مدتی، به نظر میرسید که GPT-4 یک دستاورد منحصر به فرد است و هیچ کس دیگری نمیتواند به OpenAI برسد. این موضوع در سال 2024 به طور کامل تغییر کرد.
به چیزهایی که در مورد LLMها در سال 2024 آموختیم مراجعه کنید. اتفاقات بسیار زیادی در سال 2024 رخ داد.
من در مورد این موضوع در مانع GPT-4 به طور جامع شکسته شد نوشتم - ابتدا توسط جمینای و آنتروپیک، سپس اندکی بعد تقریباً توسط همه. یک مدل کلاس GPT-4 در حال حاضر تقریباً یک کالای رایج است. 18 آزمایشگاه به این نقطه عطف دست یافتهاند.
و OpenAI دیگر بدون شک از هر کس دیگری در این زمینه بهتر نیست.
یکی از روندهای مورد علاقه من در 15 ماه گذشته، ظهور LLMهای چندوجهی بوده است. هنگامی که مردم از کند شدن پیشرفت LLM در سال گذشته شکایت میکردند، من همیشه از مدلهای چندوجهی به عنوان استدلال متقابل استفاده میکردم. این مدلها به طرز شگفتانگیزی در پردازش تصاویر خوب شدهاند و هم صدا و هم ویدیو نیز در حال حاضر مفید میشوند. من پشتیبانی چندوجهی را به ابزار LLM خود در ماه اکتبر اضافه کردم. تگ vision-llms من پیشرفتهای این فضا را به طور دقیق دنبال میکند.
اگر مدل ذهنی شما از این چیزها این است که دسترسی به آنها از طریق API گران است، باید دوباره ارزیابی کنید. من کاهش هزینههای مدلها را در تگ llm-pricing خود پیگیری کردهام.
در بیشتر موارد، قیمتها مانند سنگ در حال سقوط بودهاند. ... به استثنای GPT-4.5، که به عنوان یک مدل *واقعاً* گران قیمت قابل توجه است - 500 برابر گرانتر از ارزانترین مدل فعلی OpenAI، یعنی GPT-4o mini است! هنوز هم جالب است که با GPT-3 Da Vinci مقایسه کنیم که چند سال پیش تقریباً به اندازه GPT-4. 5 ارزان بود.
این برای روزنامهنگاران بسیار مهم است - بدین معنا که اکنون میتوانید کل اسناد را در LLMها وارد کنید. دیدگاه من این است که ارزش «بخشهایی از یک سند» را در LLM قرار دادن، کاهش یافته است - اکنون بهتر است کل سند را در آن قرار دهید.
این چیزی است که در مقالهام با عنوان LLMها اکسل هستند در مورد آن نوشتم - LLMها واقعاً در مشارکت با ابزارهای دیگر بهتر هستند. مهارت اصلی آنها در «تصمیمگیری» در مورد اینکه چه کاری باید انجام شود، نه انجام محاسبات پیچیده است. وقتی آنها را درگیر این موارد میکنید، شروع به دیدن ناهنجاریها میکنید، بنابراین باید از LLMها در تصمیمگیری در مورد اینکه چه زمانی سایر ابزارها را صدا بزنید، استفاده کنید.
این دلیلی است که من در مقالهام در مورد LLMها به عنوان اکسل، بر روی معرفی ابزارها تمرکز کردم. این ابزار یک الگو به اندازه کافی خوب است که ارزش استفاده را دارد.
این پست را ببینید و همچنین نحوه ادغام معرفی ابزارها با Llama 2 را ببینید.
RAG - بازیابی آگاهانه مولد - الگوی دیگری است که اکنون به اندازه کافی خوب است که ارزش استفاده را دارد.
این الگویی است که شما ابتدا یک پرس و جو انجام میدهید (معمولاً با استفاده از minicloud یا Cloud Run سرویس میزبانی شده datasette-faiss من برای ایجاد تعبیهها و انجام جستجوی برداری)، سپس محتوای مرتبط را به LLM میفرستید تا به سؤال اصلی پاسخ دهد.
ممکن است برخی از شما به این استدلال پاسخ دهند که «باید نگران تعصب، حقیقتگویی، خطاهای عجیب و غریب و مسائل مالکیت معنوی باشیم». اگر بتوانید این کار را توجیه کنید، من استدلال میکنم که میتوانید راهی را پیدا کنید که برای خودتان مدل fine-tune کنید (احتمالاً از یک مدل پایه منبع باز با مجوز دوستانه استفاده میکنید) که برای مورد استفاده شما مناسب باشد.
من عاشق مدلهای چندوجهی هستم. آنها واقعاً بازگشایی پتانسیل من برای ایجاد یک وبلاگ از عکس شامم را باز کردند.
LLMهای بصری (LLMهای تصویری) پتانسیل دهبرابر کردن کار روزنامهنگاران را دارند - پتانسیل شناسایی مواردی را دارند که در غیر این صورت کشف نمیشدند.
به ویژه اگر به یک روزنامهنگار انسان متصل شوند! من هنوز فکر نمیکنم که LLMها در کل «نوشتن یک مقاله خبری» خیلی خوب باشند. اما آنها در بررسی یک عکس و پیشنهاد چندین خط داستانی که روزنامهنگار میتواند آنها را دنبال کند، بسیار خوب هستند.
اما در حال حاضر LLMهای بصری هنوز گران و نسبتاً کمتوان هستند. من فکر میکنم که در سال 2025 تغییر خواهد کرد.
من از ابزارهای LLM خود برای طیف گستردهای از کارها استفاده کردهام - بسیاری از آنها کماهمیت، اما همچنان مفید هستند.
اما جالبتر این است که من *استفاده نکردهام* از ابزارهای LLM خود برای کارهایی مانند یافتن اینکه چه کسی بیشتر به یک کاندیدای سیاسی پول داده است، یا تولید مقالات دروغین.
پیام اصلی من این است که شما باید به دنبال موارد کمهزینه، کمخطر و بسیار زیاد باشید.
ارزیابیها باید بررسی کنند: هزینههای مدل، اندازه زمینه، پشتیبانی چندوجهی و اینکه آیا میتوانید به خوبی به آنها آموزش دهید.
پیام نهایی من این است: بهروز بمانید! همه چیز در حال تغییر است. از انجام کارهای خطرناک نترسید. از آزمایش نترسید.