تقریباً هر هفته یک ابزار هوش مصنوعی (AI) جدید و ظاهراً چشمگیرتر منتشر میشود و محققان برای آزمایش آنها هجوم میآورند. خواه به دنبال ویرایش نسخههای خطی، نوشتن کد یا ایجاد فرضیهها باشند، محققان بیش از هر زمان دیگری ابزارهای هوش مصنوعی مولد برای انتخاب دارند.
هر مدل زبانی بزرگ (LLM) برای وظایف مختلفی مناسب است. برخی از طریق چتباتهای رایگان در دسترس هستند، در حالی که برخی دیگر از یک رابط برنامهنویسی کاربردی (API) پولی استفاده میکنند که به این معنی است که میتوان آنها را با نرمافزارهای دیگر ادغام کرد. تعداد کمی نیز قابل دانلود هستند و به محققان اجازه میدهند مدلهای سفارشی خود را بسازند.
اگرچه LLMها پاسخهای شبیه انسان تولید میکنند، اما همگی هنوز بیش از حد مستعد خطا هستند که به تنهایی مورد استفاده قرار گیرند، به گفته کری رایت، دانشمند داده در مرکز سرطان فرد هاچینسون، که مقر آن در سیاتل، واشنگتن است.
بنابراین کدام LLM برای چه کاری بهترین است؟ در اینجا، محققان موارد مورد علاقه فعلی خود را با نیچر به اشتراک می گذارند تا به کسانی که نیاز دارند کمک کنند.
o3-mini (استدلال کننده)
OpenAI، مستقر در سان فرانسیسکو، کالیفرنیا، در سال 2022 با ربات ChatGPT رایگان خود، جهان را با LLMها آشنا کرد. دانشمندان عمدتاً از این ربات برای جستجوی اطلاعات یا به عنوان دستیار نوشتن، به عنوان مثال برای تهیه پیش نویس چکیده، استفاده کرده اند، اما مدل های جدیدتر در حال گسترش کاربردهای بالقوه این فناوری هستند. سپتامبر گذشته، در مهمترین پیشرفت این شرکت از آن زمان، OpenAI دانشمندان را با مدل استدلال o1 خود شگفت زده کرد، که در ماه دسامبر با o3 پیشرفته تر آن را دنبال کرد. هر دو مدل استدلال کندتر از یک LLM به تنهایی کار می کنند، زیرا برای پاسخگویی به سوالات به صورت گام به گام آموزش دیده اند. این فرآیند «زنجیره تفکر»، با هدف شبیهسازی استدلال انسانی، به آنها کمک کرده است تا معیارهای دشوار در علم و ریاضیات را درهم بشکنند. همچنین آنها را در کارهای فنی مانند حل مسائل کدنویسی و تغییر قالب داده ها خوب کرده است.
پس از اینکه استارت آپ چینی DeepSeek در هانگژو یک استدلالگر رقیب را در 20 ژانویه راه اندازی کرد، OpenAI با طیف وسیعی از ابزارهای جدید پاسخ داد. اینها شامل یک o3-mini سریع - یک استدلالگر که برای کاربران ثبت نام شده چت ربات رایگان است - و 'تحقیقات عمیق' است که به برخی از مشترکان پولی اجازه می دهد گزارش هایی ایجاد کنند که اطلاعات را با استناد، از صدها وب سایت، شبیه به انجام یک بررسی ادبیات، ترکیب می کنند. اندرو وایت، شیمیدان و متخصص هوش مصنوعی در FutureHouse، یک استارت آپ در سان فرانسیسکو، می گوید که این مدل ها در صورت استفاده ترکیبی عالی هستند.
سیمون فرید، ریاضیدان و محقق هوش مصنوعی در دانشگاه آکسفورد، بریتانیا، میگوید که o3-mini در مورد وظایفی مانند جدا کردن مفاهیم ناآشنا در یک اثبات ریاضی جدید، «کار بسیار خوبی» انجام میدهد. اما حتی بهترین مدلها نیز «هنوز حتی نزدیک به رقابت با یک ریاضیدان نیستند».
DeepSeek (همه کاره)
DeepSeek-R1 که ماه گذشته راه اندازی شد، توانایی هایی در حد o1 دارد، اما از طریق API با کسری از هزینه در دسترس است. همچنین از مدلهای OpenAI متمایز است زیرا وزن باز است، به این معنی که اگرچه دادههای آموزشی آن منتشر نشده است، هر کسی میتواند مدل زیربنایی را دانلود کرده و آن را با پروژه تحقیقاتی خاص خود تطبیق دهد. وایت می گوید که R1 "فقط یک پارادایم جدید را باز کرده است" که در آن جوامع، به ویژه آنهایی که منابع نسبتا کمی دارند، می توانند مدل های استدلال تخصصی بسازند.
اجرای مدل کامل مستلزم دسترسی به تراشه های محاسباتی قدرتمند است که بسیاری از دانشگاهیان فاقد آن هستند. اما محققانی مانند بنیو وانگ، دانشمند کامپیوتر در دانشگاه چینی هنگ کنگ، شنژن، در حال ایجاد نسخه هایی هستند که می توانند روی یک دستگاه واحد اجرا یا آموزش ببینند. مانند o1، تخصص DeepSeek-R1 مسائل ریاضی و نوشتن کد است. اما وایت میگوید که در کارهایی مانند تولید فرضیهها نیز خوب است. دلیلش این است که DeepSeek تصمیم گرفته است "فرآیندهای فکری" مدل را به طور کامل منتشر کند، که به محققان اجازه می دهد تا سوالات بعدی خود را بهتر اصلاح کنند و در نهایت خروجی های آن را بهبود بخشند. چنین شفافیتی می تواند برای تشخیص پزشکی نیز بسیار قدرتمند باشد. وانگ در حال تطبیق R1 در آزمایشهایی است که از قدرتهای استدلالمانند مدل برای ایجاد "یک مسیر روشن و منطقی از ارزیابی بیمار تا تشخیص و توصیه درمانی" استفاده میکنند.
DeepSeek-R1 معایبی دارد. به نظر می رسد این مدل یک فرآیند "فکری" بسیار طولانی دارد که آن را کند می کند و برای جستجوی اطلاعات یا طوفان فکری کمتر مفید است. نگرانی ها در مورد امنیت داده های ورودی به API و چت ربات آن، چندین دولت را بر آن داشته است تا کارگران در آژانس های ملی را از استفاده از چت ربات منع کنند. به نظر می رسد DeepSeek اقدامات کمتری برای کاهش تولید خروجی های مضر مدل های خود نسبت به رقبای تجاری خود انجام داده است. افزودن فیلترها برای جلوگیری از چنین خروجی هایی - دستورالعمل هایی برای ساخت سلاح، به عنوان مثال - زمان و تلاش می طلبد. اگرچه بعید است که این کار عمداً انجام شده باشد، "فقدان ریل های محافظ نگران کننده است"، به گفته سایمون.
OpenAI همچنین پیشنهاد کرده است که DeepSeek ممکن است مدل های خود را "به طور نامناسب تقطیر" کرده باشد، و به روشی برای آموزش یک مدل بر روی خروجی های الگوریتم دیگر اشاره می کند که شرایط استفاده OpenAI آن را ممنوع می کند.
قبل از انتشار این مقاله، امکان دسترسی به DeepSeek برای اظهار نظر در مورد این انتقادات وجود نداشت.
برخی از محققان چنین تقطیری را امری عادی می دانند و از استفاده از R1 خوشحال هستند، اما برخی دیگر از استفاده از ابزاری که ممکن است در معرض دعوی قضایی آینده باشد، محتاط هستند. آنا کاتارینا دی آلنکار، وکیلی در EIT Manufacturing در پاریس که در حقوق هوش مصنوعی تخصص دارد، می گوید اگر استفاده از مدل نقض استانداردهای اخلاقی مجله تلقی شود، این احتمال وجود دارد که دانشمندانی که از R1 استفاده می کنند مجبور به پس گرفتن مقالات شوند. دی آلنکار می گوید که وضعیت مشابهی می تواند در مورد استفاده از مدل ها توسط OpenAI و سایر شرکت هایی که به نقض مالکیت معنوی متهم شده اند، اعمال شود. سازمان های خبری ادعا می کنند که این شرکت ها از محتوای ژورنالیستی برای آموزش مدل های خود بدون اجازه استفاده کرده اند.
Llama (اسب بارکش)
Llama مدت هاست که یک LLM مورد علاقه برای جامعه تحقیقاتی بوده است. خانواده ای از مدل های وزن باز که برای اولین بار توسط Meta AI در منلو پارک، کالیفرنیا، در سال 2023 منتشر شد، نسخه های Llama بیش از 600 میلیون بار فقط از طریق پلت فرم علم باز Hugging Face دانلود شده اند. الیزابت هامفریز، دانشمند داده در مرکز سرطان فرد هاچینسون، می گوید این واقعیت که می توان آن را دانلود کرد و روی آن ساخت، "احتمالاً دلیل استقبال جامعه تحقیقاتی از Llama بوده است".
رایت میگوید که وقتی با دادههای اختصاصی یا محافظتشده کار میکنید، برای جلوگیری از بازخورد اطلاعات حساس به سایر کاربران یا توسعهدهندگان، داشتن توانایی اجرای یک LLM روی سرورهای شخصی یا سازمانی ضروری است.
محققان روی مدلهای Llama ساختهاند تا LLMهایی بسازند که ساختار کریستالی مواد را پیشبینی میکنند و همچنین خروجیهای یک رایانه کوانتومی را شبیهسازی میکنند. تیانلانگ چن، دانشمند یادگیری ماشین در دانشگاه کارولینای شمالی در چپل هیل، میگوید که Llama برای شبیهسازی یک رایانه کوانتومی مناسب بود زیرا تطبیق آن با درک زبان کوانتومی تخصصی نسبتاً آسان بود.
اما وایت می گوید که Llama از کاربران می خواهد که برای دسترسی به آن اجازه درخواست کنند، که یک نکته جزئی اصطکاک برای برخی است. در نتیجه، مدلهای باز دیگری مانند OLMo که توسط موسسه هوش مصنوعی آلن در سیاتل توسعه یافتهاند، یا Qwen که توسط شرکت چینی Alibaba Cloud، مستقر در هانگژو، ساخته شدهاند، اکنون اغلب اولین انتخاب در تحقیقات هستند. مدل V3 زیربنایی کارآمد DeepSeek نیز یک پایه رقیب برای ساخت مدل های علمی است.
Claude (کدنویس)
سیمون می گوید که در سیلیکون ولی، بسیاری از مردم به Claude 3.5 Sonnet برای نوشتن کد قسم می خورند. Claude 3.5 Sonnet که توسط شرکت هوش مصنوعی مستقر در سانفرانسیسکو، Anthropic ساخته شده است، می تواند اطلاعات بصری مانند نمودارها و نمودارها را در کنار متن تفسیر کند. علاوه بر این، دارای حالتی است که به آن اجازه می دهد از راه دور رایانه کاربر را اداره کند و به طور بالقوه به آن اجازه می دهد نرم افزار دیگری را کنترل کند.
مدلهای Claude برای سبک نوشتاری خود نیز مورد تحسین قرار میگیرند. رایت میگوید، هنگامی که برخی از LLMها، مانند ChatGPT، زبان فنی را حذف میکنند، میتوانند معنای مهم را نیز حذف کنند. مدلهای Claude در روانتر کردن نوشتن در عین حفظ حس اصلی آن بهتر هستند. او می گوید که این می تواند یک مزیت باشد هنگام استفاده از مدل برای شروع یک پیشنهاد کمک هزینه یا ایجاد حاشیه نویسی توضیحی برای کد.
هوان سان، محقق هوش مصنوعی در دانشگاه ایالتی اوهایو در کلمبوس، می گوید که Claude 3.5 Sonnet در چالش های کدنویسی در یک آزمون معیار مبتنی بر وظایف علمی داده محور که از مقالات واقعی در زمینه هایی مانند بیوانفورماتیک و شیمی محاسباتی گرفته شده بود، عملکرد خوبی داشت. اگرچه استفاده از Claude 3.5 Sonnet به عنوان یک چت ربات آنلاین رایگان است، مانند مدلهای OpenAI، محققان فقط میتوانند با دسترسی به آن از طریق یک API پولی، یکپارچهسازی کامل را دریافت کنند. سان میگوید: «با قویتر شدن مدلهای منبع باز ارزانتر، معتقدم مردم آنها را به APIهای منبع بسته ترجیح میدهند.»
Olmo (واقعاً باز)
محققانی که می خواهند بفهمند زیر کاپوت یک LLM چه می گذرد، به چیزی حتی شفاف تر از مدل های ارائه شده توسط Llama و DeepSeek نیاز دارند. لوئیس تونستال، محقق Hugging Face، میگوید مدلهای متنباز، بهجای مدلهای فقط وزن باز، همراه با دادههای آموزشی الگوریتم و همچنین کدی هستند که برای آموزش و ارزیابی مدلها استفاده میشود. در حال حاضر، بهترین مدل از این نوع OLMo 2 است.
مطالعه چنین مدلهایی به محققان این امکان را میدهد تا منابع سوگیری را در یک LLM به دادههای آموزشی آن ردیابی کنند و همچنین با درک بهتر اینکه الگوریتم چگونه به خروجیهای خود میرسد، کارایی را بهبود بخشند. در حال حاضر، عیب اصلی هر مدل باز این است که محققان معمولاً برای اجرای آنها به تخصص نیاز دارند، اما با افزایش تعداد دوره های عملی رایگان ارائه شده برای جامعه، تونستال می گوید: "مانع ورود هر روز کمتر می شود".
او خاطرنشان می کند که اگر دادگاه ها آموزش هوش مصنوعی بر روی محتوای دارای حق چاپ را غیرقانونی تشخیص دهند، مدل هایی که بر روی مجموعه داده های "مجاز" آموزش داده شده اند که اجازه استفاده مجدد و اصلاح را می دهند، مانند تلاش به رهبری Hugging Face برای بازسازی DeepSeek-R1، ممکن است تنها مدل های ایمن برای استفاده باشند.