اعتبار: Lionel Bonaventure/AFP via Getty
اعتبار: Lionel Bonaventure/AFP via Getty

بهترین ابزارهای هوش مصنوعی برای تحقیق کدامند؟ راهنمای نیچر

مدل‌های زبانی بزرگ بسیاری برای انتخاب وجود دارد. برخی در کدنویسی برتری دارند، در حالی که برخی دیگر برای ترکیب اطلاعات بهتر هستند.

تقریباً هر هفته یک ابزار هوش مصنوعی (AI) جدید و ظاهراً چشمگیرتر منتشر می‌شود و محققان برای آزمایش آن‌ها هجوم می‌آورند. خواه به دنبال ویرایش نسخه‌های خطی، نوشتن کد یا ایجاد فرضیه‌ها باشند، محققان بیش از هر زمان دیگری ابزارهای هوش مصنوعی مولد برای انتخاب دارند.

هر مدل زبانی بزرگ (LLM) برای وظایف مختلفی مناسب است. برخی از طریق چت‌بات‌های رایگان در دسترس هستند، در حالی که برخی دیگر از یک رابط برنامه‌نویسی کاربردی (API) پولی استفاده می‌کنند که به این معنی است که می‌توان آن‌ها را با نرم‌افزارهای دیگر ادغام کرد. تعداد کمی نیز قابل دانلود هستند و به محققان اجازه می‌دهند مدل‌های سفارشی خود را بسازند.

اگرچه LLMها پاسخ‌های شبیه انسان تولید می‌کنند، اما همگی هنوز بیش از حد مستعد خطا هستند که به تنهایی مورد استفاده قرار گیرند، به گفته کری رایت، دانشمند داده در مرکز سرطان فرد هاچینسون، که مقر آن در سیاتل، واشنگتن است.

بنابراین کدام LLM برای چه کاری بهترین است؟ در اینجا، محققان موارد مورد علاقه فعلی خود را با نیچر به اشتراک می گذارند تا به کسانی که نیاز دارند کمک کنند.

o3-mini (استدلال کننده)

OpenAI، مستقر در سان فرانسیسکو، کالیفرنیا، در سال 2022 با ربات ChatGPT رایگان خود، جهان را با LLMها آشنا کرد. دانشمندان عمدتاً از این ربات برای جستجوی اطلاعات یا به عنوان دستیار نوشتن، به عنوان مثال برای تهیه پیش نویس چکیده، استفاده کرده اند، اما مدل های جدیدتر در حال گسترش کاربردهای بالقوه این فناوری هستند. سپتامبر گذشته، در مهمترین پیشرفت این شرکت از آن زمان، OpenAI دانشمندان را با مدل استدلال o1 خود شگفت زده کرد، که در ماه دسامبر با o3 پیشرفته تر آن را دنبال کرد. هر دو مدل استدلال کندتر از یک LLM به تنهایی کار می کنند، زیرا برای پاسخگویی به سوالات به صورت گام به گام آموزش دیده اند. این فرآیند «زنجیره تفکر»، با هدف شبیه‌سازی استدلال انسانی، به آنها کمک کرده است تا معیارهای دشوار در علم و ریاضیات را درهم بشکنند. همچنین آنها را در کارهای فنی مانند حل مسائل کدنویسی و تغییر قالب داده ها خوب کرده است.

پس از اینکه استارت آپ چینی DeepSeek در هانگژو یک استدلالگر رقیب را در 20 ژانویه راه اندازی کرد، OpenAI با طیف وسیعی از ابزارهای جدید پاسخ داد. اینها شامل یک o3-mini سریع - یک استدلالگر که برای کاربران ثبت نام شده چت ربات رایگان است - و 'تحقیقات عمیق' است که به برخی از مشترکان پولی اجازه می دهد گزارش هایی ایجاد کنند که اطلاعات را با استناد، از صدها وب سایت، شبیه به انجام یک بررسی ادبیات، ترکیب می کنند. اندرو وایت، شیمیدان و متخصص هوش مصنوعی در FutureHouse، یک استارت آپ در سان فرانسیسکو، می گوید که این مدل ها در صورت استفاده ترکیبی عالی هستند.

سیمون فرید، ریاضیدان و محقق هوش مصنوعی در دانشگاه آکسفورد، بریتانیا، می‌گوید که o3-mini در مورد وظایفی مانند جدا کردن مفاهیم ناآشنا در یک اثبات ریاضی جدید، «کار بسیار خوبی» انجام می‌دهد. اما حتی بهترین مدل‌ها نیز «هنوز حتی نزدیک به رقابت با یک ریاضیدان نیستند».

DeepSeek (همه کاره)

DeepSeek-R1 که ماه گذشته راه اندازی شد، توانایی هایی در حد o1 دارد، اما از طریق API با کسری از هزینه در دسترس است. همچنین از مدل‌های OpenAI متمایز است زیرا وزن باز است، به این معنی که اگرچه داده‌های آموزشی آن منتشر نشده است، هر کسی می‌تواند مدل زیربنایی را دانلود کرده و آن را با پروژه تحقیقاتی خاص خود تطبیق دهد. وایت می گوید که R1 "فقط یک پارادایم جدید را باز کرده است" که در آن جوامع، به ویژه آنهایی که منابع نسبتا کمی دارند، می توانند مدل های استدلال تخصصی بسازند.

اجرای مدل کامل مستلزم دسترسی به تراشه های محاسباتی قدرتمند است که بسیاری از دانشگاهیان فاقد آن هستند. اما محققانی مانند بنیو وانگ، دانشمند کامپیوتر در دانشگاه چینی هنگ کنگ، شنژن، در حال ایجاد نسخه هایی هستند که می توانند روی یک دستگاه واحد اجرا یا آموزش ببینند. مانند o1، تخصص DeepSeek-R1 مسائل ریاضی و نوشتن کد است. اما وایت می‌گوید که در کارهایی مانند تولید فرضیه‌ها نیز خوب است. دلیلش این است که DeepSeek تصمیم گرفته است "فرآیندهای فکری" مدل را به طور کامل منتشر کند، که به محققان اجازه می دهد تا سوالات بعدی خود را بهتر اصلاح کنند و در نهایت خروجی های آن را بهبود بخشند. چنین شفافیتی می تواند برای تشخیص پزشکی نیز بسیار قدرتمند باشد. وانگ در حال تطبیق R1 در آزمایش‌هایی است که از قدرت‌های استدلال‌مانند مدل برای ایجاد "یک مسیر روشن و منطقی از ارزیابی بیمار تا تشخیص و توصیه درمانی" استفاده می‌کنند.

DeepSeek-R1 معایبی دارد. به نظر می رسد این مدل یک فرآیند "فکری" بسیار طولانی دارد که آن را کند می کند و برای جستجوی اطلاعات یا طوفان فکری کمتر مفید است. نگرانی ها در مورد امنیت داده های ورودی به API و چت ربات آن، چندین دولت را بر آن داشته است تا کارگران در آژانس های ملی را از استفاده از چت ربات منع کنند. به نظر می رسد DeepSeek اقدامات کمتری برای کاهش تولید خروجی های مضر مدل های خود نسبت به رقبای تجاری خود انجام داده است. افزودن فیلترها برای جلوگیری از چنین خروجی هایی - دستورالعمل هایی برای ساخت سلاح، به عنوان مثال - زمان و تلاش می طلبد. اگرچه بعید است که این کار عمداً انجام شده باشد، "فقدان ریل های محافظ نگران کننده است"، به گفته سایمون.

OpenAI همچنین پیشنهاد کرده است که DeepSeek ممکن است مدل های خود را "به طور نامناسب تقطیر" کرده باشد، و به روشی برای آموزش یک مدل بر روی خروجی های الگوریتم دیگر اشاره می کند که شرایط استفاده OpenAI آن را ممنوع می کند.

قبل از انتشار این مقاله، امکان دسترسی به DeepSeek برای اظهار نظر در مورد این انتقادات وجود نداشت.

برخی از محققان چنین تقطیری را امری عادی می دانند و از استفاده از R1 خوشحال هستند، اما برخی دیگر از استفاده از ابزاری که ممکن است در معرض دعوی قضایی آینده باشد، محتاط هستند. آنا کاتارینا دی آلنکار، وکیلی در EIT Manufacturing در پاریس که در حقوق هوش مصنوعی تخصص دارد، می گوید اگر استفاده از مدل نقض استانداردهای اخلاقی مجله تلقی شود، این احتمال وجود دارد که دانشمندانی که از R1 استفاده می کنند مجبور به پس گرفتن مقالات شوند. دی آلنکار می گوید که وضعیت مشابهی می تواند در مورد استفاده از مدل ها توسط OpenAI و سایر شرکت هایی که به نقض مالکیت معنوی متهم شده اند، اعمال شود. سازمان های خبری ادعا می کنند که این شرکت ها از محتوای ژورنالیستی برای آموزش مدل های خود بدون اجازه استفاده کرده اند.

Llama (اسب بارکش)

Llama مدت هاست که یک LLM مورد علاقه برای جامعه تحقیقاتی بوده است. خانواده ای از مدل های وزن باز که برای اولین بار توسط Meta AI در منلو پارک، کالیفرنیا، در سال 2023 منتشر شد، نسخه های Llama بیش از 600 میلیون بار فقط از طریق پلت فرم علم باز Hugging Face دانلود شده اند. الیزابت هامفریز، دانشمند داده در مرکز سرطان فرد هاچینسون، می گوید این واقعیت که می توان آن را دانلود کرد و روی آن ساخت، "احتمالاً دلیل استقبال جامعه تحقیقاتی از Llama بوده است".

رایت می‌گوید که وقتی با داده‌های اختصاصی یا محافظت‌شده کار می‌کنید، برای جلوگیری از بازخورد اطلاعات حساس به سایر کاربران یا توسعه‌دهندگان، داشتن توانایی اجرای یک LLM روی سرورهای شخصی یا سازمانی ضروری است.

محققان روی مدل‌های Llama ساخته‌اند تا LLMهایی بسازند که ساختار کریستالی مواد را پیش‌بینی می‌کنند و همچنین خروجی‌های یک رایانه کوانتومی را شبیه‌سازی می‌کنند. تیان‌لانگ چن، دانشمند یادگیری ماشین در دانشگاه کارولینای شمالی در چپل هیل، می‌گوید که Llama برای شبیه‌سازی یک رایانه کوانتومی مناسب بود زیرا تطبیق آن با درک زبان کوانتومی تخصصی نسبتاً آسان بود.

اما وایت می گوید که Llama از کاربران می خواهد که برای دسترسی به آن اجازه درخواست کنند، که یک نکته جزئی اصطکاک برای برخی است. در نتیجه، مدل‌های باز دیگری مانند OLMo که توسط موسسه هوش مصنوعی آلن در سیاتل توسعه یافته‌اند، یا Qwen که توسط شرکت چینی Alibaba Cloud، مستقر در هانگژو، ساخته شده‌اند، اکنون اغلب اولین انتخاب در تحقیقات هستند. مدل V3 زیربنایی کارآمد DeepSeek نیز یک پایه رقیب برای ساخت مدل های علمی است.

Claude (کدنویس)

سیمون می گوید که در سیلیکون ولی، بسیاری از مردم به Claude 3.5 Sonnet برای نوشتن کد قسم می خورند. Claude 3.5 Sonnet که توسط شرکت هوش مصنوعی مستقر در سانفرانسیسکو، Anthropic ساخته شده است، می تواند اطلاعات بصری مانند نمودارها و نمودارها را در کنار متن تفسیر کند. علاوه بر این، دارای حالتی است که به آن اجازه می دهد از راه دور رایانه کاربر را اداره کند و به طور بالقوه به آن اجازه می دهد نرم افزار دیگری را کنترل کند.

مدل‌های Claude برای سبک نوشتاری خود نیز مورد تحسین قرار می‌گیرند. رایت می‌گوید، هنگامی که برخی از LLMها، مانند ChatGPT، زبان فنی را حذف می‌کنند، می‌توانند معنای مهم را نیز حذف کنند. مدل‌های Claude در روان‌تر کردن نوشتن در عین حفظ حس اصلی آن بهتر هستند. او می گوید که این می تواند یک مزیت باشد هنگام استفاده از مدل برای شروع یک پیشنهاد کمک هزینه یا ایجاد حاشیه نویسی توضیحی برای کد.

هوان سان، محقق هوش مصنوعی در دانشگاه ایالتی اوهایو در کلمبوس، می گوید که Claude 3.5 Sonnet در چالش های کدنویسی در یک آزمون معیار مبتنی بر وظایف علمی داده محور که از مقالات واقعی در زمینه هایی مانند بیوانفورماتیک و شیمی محاسباتی گرفته شده بود، عملکرد خوبی داشت. اگرچه استفاده از Claude 3.5 Sonnet به عنوان یک چت ربات آنلاین رایگان است، مانند مدل‌های OpenAI، محققان فقط می‌توانند با دسترسی به آن از طریق یک API پولی، یکپارچه‌سازی کامل را دریافت کنند. سان می‌گوید: «با قوی‌تر شدن مدل‌های منبع باز ارزان‌تر، معتقدم مردم آنها را به APIهای منبع بسته ترجیح می‌دهند.»

Olmo (واقعاً باز)

محققانی که می خواهند بفهمند زیر کاپوت یک LLM چه می گذرد، به چیزی حتی شفاف تر از مدل های ارائه شده توسط Llama و DeepSeek نیاز دارند. لوئیس تونستال، محقق Hugging Face، می‌گوید مدل‌های متن‌باز، به‌جای مدل‌های فقط وزن باز، همراه با داده‌های آموزشی الگوریتم و همچنین کدی هستند که برای آموزش و ارزیابی مدل‌ها استفاده می‌شود. در حال حاضر، بهترین مدل از این نوع OLMo 2 است.

مطالعه چنین مدل‌هایی به محققان این امکان را می‌دهد تا منابع سوگیری را در یک LLM به داده‌های آموزشی آن ردیابی کنند و همچنین با درک بهتر اینکه الگوریتم چگونه به خروجی‌های خود می‌رسد، کارایی را بهبود بخشند. در حال حاضر، عیب اصلی هر مدل باز این است که محققان معمولاً برای اجرای آنها به تخصص نیاز دارند، اما با افزایش تعداد دوره های عملی رایگان ارائه شده برای جامعه، تونستال می گوید: "مانع ورود هر روز کمتر می شود".

او خاطرنشان می کند که اگر دادگاه ها آموزش هوش مصنوعی بر روی محتوای دارای حق چاپ را غیرقانونی تشخیص دهند، مدل هایی که بر روی مجموعه داده های "مجاز" آموزش داده شده اند که اجازه استفاده مجدد و اصلاح را می دهند، مانند تلاش به رهبری Hugging Face برای بازسازی DeepSeek-R1، ممکن است تنها مدل های ایمن برای استفاده باشند.