اعتبار: Unsplash/CC0 Public Domain
اعتبار: Unsplash/CC0 Public Domain

رویکرد مدل کوچک می‌تواند مؤثرتر از مدل‌های زبانی بزرگ باشد

مدل‌های زبانی کوچک (Small Language Models یا SLMs) به دلیل اینکه اطلاعات را از یک مجموعه داده محدود به دست می‌آورند، قابل اعتمادتر و امن‌تر از همتایان بزرگ خود هستند. انتظار می‌رود که در ماه‌های آینده شاهد استفاده بیشتر از این جایگزین‌های کوچک‌تر در چت‌بات‌ها باشیم.

پس از عرضه گسترده (Large Language Model یا LLM) توسط OpenAI در اواخر سال ۲۰۲۲، بسیاری از شرکت‌های بزرگ فناوری دیگر نیز با سرعتی مشابه وارد این عرصه شدند و نشان دادند که از این قافله عقب نمانده‌اند و سال‌ها در حال توسعه برنامه‌های هوش مصنوعی تولیدی (Generative Artificial Intelligence یا GenAI) خود با استفاده از زبان طبیعی بوده‌اند.

نکته قابل توجه در مورد برنامه‌های مختلف GenAI موجود امروزی این است که چقدر واقعاً شبیه به هم هستند. همه آن‌ها اساساً به یک روش کار می‌کنند: مدلی حاوی میلیاردها پارامتر که به طور عمیق بر روی مجموعه‌های داده عظیمی متشکل از محتوای موجود در اینترنت آموزش داده شده است.

این مدل‌ها پس از آموزش، به نوبه خود، با استفاده از آمار برای پیش‌بینی اینکه کدام رشته از کلمات، پیکسل‌ها یا صداها محتمل‌ترین پاسخ به یک ورودی است، محتوا را - در قالب متون، تصاویر، صداها و فیلم‌ها - تولید می‌کنند.

نیکلاس فلاماریون، که آزمایشگاه تئوری یادگیری ماشین EPFL را اداره می‌کند، می‌گوید: «اما این روش خطراتی را به همراه دارد. بخش قابل توجهی از محتوای موجود آنلاین سمی، خطرناک یا صرفاً نادرست است. به همین دلیل است که توسعه‌دهندگان باید بر مدل‌های خود نظارت و آن‌ها را اصلاح کنند و چندین فیلتر اضافه کنند.»

چگونه از غرق شدن در اطلاعات جلوگیری کنیم

در وضعیت کنونی، مدل‌های زبانی بزرگ (LLM) یک وضعیت نامطلوب ایجاد کرده‌اند که در آن ماشین‌های مستقر در مراکز داده وسیع، میلیاردها بایت داده را پردازش می‌کنند - و در این فرآیند مقادیر زیادی انرژی مصرف می‌کنند - تا کسری کوچک از داده‌ها را که مربوط به یک ورودی معین است، پیدا کنند. این مانند آن است که برای یافتن پاسخ یک سؤال، مجبور باشید صفحه به صفحه تمام کتاب‌های کتابخانه کنگره را ورق بزنید تا اینکه به پاسخ درست برسید.

محققان اکنون در حال بررسی راه‌هایی برای استفاده از قدرت مدل‌های زبانی بزرگ (LLM) و در عین حال کارآمدتر، ایمن‌تر و اقتصادی‌تر کردن عملکرد آن‌ها هستند. مارتین راژمان، مدرس و محقق هوش مصنوعی در EPFL، می‌گوید: «یک روش این است که منابع داده‌ای که به مدل وارد می‌شوند را محدود کنیم. نتیجه، مدل‌های زبانی خواهد بود که برای یک کاربرد معین بسیار مؤثر هستند و تلاشی برای داشتن پاسخ همه چیز نمی‌کنند.»

اینجاست که مدل‌های زبانی کوچک (SLM) وارد می‌شوند. چنین مدل‌هایی می‌توانند از جهات مختلف کوچک باشند، اما در این زمینه، اندازه معمولاً به مجموعه داده‌ای که از آن استخراج می‌کنند، اشاره دارد. اصطلاح فنی برای این کار، تولید تقویت‌شده با بازیابی (Retrieval-Augmented Generation یا RAG) است. Meditron EPFL نمونه‌ای از نحوه کاربرد این روش در عمل ارائه می‌دهد: مدل‌های آن منحصراً به مجموعه‌های داده پزشکی قابل اعتماد و تأیید شده متکی هستند.

مزیت این رویکرد این است که از انتشار اطلاعات نادرست جلوگیری می‌کند. ترفند این است که مجموعه‌های داده محدود را با چت‌بات‌هایی که بر روی مدل‌های بزرگ آموزش داده شده‌اند، پیاده‌سازی کنید. به این ترتیب، چت‌بات می‌تواند اطلاعات را بخواند و بیت‌های مختلف را به هم پیوند دهد تا پاسخ‌های مفیدی تولید کند.

چندین گروه تحقیقاتی EPFL در حال بررسی پتانسیل مدل‌های زبانی کوچک (SLM) هستند. یکی از این پروژه‌ها Meditron است، در حالی که دیگری یک آزمایش آزمایشی در حال انجام بر اساس Polylex، مخزن آنلاین قوانین و سیاست‌های EPFL است. دو پروژه دیگر در حال بررسی بهبود نحوه رونویسی ضبط‌های کلاس هستند تا بتوان آن‌ها را به طور قابل اعتمادتری فهرست‌بندی کرد و برخی از فرآیندهای اداری مدرسه را ساده‌سازی کرد.

ارزان‌تر برای استفاده

از آنجایی که مدل‌های زبانی کوچک (SLM) به مجموعه‌های داده کوچکتری متکی هستند، برای اجرا نیازی به مقادیر زیادی قدرت پردازش ندارند - برخی از آن‌ها حتی می‌توانند روی یک تلفن هوشمند کار کنند. راژمان می‌گوید: «یکی دیگر از مزایای مهم مدل‌های زبانی کوچک (SLM) این است که آن‌ها در یک سیستم بسته عمل می‌کنند، به این معنی که اطلاعاتی که کاربران در یک ورودی وارد می‌کنند، محافظت می‌شود.»

«این برخلاف ChatGPT است، که اگر از آن بخواهید برای مثال، یک جلسه را رونویسی کند و صورتجلسه بنویسد - کاری که مدل می‌تواند به خوبی انجام دهد - نمی‌دانید که چگونه از اطلاعات استفاده خواهد شد. این اطلاعات در سرورهای ناشناخته ذخیره می‌شوند، اگرچه برخی از اطلاعات می‌توانند محرمانه باشند یا شامل داده‌های شخصی باشند.»

مدل‌های زبانی کوچک (SLM) تمام قابلیت‌های اجرای چت‌بات مدل‌های بزرگ را دارند و با خطرات بسیار کمتری همراه هستند. به همین دلیل است که کسب‌وکارها به طور فزاینده‌ای به این فناوری علاقه‌مند می‌شوند، چه برای نیازهای داخلی خود و چه برای استفاده با مشتریان خود. چت‌بات‌هایی که برای کاربردهای خاص طراحی شده‌اند می‌توانند بسیار مفید و فوق‌العاده مؤثر باشند، و این امر شرکت‌های فناوری در سراسر جهان را بر آن داشته است تا نسخه خود را به بازار عرضه کنند.

سال ۲۰۲۳ ممکن است سالی بوده باشد که مدل‌های زبانی بزرگ (LLM) - با تمام نقاط قوت و ضعف خود - تیتر خبرها را به خود اختصاص دادند، اما سال ۲۰۲۵ می‌تواند سالی باشد که همتایان کوچک‌تر، متناسب و کاملاً قابل اعتماد آن‌ها نمایش را بدزدند.

Meditron، نمونه پیشرو در صنعت EPFL

اولین کاری که اکثر ما هنگام بروز بثورات پوستی، درد غیرقابل توضیح ساق پا یا تجویز داروی جدید انجام می‌دهیم، این است که به صورت آنلاین به جستجو می‌پردازیم. برخی افراد یک جستجوی اینترنتی استاندارد را اجرا می‌کنند، در حالی که برخی دیگر ترجیح می‌دهند با یک برنامه هوش مصنوعی تولیدی (GenAI) گفتگو کنند و به دنبال توضیحات اطمینان‌بخش باشند یا به تمایلات خودبیمارپنداری خود دامن بزنند. اما تشخیص‌هایی که توسط مدل‌های زبانی بزرگ (LLM) عمومی - مانند آنچه توسط ChatGPT و Claude استفاده می‌شود - ارائه می‌شوند، از منابع مبهم حاوی انواع داده‌ها استخراج می‌شوند و سؤالاتی را در مورد قابلیت اطمینان آن‌ها ایجاد می‌کنند.

راه‌حل این است که مدل‌های کوچکتری را توسعه دهیم که هدفمندتر، کارآمدتر و با داده‌های تأیید شده تغذیه شوند. این دقیقاً همان کاری است که محققان EPFL و دانشکده پزشکی ییل برای صنعت مراقبت‌های بهداشتی انجام می‌دهند - آن‌ها برنامه‌ای به نام Meditron را توسعه داده‌اند که در حال حاضر بهترین مدل زبانی منبع باز برای پزشکی در جهان است.

این برنامه کمی بیش از یک سال پیش معرفی شد و هنگامی که روی آزمون‌های پزشکی داده شده در ایالات متحده آزمایش شد، به طور متوسط دقیق‌تر از انسان‌ها پاسخ داد و پاسخ‌های منطقی به چندین سؤال ارائه داد. در حالی که Meditron قرار نیست جایگزین پزشکان شود، می‌تواند به آن‌ها در تصمیم‌گیری و تعیین تشخیص کمک کند. تصمیم نهایی همیشه با یک انسان خواهد بود.

این برنامه بر روی مدل زبانی بزرگ دسترسی آزاد Llama متا ساخته شده است. آنچه Meditron را متمایز می‌کند این است که بر روی داده‌های پزشکی با دقت انتخاب شده آموزش داده شده است. این داده‌ها شامل ادبیات بررسی‌شده توسط همتایان از پایگاه‌های داده دسترسی آزاد مانند PubMed و مجموعه‌ای منحصر به فرد از دستورالعمل‌های عمل بالینی، از جمله دستورالعمل‌های صادر شده توسط ICRC و سایر سازمان‌های بین‌المللی، در تعدادی از کشورها، مناطق و بیمارستان‌ها است.

پروفسور آنی هارتلی از آزمایشگاه فناوری‌های پاسخ هوشمند جهانی بهداشت و بشردوستانه (LiGHT)، که به طور مشترک توسط EPFL و ییل میزبانی می‌شود، می‌گوید: «این مبنای دسترسی آزاد شاید مهم‌ترین جنبه Meditron باشد. این برنامه را می‌توان روی یک تلفن هوشمند دانلود کرد و در مناطق دورافتاده که دسترسی کمی به اینترنت وجود دارد یا اصلاً وجود ندارد، از آن استفاده کرد.»

برخلاف توسعه یافته توسط شرکت‌های بزرگ، Meditron شفاف است و هر بار که استفاده می‌شود، بهتر می‌شود. هارتلی می‌گوید: «این برنامه در حال توسعه مداوم است. یکی از نقاط قوت آن این است که شامل داده‌هایی از مناطقی است که اغلب کمتر مورد توجه قرار می‌گیرند.»

برای اطمینان از اینکه این برنامه می‌تواند تا حد امکان به طور گسترده مورد استفاده قرار گیرد و به طور دقیق شرایط واقعی را منعکس کند، توسعه‌دهندگان آن ابتکاری را آغاز کردند که طی آن از متخصصان پزشکی از سراسر جهان خواسته شد تا مدل را در محیط‌های بالینی واقعی آزمایش کنند و سؤالات چالش‌برانگیزی از آن بپرسند.

هارتلی می‌گوید: «این واقعیت که این متخصصان داوطلبانه وقت خود را در جامعه منبع باز ما صرف اعتبارسنجی مستقل Meditron کردند، نشان‌دهنده ارزش آن است.» مارتین یاگی، رئیس آزمایشگاه یادگیری ماشین و بهینه‌سازی EPFL، می‌افزاید: «هیچ‌یک از این‌ها با مدل‌های بسته‌ای که توسط شرکت‌های بزرگ فناوری توسعه یافته‌اند، ممکن نبود.»

گامی دیگر به سوی پزشکی شخصی‌سازی‌شده

سایر محققان EPFL در حال بررسی بهبود کیفیت داده‌های تغذیه شده به مدل‌های زبانی هستند. امانوئل ابه، که دارای کرسی علوم داده ریاضی در EPFL است، در حال انجام یکی از این پروژه‌ها با بیمارستان دانشگاه لوزان (CHUV) به منظور کمک به پیشگیری از حملات قلبی است.

هدف توسعه یک سیستم هوش مصنوعی است که بتواند تصاویر حاصل از آنژیوگرام - تصویری از قلب و عروق خونی - را تجزیه و تحلیل کند و آن‌ها را با تصاویر موجود در یک پایگاه داده مقایسه کند تا خطر ایست قلبی یک بیمار را تخمین بزند. ابه و گروه تحقیقاتی‌اش قصد دارند یک مطالعه بزرگ گروهی در سوئیس با حداقل ۱۰۰۰ شرکت‌کننده در طی سه سال آینده انجام دهند تا داده‌هایی را برای آموزش مدل خود جمع‌آوری کنند.

چنین کاربردهایی همچنین می‌تواند ما را یک گام به پزشکی شخصی‌سازی‌شده نزدیک‌تر کند. اولیویه کروشات، مدیر اجرایی مرکز اعتماد دیجیتال EPFL، می‌گوید: «من پتانسیل عظیمی در ترکیب نتایج این مدل‌ها با سوابق پزشکی بیماران و داده‌های جمع‌آوری شده توسط ساعت‌های هوشمند و سایر برنامه‌های مرتبط با سلامت می‌بینم. اما ما باید اطمینان حاصل کنیم که سیستم‌های قوی برای محافظت از این داده‌های بسیار حساس وجود دارد و اطمینان حاصل کنیم که از آن‌ها به طور اخلاقی و منصفانه استفاده می‌شود.»

ارائه‌شده توسط مدرسه پلی‌تکنیک فدرال لوزان

مرجع: رویکرد مدل کوچک می‌تواند مؤثرتر از مدل‌های زبانی بزرگ باشد (۲۰۲۵، آوریل ۷) بازیابی شده در ۷ آوریل ۲۰۲۵ از https://techxplore.com/news/2025-04-small-approach-effective-llms.html

این سند مشمول حق چاپ است. به غیر از هر گونه برخورد منصفانه به منظور مطالعه یا تحقیق خصوصی، هیچ بخشی را نمی‌توان بدون اجازه کتبی تکثیر کرد. این محتوا فقط برای اهداف اطلاعاتی ارائه شده است.

بیشتر کاوش کنید: محققان مدل زبانی بزرگی را برای دانش پزشکی توسعه دادند