مدلهای زبانی کوچک (Small Language Models یا SLMs) به دلیل اینکه اطلاعات را از یک مجموعه داده محدود به دست میآورند، قابل اعتمادتر و امنتر از همتایان بزرگ خود هستند. انتظار میرود که در ماههای آینده شاهد استفاده بیشتر از این جایگزینهای کوچکتر در چتباتها باشیم.
پس از عرضه گسترده مدل زبانی بزرگ (Large Language Model یا LLM) توسط OpenAI در اواخر سال ۲۰۲۲، بسیاری از شرکتهای بزرگ فناوری دیگر نیز با سرعتی مشابه وارد این عرصه شدند و نشان دادند که از این قافله عقب نماندهاند و سالها در حال توسعه برنامههای هوش مصنوعی تولیدی (Generative Artificial Intelligence یا GenAI) خود با استفاده از زبان طبیعی بودهاند.
نکته قابل توجه در مورد برنامههای مختلف GenAI موجود امروزی این است که چقدر واقعاً شبیه به هم هستند. همه آنها اساساً به یک روش کار میکنند: مدلی حاوی میلیاردها پارامتر که به طور عمیق بر روی مجموعههای داده عظیمی متشکل از محتوای موجود در اینترنت آموزش داده شده است.
این مدلها پس از آموزش، به نوبه خود، با استفاده از آمار برای پیشبینی اینکه کدام رشته از کلمات، پیکسلها یا صداها محتملترین پاسخ به یک ورودی است، محتوا را - در قالب متون، تصاویر، صداها و فیلمها - تولید میکنند.
نیکلاس فلاماریون، که آزمایشگاه تئوری یادگیری ماشین EPFL را اداره میکند، میگوید: «اما این روش خطراتی را به همراه دارد. بخش قابل توجهی از محتوای موجود آنلاین سمی، خطرناک یا صرفاً نادرست است. به همین دلیل است که توسعهدهندگان باید بر مدلهای خود نظارت و آنها را اصلاح کنند و چندین فیلتر اضافه کنند.»
چگونه از غرق شدن در اطلاعات جلوگیری کنیم
در وضعیت کنونی، مدلهای زبانی بزرگ (LLM) یک وضعیت نامطلوب ایجاد کردهاند که در آن ماشینهای مستقر در مراکز داده وسیع، میلیاردها بایت داده را پردازش میکنند - و در این فرآیند مقادیر زیادی انرژی مصرف میکنند - تا کسری کوچک از دادهها را که مربوط به یک ورودی معین است، پیدا کنند. این مانند آن است که برای یافتن پاسخ یک سؤال، مجبور باشید صفحه به صفحه تمام کتابهای کتابخانه کنگره را ورق بزنید تا اینکه به پاسخ درست برسید.
محققان اکنون در حال بررسی راههایی برای استفاده از قدرت مدلهای زبانی بزرگ (LLM) و در عین حال کارآمدتر، ایمنتر و اقتصادیتر کردن عملکرد آنها هستند. مارتین راژمان، مدرس و محقق هوش مصنوعی در EPFL، میگوید: «یک روش این است که منابع دادهای که به مدل وارد میشوند را محدود کنیم. نتیجه، مدلهای زبانی خواهد بود که برای یک کاربرد معین بسیار مؤثر هستند و تلاشی برای داشتن پاسخ همه چیز نمیکنند.»
اینجاست که مدلهای زبانی کوچک (SLM) وارد میشوند. چنین مدلهایی میتوانند از جهات مختلف کوچک باشند، اما در این زمینه، اندازه معمولاً به مجموعه دادهای که از آن استخراج میکنند، اشاره دارد. اصطلاح فنی برای این کار، تولید تقویتشده با بازیابی (Retrieval-Augmented Generation یا RAG) است. Meditron EPFL نمونهای از نحوه کاربرد این روش در عمل ارائه میدهد: مدلهای آن منحصراً به مجموعههای داده پزشکی قابل اعتماد و تأیید شده متکی هستند.
مزیت این رویکرد این است که از انتشار اطلاعات نادرست جلوگیری میکند. ترفند این است که مجموعههای داده محدود را با چتباتهایی که بر روی مدلهای بزرگ آموزش داده شدهاند، پیادهسازی کنید. به این ترتیب، چتبات میتواند اطلاعات را بخواند و بیتهای مختلف را به هم پیوند دهد تا پاسخهای مفیدی تولید کند.
چندین گروه تحقیقاتی EPFL در حال بررسی پتانسیل مدلهای زبانی کوچک (SLM) هستند. یکی از این پروژهها Meditron است، در حالی که دیگری یک آزمایش آزمایشی در حال انجام بر اساس Polylex، مخزن آنلاین قوانین و سیاستهای EPFL است. دو پروژه دیگر در حال بررسی بهبود نحوه رونویسی ضبطهای کلاس هستند تا بتوان آنها را به طور قابل اعتمادتری فهرستبندی کرد و برخی از فرآیندهای اداری مدرسه را سادهسازی کرد.
ارزانتر برای استفاده
از آنجایی که مدلهای زبانی کوچک (SLM) به مجموعههای داده کوچکتری متکی هستند، برای اجرا نیازی به مقادیر زیادی قدرت پردازش ندارند - برخی از آنها حتی میتوانند روی یک تلفن هوشمند کار کنند. راژمان میگوید: «یکی دیگر از مزایای مهم مدلهای زبانی کوچک (SLM) این است که آنها در یک سیستم بسته عمل میکنند، به این معنی که اطلاعاتی که کاربران در یک ورودی وارد میکنند، محافظت میشود.»
«این برخلاف ChatGPT است، که اگر از آن بخواهید برای مثال، یک جلسه را رونویسی کند و صورتجلسه بنویسد - کاری که مدل میتواند به خوبی انجام دهد - نمیدانید که چگونه از اطلاعات استفاده خواهد شد. این اطلاعات در سرورهای ناشناخته ذخیره میشوند، اگرچه برخی از اطلاعات میتوانند محرمانه باشند یا شامل دادههای شخصی باشند.»
مدلهای زبانی کوچک (SLM) تمام قابلیتهای اجرای چتبات مدلهای بزرگ را دارند و با خطرات بسیار کمتری همراه هستند. به همین دلیل است که کسبوکارها به طور فزایندهای به این فناوری علاقهمند میشوند، چه برای نیازهای داخلی خود و چه برای استفاده با مشتریان خود. چتباتهایی که برای کاربردهای خاص طراحی شدهاند میتوانند بسیار مفید و فوقالعاده مؤثر باشند، و این امر شرکتهای فناوری در سراسر جهان را بر آن داشته است تا نسخه خود را به بازار عرضه کنند.
سال ۲۰۲۳ ممکن است سالی بوده باشد که مدلهای زبانی بزرگ (LLM) - با تمام نقاط قوت و ضعف خود - تیتر خبرها را به خود اختصاص دادند، اما سال ۲۰۲۵ میتواند سالی باشد که همتایان کوچکتر، متناسب و کاملاً قابل اعتماد آنها نمایش را بدزدند.
Meditron، نمونه پیشرو در صنعت EPFL
اولین کاری که اکثر ما هنگام بروز بثورات پوستی، درد غیرقابل توضیح ساق پا یا تجویز داروی جدید انجام میدهیم، این است که به صورت آنلاین به جستجو میپردازیم. برخی افراد یک جستجوی اینترنتی استاندارد را اجرا میکنند، در حالی که برخی دیگر ترجیح میدهند با یک برنامه هوش مصنوعی تولیدی (GenAI) گفتگو کنند و به دنبال توضیحات اطمینانبخش باشند یا به تمایلات خودبیمارپنداری خود دامن بزنند. اما تشخیصهایی که توسط مدلهای زبانی بزرگ (LLM) عمومی - مانند آنچه توسط ChatGPT و Claude استفاده میشود - ارائه میشوند، از منابع مبهم حاوی انواع دادهها استخراج میشوند و سؤالاتی را در مورد قابلیت اطمینان آنها ایجاد میکنند.
راهحل این است که مدلهای کوچکتری را توسعه دهیم که هدفمندتر، کارآمدتر و با دادههای تأیید شده تغذیه شوند. این دقیقاً همان کاری است که محققان EPFL و دانشکده پزشکی ییل برای صنعت مراقبتهای بهداشتی انجام میدهند - آنها برنامهای به نام Meditron را توسعه دادهاند که در حال حاضر بهترین مدل زبانی منبع باز برای پزشکی در جهان است.
این برنامه کمی بیش از یک سال پیش معرفی شد و هنگامی که روی آزمونهای پزشکی داده شده در ایالات متحده آزمایش شد، به طور متوسط دقیقتر از انسانها پاسخ داد و پاسخهای منطقی به چندین سؤال ارائه داد. در حالی که Meditron قرار نیست جایگزین پزشکان شود، میتواند به آنها در تصمیمگیری و تعیین تشخیص کمک کند. تصمیم نهایی همیشه با یک انسان خواهد بود.
این برنامه بر روی مدل زبانی بزرگ دسترسی آزاد Llama متا ساخته شده است. آنچه Meditron را متمایز میکند این است که بر روی دادههای پزشکی با دقت انتخاب شده آموزش داده شده است. این دادهها شامل ادبیات بررسیشده توسط همتایان از پایگاههای داده دسترسی آزاد مانند PubMed و مجموعهای منحصر به فرد از دستورالعملهای عمل بالینی، از جمله دستورالعملهای صادر شده توسط ICRC و سایر سازمانهای بینالمللی، در تعدادی از کشورها، مناطق و بیمارستانها است.
پروفسور آنی هارتلی از آزمایشگاه فناوریهای پاسخ هوشمند جهانی بهداشت و بشردوستانه (LiGHT)، که به طور مشترک توسط EPFL و ییل میزبانی میشود، میگوید: «این مبنای دسترسی آزاد شاید مهمترین جنبه Meditron باشد. این برنامه را میتوان روی یک تلفن هوشمند دانلود کرد و در مناطق دورافتاده که دسترسی کمی به اینترنت وجود دارد یا اصلاً وجود ندارد، از آن استفاده کرد.»
برخلاف جعبههای سیاه توسعه یافته توسط شرکتهای بزرگ، Meditron شفاف است و هر بار که استفاده میشود، بهتر میشود. هارتلی میگوید: «این برنامه در حال توسعه مداوم است. یکی از نقاط قوت آن این است که شامل دادههایی از مناطقی است که اغلب کمتر مورد توجه قرار میگیرند.»
برای اطمینان از اینکه این برنامه میتواند تا حد امکان به طور گسترده مورد استفاده قرار گیرد و به طور دقیق شرایط واقعی را منعکس کند، توسعهدهندگان آن ابتکاری را آغاز کردند که طی آن از متخصصان پزشکی از سراسر جهان خواسته شد تا مدل را در محیطهای بالینی واقعی آزمایش کنند و سؤالات چالشبرانگیزی از آن بپرسند.
هارتلی میگوید: «این واقعیت که این متخصصان داوطلبانه وقت خود را در جامعه منبع باز ما صرف اعتبارسنجی مستقل Meditron کردند، نشاندهنده ارزش آن است.» مارتین یاگی، رئیس آزمایشگاه یادگیری ماشین و بهینهسازی EPFL، میافزاید: «هیچیک از اینها با مدلهای بستهای که توسط شرکتهای بزرگ فناوری توسعه یافتهاند، ممکن نبود.»
گامی دیگر به سوی پزشکی شخصیسازیشده
سایر محققان EPFL در حال بررسی بهبود کیفیت دادههای تغذیه شده به مدلهای زبانی هستند. امانوئل ابه، که دارای کرسی علوم داده ریاضی در EPFL است، در حال انجام یکی از این پروژهها با بیمارستان دانشگاه لوزان (CHUV) به منظور کمک به پیشگیری از حملات قلبی است.
هدف توسعه یک سیستم هوش مصنوعی است که بتواند تصاویر حاصل از آنژیوگرام - تصویری از قلب و عروق خونی - را تجزیه و تحلیل کند و آنها را با تصاویر موجود در یک پایگاه داده مقایسه کند تا خطر ایست قلبی یک بیمار را تخمین بزند. ابه و گروه تحقیقاتیاش قصد دارند یک مطالعه بزرگ گروهی در سوئیس با حداقل ۱۰۰۰ شرکتکننده در طی سه سال آینده انجام دهند تا دادههایی را برای آموزش مدل خود جمعآوری کنند.
چنین کاربردهایی همچنین میتواند ما را یک گام به پزشکی شخصیسازیشده نزدیکتر کند. اولیویه کروشات، مدیر اجرایی مرکز اعتماد دیجیتال EPFL، میگوید: «من پتانسیل عظیمی در ترکیب نتایج این مدلها با سوابق پزشکی بیماران و دادههای جمعآوری شده توسط ساعتهای هوشمند و سایر برنامههای مرتبط با سلامت میبینم. اما ما باید اطمینان حاصل کنیم که سیستمهای قوی برای محافظت از این دادههای بسیار حساس وجود دارد و اطمینان حاصل کنیم که از آنها به طور اخلاقی و منصفانه استفاده میشود.»
ارائهشده توسط مدرسه پلیتکنیک فدرال لوزان
مرجع: رویکرد مدل کوچک میتواند مؤثرتر از مدلهای زبانی بزرگ باشد (۲۰۲۵، آوریل ۷) بازیابی شده در ۷ آوریل ۲۰۲۵ از https://techxplore.com/news/2025-04-small-approach-effective-llms.html
این سند مشمول حق چاپ است. به غیر از هر گونه برخورد منصفانه به منظور مطالعه یا تحقیق خصوصی، هیچ بخشی را نمیتوان بدون اجازه کتبی تکثیر کرد. این محتوا فقط برای اهداف اطلاعاتی ارائه شده است.
بیشتر کاوش کنید: محققان مدل زبانی بزرگی را برای دانش پزشکی توسعه دادند