KGGen: پیشرفت در استخراج گراف دانش با مدل‌های زبانی و تکنیک‌های خوشه‌بندی

گراف‌های دانش (KGs) بنیان برنامه‌های کاربردی هوش مصنوعی هستند، اما ناقص و پراکنده هستند که بر اثربخشی آن‌ها تأثیر می‌گذارد. گراف‌های دانش تثبیت‌شده مانند DBpedia و Wikidata فاقد روابط اساسی موجودیت هستند، که سودمندی آن‌ها را در تولید تقویت‌شده با بازیابی (RAG) و سایر وظایف یادگیری ماشین کاهش می‌دهد. روش‌های استخراج سنتی احتمالاً گراف‌های پراکنده‌ای با اتصالات مهم غایب یا نمایش‌های پر سروصدا و اضافی ارائه می‌دهند. بنابراین، به دست آوردن دانش ساختاریافته با کیفیت بالا از متن بدون ساختار دشوار است. غلبه بر این چالش‌ها برای امکان بازیابی دانش، استدلال و بینش بهبودیافته با کمک هوش مصنوعی حیاتی است.

روش‌های پیشرفته برای استخراج KGs از متن خام، استخراج اطلاعات باز (OpenIE) و GraphRAG هستند. OpenIE، یک تکنیک تجزیه وابستگی، سه‌گانه‌های ساختاریافته (فاعل، رابطه، مفعول) تولید می‌کند، اما گره‌های بسیار پیچیده و اضافی تولید می‌کند و انسجام را کاهش می‌دهد. GraphRAG، که بازیابی مبتنی بر گراف و مدل‌های زبانی را ترکیب می‌کند، پیوند موجودیت را افزایش می‌دهد، اما گراف‌های متراکم متصل تولید نمی‌کند، و فرآیندهای استدلال پایین‌دستی را محدود می‌کند. هر دو تکنیک از سازگاری پایین تفکیک موجودیت، پراکندگی در اتصال و تعمیم‌پذیری ضعیف رنج می‌برند، و آن‌ها را برای استخراج KG با کیفیت بالا غیر مؤثر می‌کند.

محققان دانشگاه استنفورد، دانشگاه تورنتو و FAR AI، KGGen را معرفی می‌کنند، یک ژنراتور متن به KG جدید که از مدل‌های زبانی و الگوریتم‌های خوشه‌بندی برای استخراج دانش ساختاریافته از متن ساده استفاده می‌کند. برخلاف روش‌های قبلی، KGGen یک روش خوشه‌بندی تکراری مبتنی بر LM را معرفی می‌کند که با ادغام موجودیت‌های مترادف و گروه‌بندی روابط، گراف استخراج‌شده را بهبود می‌بخشد. این باعث افزایش پراکندگی و افزونگی می‌شود و یک KG منسجم‌تر و متصل‌تر ارائه می‌دهد. KGGen همچنین MINE (معیار اطلاعات در گره‌ها و لبه‌ها) را معرفی می‌کند، اولین معیار برای عملکرد استخراج متن به KG، که امکان اندازه‌گیری استاندارد روش‌های استخراج را فراهم می‌کند.

KGGen از طریق یک بسته پایتون ماژولار با ماژول‌هایی برای استخراج موجودیت و رابطه، تجمیع و خوشه‌بندی موجودیت و لبه عمل می‌کند. ماژول استخراج موجودیت و رابطه از GPT-4o برای به دست آوردن سه‌گانه‌های ساختاریافته (فاعل، گزاره، مفعول) از متن بدون ساختار استفاده می‌کند. ماژول تجمیع سه‌گانه‌های استخراج‌شده از منابع مختلف را در یک گراف دانش یکپارچه (KG) ترکیب می‌کند، از این رو یک نمایش همگن از موجودیت‌ها را تضمین می‌کند. ماژول خوشه‌بندی موجودیت و لبه از یک الگوریتم خوشه‌بندی تکراری برای رفع ابهام از موجودیت‌های مترادف، خوشه‌بندی لبه‌های مشابه و افزایش اتصال گراف استفاده می‌کند. از طریق اجرای محدودیت‌های سختگیرانه بر روی مدل زبانی با استفاده از DSPy، KGGen دستیابی به استخراج‌های ساختاریافته و با دقت بالا را امکان‌پذیر می‌کند. گراف دانش خروجی با اتصال متراکم، ارتباط معنایی و بهینه‌سازی برای اهداف هوش مصنوعی متمایز می‌شود.

ماژول‌های KGGen
ماژول‌های KGGen

نتایج معیار نشان‌دهنده موفقیت این روش در استخراج دانش ساختاریافته از منابع متنی است. KGGen نرخ دقت 66.07٪ را به دست می‌آورد، که به طور قابل توجهی بیشتر از GraphRAG با 47.80٪ و OpenIE با 29.84٪ است. این سیستم قابلیت استخراج و ساختاربندی دانش بدون افزونگی و افزایش اتصال و انسجام را تسهیل می‌کند. تجزیه و تحلیل مقایسه‌ای بهبود 18 درصدی در دقت استخراج نسبت به روش‌های موجود را تأیید می‌کند، و توانایی آن را برای تولید گراف‌های دانش خوش‌ساختار برجسته می‌کند. آزمایش‌ها همچنین نشان می‌دهد که گراف‌های تولیدشده متراکم‌تر و آموزنده‌تر هستند، و آن‌ها را به ویژه در زمینه وظایف بازیابی دانش و استدلال مبتنی بر هوش مصنوعی مناسب می‌سازد. 

نتایج معیار
نتایج معیار

به طور خلاصه، KGGen یک رویکرد جدید است که به طور قابل توجهی استخراج گراف دانش از متن را با استفاده از مدل‌های زبانی و تکنیک‌های خوشه‌بندی پیشرفته بهبود می‌بخشد. KGGen به لطف رویکرد خوشه‌بندی تکراری و معرفی معیار MINE، نمایش‌های گرافی دقیق‌تر، منسجم‌تر و غنی‌تر را در مقایسه با روش‌های مرسوم امکان‌پذیر می‌کند. KGGen به عنوان یک ابزار ارزشمند در بسیاری از برنامه‌های کاربردی هوش مصنوعی که به دانش ساختاریافته با کیفیت بالا نیاز دارند، ظاهر می‌شود.