مقدمه
سازمانها با یک چالش اساسی در پذیرش هوش مصنوعی روبرو هستند: چگونه از دانش خاص حوزه خود برای استفاده از هوش مصنوعی به گونهای استفاده کنند که نتایج قابل اعتمادی ارائه دهد. نمودارهای دانش "لایه حقیقت" گمشده را برای هوش مصنوعی فراهم میکنند که خروجیهای احتمالی را به تسریع کسبوکار در دنیای واقعی تبدیل میکند.
مقدمه
"زمینه چیزی است که تقریباً به همه چیز معنا میدهد. بنابراین، تا آنجا که به این موضوع مربوط میشود، همه نمودارها این پتانسیل ذاتی را دارند که دانش یا معنای بیشتری را به ارمغان بیاورند، زیرا آنها قبلاً اولین گام را در تصدیق اتصال متقابل و ماهیت متنی اطلاعات برداشتهاند."
ما در دنیایی زندگی میکنیم که تحت سلطه هوش مصنوعی و مدلهای زبانی بزرگ (LLM) است، و به نظر میرسد که زمینه و معنا برای به دست آوردن نتایج با کیفیت از آنها ضروری است. نمودارهای دانش ممکن است کلید ارائه زمینه و معنا برای باز کردن پتانسیل هوش مصنوعی باشند، و شواهد پشتیبانی از این موضوع در حال افزایش است.
به مناسبت انتشار آخرین چرخه هایپ هوش مصنوعی گارتنر، معاون تحقیقات هوش مصنوعی در گارتنر، سوتلانا سیکولار، اشاره کرد که سرمایهگذاری در هوش مصنوعی به اوج جدیدی رسیده است و تمرکز بر هوش مصنوعی مولد است. با این حال، در بیشتر موارد، این هنوز ارزش تجاری پیشبینیشده را ارائه نکرده است.
نمودارهای دانش در قلب فناوریهای فعالکننده بحرانی در فهرست فناوریهای نوظهور گارتنر برای رهبران برای در نظر گرفتن به عنوان بخشی از استراتژی خود قرار دارند. گارتنر نمودارهای دانش را به عنوان عوامل حیاتی در ساخت و پیشبرد مدلهای GenAI توصیه میکند. سازمانهایی مانند آمازون و سامسونگ از نمودارهای دانش استفاده میکنند و پیشبینی میشود که بازار تا سال 2030 به 6.93 میلیارد دلار برسد، با نرخ رشد مرکب سالانه 36.6٪.
گارتنر در چند سال گذشته از نقش نمودارهای دانش در هوش مصنوعی امروزی و اثرات پاییندستی در سازمانها حمایت کرده است، زیرا نه فناوری و نه چشمانداز جدید نیستند. فناوری نمودار دانش دهههاست که وجود داشته است، و افرادی مانند تونی سیل زودتر از دیگران پتانسیل آن را به عنوان یک لایه حقیقت برای هوش مصنوعی شناسایی کردند.
سیل، همچنین به عنوان "مرد نمودار دانش" شناخته میشود، بنیانگذار شرکت مشاوره همنام است.
از سیلوهای داده تا دادههای پیوندی و نمودارهای دانش
از سیلوهای داده تا دادههای پیوندی و نمودارهای دانش
سیل دهها سال تجربه کار با دادهها در مؤسسات مالی درجه یک را دارد. حدود ده سال پیش، او در حال کار بر روی "یک پروژه ETL دیگر" برای یک بانک سرمایهگذاری بزرگ بود که دادهها را به یک انبار داده منتقل میکرد و خطوط لوله داده را پیادهسازی میکرد. این یک رویکرد معمولی برای خدمت به نیازهای گزارشدهی و انطباق سازمانی است. مشکل اینجاست که مقیاسپذیر نیست یا به افزودن زمینه و معنا کمک نمیکند.
سپس سیل با سخنرانی تد تیم برنرز لی در سال 2010 در مورد دادههای پیوندی مواجه شد و این همه چیز را تغییر داد. در سال 2010، گوگل تازه وارد نمودارهای دانش شده بود و این اصطلاح هنوز واقعاً مطرح نشده بود. اما این فناوری در آنجا، تحت نام دادههای پیوندی وجود داشت. سخنرانی تد TBL کافی بود تا سیل دو اصل کلیدی دادههای پیوندی را درک کند و شروع به آزمایش این به عنوان جایگزینی برای ETL کند.
ایده اصلی دادههای پیوندی این است که معماری کلی وب جهانی را برای وظیفه به اشتراک گذاری دادههای ساختاریافته در مقیاس جهانی اعمال کنیم. تمام اینها به استفاده از شناسههای HTTP برای دادهها خلاصه میشود، به طوری که بتوان آنها را جستجو کرد و ارائه اطلاعات در مورد معنای آنها (معانی شناسی) با استفاده از استانداردها.
آنچه سیل درک کرد این بود که اگر ماهیت غیرمتمرکز این رویکرد بتواند برای وب کار کند، میتواند برای هر سازمانی کار کند. به جای داشتن یک نقطه مرکزی یکپارچهسازی و کنترل، که رویکرد بالفعل پروژههای ETL و انبارهای داده است، نمودارهای دانش مقیاس را از طریق عدم تمرکز و استانداردها فعال میکنند.
اینها همان اصولی هستند که باعث میشوند وب کار کند. جای تعجب نیست که مخترع وب میخواست آن را به سطح بعدی ببرد تا از یک وب از اسناد به یک وب از دادهها تبدیل شود. با این حال، فراتر از دسترسی به دادهها، این رویکرد معانی شناسی را به ترکیب اضافه میکند. نقاط داده و همچنین پیوندها بین آنها میتوانند معنا و انواع خاصی داشته باشند که به آنها متصل است.
بهترین مثال از معانی شناسی در عمل در مقیاس وب schema.org است. Schema.org یک تلاش مشترک برای تعریف یک واژگان استاندارد است که توسط 30٪ از کل وبسایتها و 72.6٪ از صفحات در صفحه اول گوگل استفاده میشود. فراتر از تعریف معانی شناسی با استفاده از استانداردها، schema.org حاشیهنویسی و یکپارچهسازی را از طریق عدم تمرکز مقیاسپذیر میکند.
هوش مصنوعی با نمودارهای دانش ملاقات میکند
هوش مصنوعی با نمودارهای دانش ملاقات میکند
Schema.org چیزی است که گوگلهای جهان را قادر میسازد تا نمودارهای دانش خود را بسازند و معنای بیشتری از وب را درک کنند. این همان رویکردی است که سیل برای اولین بار شروع به بازی با آن به عنوان یک پروژه زیر میز در بانک سرمایهگذاری کرد که در آن زمان برای آن کار میکرد، و انتظار داشت که شکست بخورد. اینطور نشد.
سیل با تشویق از موفقیت اولیه، به یک مدافع مشتاق نمودار دانش تبدیل شد و تعدادی از پروژههای مرتبط را آغاز کرد. او سازمانها را به دنبال اشتیاق خود منتقل کرد و به شبکههای عصبی گراف به عنوان راهی برای بوتاسترپ معانی شناسی و حاشیهنویسی مورد نیاز برای ساخت نمودارهای دانش نگاه میکرد، زمانی که اولین مدلهای زبانی بزرگ GPT منتشر شدند.
سیل شروع به آزمایش با LLMها کرد و به زودی به دو چیز متقاعد شد. اول اینکه LLMها تأثیر زیادی خواهند داشت. دوم اینکه LLMها یک جفت عالی برای نمودارهای دانش هستند. او شروع به به اشتراک گذاشتن ایدههای خود در لینکدین کرد و به طور ویروسی منتشر شد. در نهایت، او شرکت مشاوره خود را تشکیل داد و اکنون در حال پیادهسازی اینها با تعدادی از مشتریان است.
"همه سازمانها باید این واقعیت را بپذیرند که ما در حال حرکت به سمت دنیایی احتمالیتر هستیم. بنابراین همه باید شروع به استفاده از هوش مصنوعی کنند یا احتمالاً از تجارت خارج خواهید شد. ما در حال حرکت به این دنیای جدید هستیم که همه چیز احتمالی خواهد بود و هوش مصنوعی در بسیاری از تصمیمگیریها تعبیه خواهد شد.
ممکن است آن را دوست نداشته باشید یا ممکن است هر نظری داشته باشید، اما اهمیتی نمیدهد. این یک نیروی طبیعت است که در حال وقوع است، بنابراین بهتر است به آن عادت کنید. بنابراین سوال واقعاً این میشود که چگونه این کار را به روشی ایمن انجام میدهید. و به نظر من، این از طریق تأیید خارجی به دست میآید."
این هسته اصلی رویکردی است که او از آن حمایت میکند. این شامل الگوهایی با نامهای فانتزی مانند نمودار حافظه کاری و حلقه عصبی-نمادین و نمونههایی از DeepSeek تا پروژه Cyc است. اما قبل از اینکه به این موارد بپردازیم، ارزش دارد لحظهای مکث کنیم تا خودمان را در اصول اولیه قرار دهیم.
اصول اولیه: نمودارها و نمودارهای دانش
اصول اولیه: نمودارها و نمودارهای دانش
بنابراین چه چیزی نمودارها را از سایر ساختارهای داده متمایز میکند و چه چیزی نمودارهای دانش را از سایر نمودارها متمایز میکند؟ ما میتوانیم این را در سطح پیادهسازی یا در سطح اصول اولیه بررسی کنیم.
صرف نظر از این، چه در مورد یک صفحه گسترده در مقابل یک نقشه ذهنی صحبت کنیم، ردیفها و ستونهای یک پایگاه داده رابطهای در مقابل گرهها و لبههای یک پایگاه داده گراف، یا نظریه مجموعهها در مقابل نظریه گراف، یک چیز وجود دارد که نمودار را متمایز میکند: اتصالات به عنوان شهروندان درجه یک. اما همه نمودارها واجد شرایط به عنوان نمودارهای دانش نیستند.
هم گرهها و هم لبهها در یک نمودار میتوانند از انواع مختلفی باشند. یک نمودار ساده میتواند شامل گرههایی باشد که نشاندهنده محصولات هستند و لبههایی که نشاندهنده نوع کلی رابطه بین آنها هستند. یک نمودار دو بخشی میتواند دو نوع مختلف از گرهها داشته باشد که نشاندهنده محصولات و مشتریان هستند و لبههایی که نشاندهنده این هستند که کدام مشتری چه محصولی را خریده است.
یک نمودار ناهمگن میتواند انواع مختلفی از گرهها و لبهها داشته باشد. به عنوان مثال، گرههایی که نشاندهنده محصولات و مشتریان هستند و لبههایی که نشاندهنده این هستند که کدام مشتری چه محصولی را خریده است و کدام محصول توسط کدام مشتری بررسی شده است.
حتی در سادهترین سطح ممکن نیز در نمودارها فایده وجود دارد. الگوریتمهای نمودار مانند یافتن مسیر و مرکزیت میتوانند برای برنامهها و تجزیه و تحلیلها بسیار مفید باشند و نیازی به نمودارهای ناهمگن ندارند.
"هنگامی که شروع به گفتن میکنید، خوب، در واقع، نه، برخی از این گرهها چیزهای متفاوتی هستند و لبههای بین آنها، انواع مختلف لبههای خاصی هستند که معنایی دارند، پس پیچیدگی افزایش مییابد. ماهیت الگوریتمهایی که میتوانید اجرا کنید، از جمله الگوریتمهای یادگیری ماشین، تغییر میکند. فکر میکنم میتوانیم این را سطح ورودی به نمودار دانش بنامیم."
به قسمت "سطح ورودی" توجه کنید. در اینجا یک تاریخچه طولانی و پیچیده وجود دارد که به اوایل دهه 2000 و وب معنایی بازمیگردد. این بر اساس این ایدهها، استانداردها و پشته فنی بود که اصول دادههای پیوندی بر آن بنا شد. "وب معنایی" از بین رفت در حالی که "نمودار دانش" رواج یافت.
به طور بالقوه، وب معنایی از زمان خود جلوتر بود. بسیاری از تلاشهای پیادهسازی گمراهکننده بودند و طرفداران آن همیشه عملگرا نبودهاند. با این حال، همانطور که سیل اشاره کرد، شبکههای عصبی نیز برای مدت طولانی یک شکست در نظر گرفته میشدند. استفاده از URIها به عنوان شناسه و داشتن یک واژگان مشترک و یک طرح توافق شده همچنان از ویژگیهای بارز نمودارهای دانش و ارزشی است که میتوانند به ارمغان بیاورند.
دنیای پیوسته و دنیای گسسته
دنیای پیوسته و دنیای گسسته
ساختار و معانی شناسی که نمودارهای دانش به ارمغان میآورند، چیزهایی را فعال میکنند که به سادگی با سایر انواع داده یا حتی سایر نمودارها امکانپذیر نیستند. سیل معتقد است که هر سازمانی باید روی نسخه خود از schema.org کار کند و از آن برای حاشیهنویسی دادههای خود، ساخت نمودارهای دانش برای قدرت بخشیدن به هوش مصنوعی خود استفاده کند.
سیل از DeepSeek به عنوان نمونهای برای توضیح رویکرد تأییدکننده استفاده کرد. مانند همه افراد دیگر، سیل با DeepSeek وسواس داشت و سعی میکرد بفهمد که آنها چه کاری انجام دادهاند. صرف نظر از الگوریتمها و بهینهسازیهای هوشمندانه، در هسته اصلی موفقیت DeepSeek این واقعیت است که آنها از دادههای قابل تأیید برای یادگیری تقویتی استفاده کردند: ریاضیات و کد.
"آنها تمام دادههای وب را گرفتند، مانند کاری که همه انجام میدهند. اما سپس فقط بیتهای مربوط به ریاضیات و کدنویسی را بیرون کشیدند.
با این کار، میتوانید یک تأییدکننده خارجی ایجاد کنید. میتوانید به ریاضیات یا کد نگاه کنید، سپس میتوانید به پاسخ در پایان نگاه کنید و میتوانید بررسی کنید که آیا پاسخ واقعاً درست است یا خیر. سپس میتوانید آن را به LLM بدهید و از LLM بخواهید که این کار را انجام دهد و سپس در برابر تأییدکننده رسمی خارجی بررسی کنید. کاری که این کار انجام میدهد این است که کنترل کیفیت را بر روی مدل احتمالی اضافه میکند."
سپس سیل در مورد آنچه که او دنیای پیوسته و دنیای گسسته مینامد، توضیح داد. در دنیای پیوسته، همه چیز احتمالی است، همه چیز مبهم است و این جایی است که این مدلهای هوش مصنوعی مولد در آن قرار دارند. یک چیز در چیز دیگری ادغام میشود و شما توهمات را دریافت میکنید. اما روی دیگر سکه، طبق گفته سیل، این است که چیزی شبیه به خلاقیت در آنجا وجود دارد.
در دنیای هوش مصنوعی قدیمی، افسانه پروژه Cyc وجود دارد. Cyc یک پروژه هوش مصنوعی قدیمی است که در سال 1984 توسط داگ لنات آغاز شد و هدف آن ارائه به هوش مصنوعی دانش مشترک مورد نیاز برای استدلال مانند انسان بود. رویکرد آنها استفاده از نمادها و قاعده بود، به همان روشی که نمودارهای دانش به صراحت و در دامنههای ساختاریافته مانند وب معنایی یا schema.org استفاده میکنند.
همانطور که سیل به طور خلاصه بیان کرد، نمودارهای دانش چیزهای دنیای گسسته هستند در حالی که LLMها چیزهای دنیای پیوسته هستند. او با اشاره به ترکیب هوش مصنوعی نمادین و هوش مصنوعی عصبی به این موضوع اشاره کرد که هر یک از آنها دارای مزایا و معایب خاص خود هستند. استدلال، به عنوان مثال، چیز خوبی است که هوش مصنوعی نمادین در آن تخصص دارد در حالی که پویاییها که LLMها در آن تخصص دارند، به معنای توانایی یادگیری از دادهها و انطباق با موقعیتهای جدید است.
راهی که سیل آن را به تصویر میکشد این است که استفاده از نمودارهای دانش، یا از نسخه خود سازمان از schema.org به عنوان یک نوع تأییدکننده خارجی عمل میکند. این به مدل مولد امکان میدهد توهمات را کاهش دهد و از ارائه خروجی نادرست جلوگیری کند. سیل تأکید میکند که سازمانها باید روی ساخت نسخه خود از schema.org کار کنند و از آن برای حاشیهنویسی دادههای خود و ساخت نمودارهای دانش استفاده کنند تا به هوش مصنوعی خود قدرت بخشند.
نمودارهای حافظه کاری و حلقه عصبی-نمادین
نمودارهای حافظه کاری و حلقه عصبی-نمادین
مدلسازی دادههای ساختاریافته در نمودارهای دانش برای افزایش قابلیت اطمینان LLM، از همان اصل DeepSeek برای ریاضی و کد استفاده میکند. این در اصل چیزی است که سیل آن را نمودار حافظه کاری مینامد.
ایده این است که هر زمان که شخصی به شما سوالی میپرسد، همه چیز را به یک نمودار دانش تبدیل کنید. سپس در نمودار دانش جستجو میکنید و سعی میکنید واقعیتها را جمعآوری کنید. سپس با استفاده از حقایق جمعآوریشده، به سوال کاربر پاسخ میدهید. این در اصل رویکرد نمودار حافظه کاری است.
فراتر از این، یک حلقه عصبی-نمادین وجود دارد. نکته اینجاست که نمودارهای دانش به اندازه کافی قدرت ندارند تا برای همه چیز مورد استفاده قرار گیرند. نمودارهای دانش در مورد ساخت یافته، منطقی، عقلانی و دامنههای مشخصشده بهترین عملکرد را دارند. از طرف دیگر، LLMها در مورد متن بسیار خوب عمل میکنند.
"اگر میتوانید آن دو را به حلقه برگردانید، میتوانید بهترینهای هر دو جهان را دریافت کنید. بنابراین اساساً کاری که شما انجام میدهید این است که با متن شروع میکنید، میتوانید از LLM برای تبدیل متن به یک نمودار دانش استفاده کنید."
سیل سپس یک مثال را توضیح داد. فرض کنید که شما تمام صورتهای مالی سالهای متمادی را دارید. میتوانید اینها را از طریق یک مدل زبانی بزرگ اجرا کنید و سپس میتوانید از مدل زبانی بزرگ بخواهید که یک نمودار دانش برای شما تولید کند. با انجام این کار، شما در اصل در حال ساخت یک نمودار حافظه کاری هستید.
اما نمودار حافظه کاری به تنهایی مشکلاتی دارد. برای مثال، نمیتواند اطلاعات زیادی را در خود جای دهد. با این حال، نمودار حافظه کاری حاوی این امکانات است که بعداً به یک نمودار حافظه دائمی تبدیل شود. برای ایجاد یک نمودار حافظه دائمی، باید یک هستیشناسی در نظر داشته باشید و آن را از طریق حاشیهنویسی پیادهسازی کنید.
هستیشناسی نمودار دانش، مدل داده نمودار دانش شما است. این شامل موجودیتها و روابطی است که میتوانید در نمودار دانش داشته باشید و انواع و ویژگیهایی که هر یک از آنها میتوانند داشته باشند.
ایجاد هستیشناسی
ایجاد هستیشناسی
چه از قبل دارای آن باشید و چه LLM بخواهید آن را برای شما ایجاد کند، باید تصمیم بگیرید که از چه هستیشناسی استفاده کنید. سیل توضیح داد که او یک الگوریتم بسیار مؤثر دارد. به نظر میرسد که دو منبع رایگان در وب وجود دارد که باید به آنها نگاه کنید.
اولین مورد، ویکیداده است. ویکیداده یک پایگاه دانش آزاد است که ویرایش مشترک دارد که توسط جامعه ویکیمدیا نگهداری میشود. ویکیداده هم به عنوان منبع داده ساختیافته برای دیگر پروژههای ویکیپدیا عمل میکند و هم اطلاعاتی را برای هر کسی در سراسر جهان ارائه میدهد.
دومی، schema.org است، که یک تلاش مشترک برای ایجاد و نگهداری طرحوارههای ساختیافته برای اینترنت است. این یکی از بهترین مکانها برای شروع جستجوی واژگان عمومی است که میتوانید به منظور سازماندهی دامنه خاص خود در نمودار دانش استفاده کنید.
سیل برای ساختن هستیشناسی از یک LLM استفاده میکند، «دلیلش این است که من نمیخواهم چیزی را از دست بدهم. منظورم این است که من به یک هوش مصنوعی نیاز دارم تا با اطلاعات و اطلاعات درگیر شود.» وی سپس میگوید که اگر یک نمودار دانش برای، به عنوان مثال، یک شرکت در صنعت روغن و گاز ایجاد میکنید، ابتدا باید با پرسیدن «چه انواع موجودیتهایی در یک شرکت نفت و گاز وجود دارد؟» از LLM شروع کنید.
بنابراین نمودار دانش، یک واژگان را بیان میکند و در حالی که دانش خاص دامنهای وجود دارد، همچنین یک لایه انتزاع برای ادغام دادهها از منابع مختلف نیز وجود دارد. اساساً، این یک لایه اطلاعات معانی برای سازمان است که برای درک دنیای دادهها، به اصطلاح آن مورد نیاز است.
آنچه سیل اکنون در حال تمرکز بر روی آن است، این است که چگونه آن را در مقیاس پیادهسازی کند تا هر سازمانی بتواند از آن استفاده کند و به راحتی قابل استقرار باشد. او در حال ایجاد این چارچوب از الگوریتمها و گردش کار است تا هر سازمانی بتواند آن را دریافت کند، هستیشناسی خود را در آن بگذارد و شروع به انجام آزمایشهای عصبی-نمادین به روشی در مقیاس کند.
نتیجهگیری
نتیجهگیری
در این مقاله، ما به بررسی چالشهای اساسی پیش روی سازمانها در پذیرش هوش مصنوعی پرداختیم، نقش محوری دانش خاص دامنهای در ارائه نتایج قابل اعتماد و اهمیت نمودارهای دانش به عنوان «لایه حقیقت» گمشده برای هوش مصنوعی را مورد بررسی قرار دادیم.
ما همچنین نقش نمودارهای دانش در فناوریهای فعالکننده بحرانی مورد حمایت گارتنر را بررسی کردیم و استفاده از آن را توسط سازمانهای پیشرو مانند آمازون و سامسونگ برجسته کردیم.
در نهایت، ما از ایدهها و ایدههای متخصص «مرد نمودار دانش»، تونی سیل، به منظور ایجاد الگوها و گردش کار برای تسهیل پیادهسازی آزمایشهای عصبی-نمادین به روشی در مقیاس استفاده کردیم.