برای پیشرفت در هوش مصنوعی، استراتژی داده خود را تنظیم کنید

استراتژی داده چیزی فراتر از یک روند گذرا برای تیم‌های توسعه است—این لایه زیربنایی برای استفاده حداکثری از فناوری‌های هوش مصنوعی و اتوماسیون است. استراتژی داده شما نحوه پشتیبانی کیفیت داده، حاکمیت و دسترسی از اهداف تجاری شما را تعریف می‌کند. داده‌های خوب می‌توانند یک معدن طلا باشند و کارایی سازمان شما به آن بستگی دارد. اما ۸۰ تا ۹۰ درصد داده‌های جهان بدون ساختار هستند . آنها نامرتب، ناسازگار و پردازش آنها با پایگاه‌های داده و الگوریتم‌های سنتی دشوار است. هوش مصنوعی راه‌هایی را برای سازماندهی و درک داده‌های بدون ساختار ارائه می‌دهد که می‌تواند محصولات جدید یا فرصت‌های تجاری را باز کند.

اما عجله در پروژه‌های هوش مصنوعی بدون یک استراتژی داده محکم اغلب منجر به نتایج ناامیدکننده می‌شود: همانطور که توسعه‌دهندگان داده اغلب می‌گویند: "داده آشغال وارد شود، آشغال خارج می‌شود". پایه‌های داده خود را برای یک راه‌اندازی روان، یا حداقل کم‌دست‌اندازتر، پروژه هوش مصنوعی درست کنید.

در اولین قسمت از پادکست رهبران کد استک اورفلو ، دان وودلاک، رئیس راهکارهای جهانی مراقبت های بهداشتی در InterSystems، و پراشانت چاندراسخار، مدیر عامل استک اورفلو، با بن پاپر، میزبان، در مورد نقش حیاتی استراتژی داده در توسعه هوش مصنوعی بحث می کنند.

وودلاک معتقد است که عدم تنظیم دقیق داده‌هایتان مانند رفتن به یک مهمانی و برداشتن گیتار در اتاق نشیمن است، فقط برای اینکه متوجه شوید که به شدت خارج از کوک است. حتی جیمی هندریکس هم برای تحت تاثیر قرار دادن مهمانان تلاش می کند. او با اشاره به این تشبیه می‌گوید: «اولین قدم این است که آن را کوک کنید، سپس می‌توانید بازی عالی را روی آن لایه بندی کنید. این‌طوری است که من به داده فکر می‌کنم.»

قبل از پیاده سازی هوش مصنوعی، با یک استراتژی داده پاک شروع کنید

وودلاک بر اهمیت یک استراتژی داده پاک قبل از شروع پروژه‌های هوش مصنوعی تأکید می‌کند. او توصیه می‌کند قبل از رفتن به پیاده‌سازی فنی، مانند ساختن یک سیستم RAG (تولید تقویت‌شده با بازیابی) یا انتخاب یک پلتفرم هوش مصنوعی، پایه‌ها را درست کنید. این طرح باید یک چشم انداز پنج تا ده ساله از نحوه ادغام داده ها و سیستم ها داشته باشد.

او خاطرنشان می‌کند که بسیاری از داده‌های مراقبت‌های بهداشتی بدون ساختار هستند و می‌توانند نامرتب شوند. در سوابق پزشکی، داده‌های بیمار از منابع مختلف ممکن است شناسه‌های مختلفی داشته باشند یا تغییرات نام مانند "دان" در مقابل "دونالد" یا آدرس جدید شما در مقابل آدرس قدیمی شما. بدون یک الگوریتم تطبیق بیمار، داده‌ها به درستی یکپارچه نمی‌شوند. عادی سازی داده‌ها دقت مدل‌های هوش مصنوعی و تجزیه و تحلیل را برای نتایج بهتر بیمار بهبود می‌بخشد.

برای پروژه‌های پیچیده داده و یکپارچه‌سازی هوش مصنوعی، واقع‌بین بودن در مورد نقطه شروع به شما کمک می‌کند. متئو زیلیر از Clarifai، که قبلاً با ما صحبت می کرد، مشاهده کرد که بسیاری از شرکت‌ها کیفیت داده‌های خود را بیش از حد تخمین می‌زنند. وقتی آنها در آن عمیق می‌شوند، متوجه می‌شوند "مقدار زیادی از آن وجود ندارد، یا حتی نمی‌دانند در داخل کجا است."

وودلاک و چاندراسخار تاکید می‌کنند که کیفیت داده به همان اندازه اهمیت دارد که مدل هوش مصنوعی در تولید خروجی با کیفیت بالا. یک پایگاه دانش متمرکز و پاکیزه از بهبود آموزش مدل هوش مصنوعی پشتیبانی می‌کند که نتایج بهتری را برای ابتکارات هوش مصنوعی داخلی و مشتری‌محور به دست می‌دهد. سازماندهی و تدوین دانش تیم شما یک چرخه فضیلت‌مند برای آموزش مدل‌های آینده یا روش‌های RAG و فهرست‌بندی است.

داشتن یک انسان در حلقه نیز برای بررسی هر خروجی سیستم هوش مصنوعی حیاتی است، اما خطرات در صنایع تنظیم‌شده مانند مراقبت‌های بهداشتی، جایی که جمع‌آوری داده‌ها مشمول دستورالعمل‌های قانونی برای حفظ حریم خصوصی و امنیت است، زیاد است.

وودلاک مثال یک پزشک را می‌زند که یادداشت‌های پزشکی بیمار را می‌نویسد. یادداشت‌برداری خودکار به خوبی تثبیت شده است، اما ابزارهای هوش مصنوعی این فرآیند را سرعت می‌بخشند. پزشکان باید از پتانسیل بالای نادرستی آگاه باشند و تمام خروجی‌های تولید شده توسط هوش مصنوعی را از نظر آسیب احتمالی بررسی کنند. تحقیقات مایکروسافت و دانشگاه کارنگی ملون نشان می‌دهد که اگرچه ابزارهای هوش مصنوعی می‌توانند بهره‌وری را بهبود بخشند، اما اتکای بیش از حد می‌تواند مانع از تعامل انتقادی با کار شود .

چاندراسخار معتقد است که گرد هم آوردن انسان‌ها و GenAI به مشتریان استک اورفلو کمک می‌کند تا با ادغام بهتر هوش مصنوعی در گردش‌های کاری سیستم، یک تجربه کاربری برجسته ارائه دهند. او بر نیاز به داده‌های با کیفیت بالا و مدیریت شده ساخته شده از دانش تیم شما برای جلوگیری از "فرسایش مغز LLM" تأکید می‌کند: زمانی که مدل‌ها به دلیل کمبود بینش‌های جدید و اطلاعات تولید شده توسط انسان، راکد می‌شوند.

GenAI و داده های خوب تجربه کاربری پزشک را بهبود می بخشد

InterSystems GenAI را در نرم افزار خود تعبیه کرده است تا تجربه کاربری پزشک را بهبود بخشد و هدف آن رفع ناامیدی پزشکان از نرم افزارهای دست و پا گیر و غیرقابل اعتماد است که از نظر تاریخی با آن مواجه بوده اند. هدف این است که فناوری انسانی تر به نظر برسد. هوش مصنوعی باریک (nAI) می تواند یک جریان مکالمه از سوالات در مورد بیمار بپرسد و دانش پزشکی موجود را بررسی کند و می تواند به طور خودکار اسنادی مانند خلاصه ترخیص یا جراحی را بنویسد.

سایر ارائه دهندگان فناوری مراقبت های بهداشتی نیز کارایی های مشابهی را از هوش مصنوعی مشاهده کرده اند. آمیت گارگ از HiLabs پیشنهاد می کند که GenAI و ML (یادگیری ماشین) می توانند از متخصصان موضوع مراقبت های بهداشتی تقلید کنند تا داده ها را استانداردسازی، غنی سازی و پاکسازی کنند. این رویکرد چالش های مداوم داده را حل می کند، مانند حفظ دقت فهرست های ارائه دهندگان طرح سلامت. ذکر این نکته مهم است که این فناوری جایگزین افراد نمی شود. در عوض، به تیم ها اجازه می دهد تا در کارهای تفکر عمیق تر شرکت کنند.

در این پادکست، وودلاک می‌گوید که بسیاری از شرکت‌ها راه‌اندازی یک پایلوت موفق genAI را چالش برانگیز می‌دانند. اگرچه خلبانان ممکن است سودهای بهره وری دو رقمی را نشان دهند، اما مقیاس بندی نتایج در سراسر سازمان می تواند دشوار باشد.

این اغلب به دلیل عنصر انسانی مورد نیاز است. سازمان‌ها به جای اینکه با خوشحالی فرض کنند که فناوری به تنهایی باعث افزایش بهره‌وری می‌شود، باید فناوری جدید را با روش‌های جدید کار ترکیب کنند. فرآیندها و حکمرانی که در یک پروژه آزمایشی کوچکتر کار می کنند، ممکن است به اندازه یک سازمان بزرگ و ماتریسی روان عمل نکنند. دستورالعمل های واضح برای حمایت از پذیرش ضروری است.

مرحله راه اندازی نیز در مورد ایجاد اعتماد با ذینفعان است. البته در یک محیط پزشکی، نگرانی‌های عمده و قابل درک در مورد نادرستی‌هایی وجود دارد که می‌تواند بر مراقبت و نقض حریم خصوصی بیمار تأثیر منفی بگذارد. سازمان های مراقبت های بهداشتی که می خواهند این ابزارها را در جریان های کاری خود بگنجانند، باید با اجرای برنامه های آزمایشی و به اشتراک گذاری نتایج، بر ایجاد اعتماد تمرکز کنند.

این شک و تردید در مورد خروجی جدید هوش مصنوعی در نظرسنجی سالانه توسعه دهندگان ما منعکس شده است. اشتیاق به ابزارهای توسعه دهنده genAI هر سال در حال افزایش است و بیش از 3 از 4 (76٪) پاسخ دهندگان از آنها استفاده می کنند یا قصد استفاده از آنها را دارند. با این حال، اعتماد به خروجی ابزارهای هوش مصنوعی تضمین نشده است. 31 درصد از توسعه دهندگان بدبین هستند و تنها 42 درصد از توسعه دهندگان حرفه ای به دقت آنها اعتماد دارند. آنها نگرانی های مشابهی را در مورد توهمات و استقرار کد تولید شده توسط هوش مصنوعی مستقیماً در محیط های تولید حیاتی ابراز می کنند.

حکومت خوب داده ها می تواند در مسابقه برنده شود

مدیریت و حاکمیت خوب داده‌ها لزوماً نباید فرآیندها را کند کند. برعکس، آنها می توانند به شما کمک کنند سریعتر حرکت کنید. وودلاک از ماریو آندretti، راننده F1، نقل می کند: "بسیاری از مردم فکر می کنند که ترمزها برای کند کردن شما هستند. اگر ترمزهای خوبی داشته باشید، می توانید سریعتر رانندگی کنید."

به طور مشابه، وودلاک می گوید که هنگامی که سازمان ها سبک حکومتی خود را تشخیص دادند، می توانند سفر هوش مصنوعی خود را سرعت بخشند.

در یک مکالمه قبلی در پادکست استک اورفلو ، ساتی جایانتی از Coalesce مشاهده کرد که یک استراتژی داده موفق به افراد، فرآیندها و فناوری مناسب نیاز دارد تا گرد هم آیند. افراد پیچیده ترین بخش هستند: ذینفعان مناسب باید در میز حضور داشته باشند تا بر حاکمیت داده ها نظارت داشته باشند.

همین حالا برای ایجاد شیوه های خوب داده اقدام کنید

با افزایش پذیرش هوش مصنوعی، انبوهی از مدل‌ها و رویکردها برای مدیریت و حاکمیت داده‌ها فرصت‌هایی را ایجاد می‌کند، اما پیچیدگی را نیز افزایش می‌دهد.

در سال گذشته، این صنعت از انگشت شماری از LLM های خوب با هدف کلی (مدل های زبان بزرگ) به چندین مدل منبع باز و nAI قابل اعتماد که از الزامات تجاری خاص پشتیبانی می کنند، تغییر کرده است. هوش مصنوعی عامل را وارد کنید، و گزینه های متعددی برای انتخاب وجود دارد.

اولویت های وودلاک تمرکز بر دقت است، مانند اندازه گیری قابلیت اطمینان خلاصه مکالمه بیمار و پزشک. ارتقاء مهارت تیم خود در مورد روندهای هوش مصنوعی نیز بسیار مهم است: سری ویدئویی Code to Care او موضوعات مرتبط با هوش مصنوعی مانند RAG و هوش مصنوعی عامل را توضیح می دهد.

چاندراسخار مشاهده می کند که داده های مورد استفاده برای آموزش مدل ها تا حد زیادی تمام شده است. نیاز به توسعه سازوکارهایی برای دانش جدید و ایجاد داده وجود دارد: "با فشار بیشتر بر مشتریان ما برای انجام کارهای بیشتر با کمترین، این وسوسه وجود دارد که باور کنیم هوش مصنوعی به سرعت باعث افزایش بهره وری می شود." او خاطرنشان می کند که "مهم است که تشخیص دهیم هوش مصنوعی هنوز یک درمان برای همه چیز نیست" و هشدار می دهد که بسیاری تأثیر هوش مصنوعی را در کوتاه مدت بیش از حد ارزیابی می کنند و تأثیر تحول آفرین آن را در بلند مدت دست کم می گیرند.

برای جمع بندی این گفتگو: ابتدا باید پایه ها را بگذارید، مانند ایجاد مجموعه داده های پاک و پایگاه دانش خود. از همین حالا شروع کنید، زیرا درست کردن این کار ممکن است بیشتر از آنچه فکر می کنید طول بکشد. سپس، شما آماده خواهید شد تا از فرصت هایی که هوش مصنوعی ارائه می دهد، بیشترین بهره را ببرید.