داده کاوی عبارت است از فرایند یافتن و استخراج اطلاعات پنهان، الگوها و روابط مشخص در حجم انبوهی از دادهها با هدف پیشبینی رویدادها و نتایج آتی. داده کاوی، پایگاهها و مجموعه حجیم دادهها را برای کشف و استخراج، مورد تحلیل قرار میدهد.
در این روش، شما با بهرهگیری از انواع تکنیکهای گوناگون میتوانید اطلاعات به دست آمده را برای نیل به اهدافی همچون افزایش درآمد، کاهش هزینهها، بهبود ارتباط با مشتری، کاهش ریسک و غیره مورد استفاده قرار دهید.
در این نوشتار به بیان تاریخچه و اهمیت داده کاوی میپردازیم و علاوه بر شیوههای استفاده از آن، مشخص میکنیم که این تکنیک معمولاً در چه صنایعی کاربرد بیشتری دارد.
تاریخچه داده کاوی و پیشرفتهای امروزی آن
کاوش اطلاعات با هدف کشف رابطههای مخفی و پیشبینی رویدادهای آتی، سابقهای دراز دارد.
گاهی اوقات از این فرایند با عنوان «کشف دانش در پایگاههای داده» یاد میشود و امروزه به آن «داده کاوی» میگویند. البته اصطلاح داده کاوی در دهه سال 90 میلادی ابداع شده است و چیز جدیدی به شمار میرود.
داده کاوی در محل تلاقی سه رشته علمی قرار گرفته است:
1. آمار (مطالعه عددی روابط دادهها)
2. هوش مصنوعی (هوش انسان مانند که توسط نرمافزار و یا ماشین ظهور مییابد)
3. یادگیری ماشین (الگوریتمهایی که میتواند با آموزش دیدن از دادهها، آینده را پیشبینی کند)
فناوری داده کاوی در حال رشد و پیشرفت است و به دنبال آن است که از پتانسیل نامحدودی که در کلان دادهها (بیگ دیتا) و توان پردازشی رایانهها نهفته است کمال استفاده را ببرد.
در یک دهه اخیر، پیشرفت در سرعت و پردازش رایانهها، این امکان را در اختیار ما گذاشته که به سمت تجزیه و تحلیلهای خودکار، سریع و آسان حرکت کنیم و خود را از شیوههای دستی، وقتگیر و خستهکننده تحلیل اطلاعات آسوده سازیم.
هر چه مجموعه دادههای گردآوری شده پیچیدهتر شود، کشف بینشهای مربوطه نیز دشوارتر خواهد شد.
شرکتهای فعال در صنعت خردهفروشی، بانکها، تولیدکنندگان، مراکز ارائهدهنده خدمات مخابراتی، بیمهگرها و غیره، از داده کاوی برای شناسایی روابط موجود میان همه چیز استفاده میکنند؛ از قیمتگذاری، تبلیغات و جمعیتشناسی مخاطبان گرفته تا درک این موضوع که چگونه اقتصاد، ریسک، رقابت و شبکههای اجتماعی میتواند بر مدلهای کسبوکار، درآمدزایی و عملیات تجاری آنها اثرگذار باشد.
چرا داده کاوی مهم است؟
هر دو سال یک بار، حجم دادهها دو برابر میشود. 90 درصد اطلاعات دنیای دیجیتال را دادههای بدون ساختار (unstructured data) تشکیل میدهد. از سوی دیگر، اطلاعات بیشتر لزوماً به معنای دانش بیشتر نیست.
شما با داده کاوی میتوانید:
1. تمام دادههای نامرتبط، بیفایده و تکراری را از مجموعه دادههایتان حذف کنید.
2. موارد مرتبط را شناسایی کرده و از آنها برای نیل به اهداف از پیش تعیین شده خود بهره ببرید.
3. به فرایند تصمیمگیری آگاهانه سرعت ببخشید.
داده کاوی در عصر حاضر
امروزه داده کاوی به عنوان پایه و مبنای تحلیلها محسوب میشود و به شما کمک میکند که مدلهایی توسعه دهید که قادر است از میان میلیونها یا میلیاردها رکورد، روابط را شناسایی کند. داده کاوی در حال شکل دادن به جهانی است که در آن زندگی میکنیم.
چه کسانی از داده کاوی استفاده میکنند؟
داده کاوی به عنوان یک چارچوب تحلیلی، در صنایع و سازمانهای بسیار گوناگونی کاربرد دارد که در ادامه به بخشی از آنها اشاره میشود.
شرکتهای ارتباطی
در بازارهای شلوغ و پررقابت امروزی، معمولاً راهکارهای ارزشمند در «دادههای مشتریان» نهفته است.
شرکتهای مخابراتی و چندرسانهای میتوانند با مدلهای تحلیلی، بینشهای مناسب را از انبوه دادههای مشتریان استخراج کنند تا با استفاده از آنها، به اموری همچون پیشبینی رفتار مشتری و ساخت کمپینهای هدفمند و دقیق دست بزنند.
بیمه
شرکتهای بیمه با استفاده از تکنیکهای تحلیلی میتوانند بر موضوعات چالشی همچون تقلب، مدیریت ریسک، تطبیقپذیری و خسارت مشتری فائق آیند.
در این صنعت، شرکتها از تکنیکهای داده کاوی برای قیمتگذاری محصولات و یافتن راههای نوینی برای عرضه محصولات رقابتی به پایگاه مشتریان فعلی خود استفاده میکنند.
آموزش
معلمان با استفاده از فرایند آموزشِ یکپارچه و دادهمحور خود میتوانند عملکرد دانشآموزان را پیشاپیش برآورد کنند و استراتژیهای مداخلهگر برای آموزش بهتر به آنها عرضه نمایند.
آموزگاران با استفاده از داده کاوی میتوانند میزان پیشرفت دانشآموزان را با دقت بالا پیشبینی کرده و متوجه شوند که کدام دانشآموز به توجه بیشتری نیاز دارد.
تولیدکنندگان
در حوزه تولید، هماهنگ کردن برنامههای عرضه با پیشبینی تقاضا یک ضرورت است. همچنین تشخیص زودهنگام مشکلات، تضمین کیفیت و نحوه سرمایهگذاری در ارزش برند نیز به نوبه خود اهمیت فراوانی دارد.
تولیدکنندگان میتوانند با داده کاوی، امور مختلفی همچون هزینههای تولید و نگهداری را پیشبینی کنند و از این رهگذر، راندمان کار را به حداکثر برسانند.
بانکداری
الگوریتمهای خودکار به بانکها کمک میکند که درک بهتری از پایگاه مشتریان خود به دست آورند و دید آنها نسبت به میلیاردها تراکنشی که در سیستم مالیشان صورت میگیرد بازتر شود.
شرکتهای فعال در حوزه مالی با داده کاوی، نگرش بهتری نسبت به ریسکهای بازار به دست خواهند آورند، تقلبات را به گونهای سریعتر تشخیص میدهند، تعهدات قانونی را به خوبی مدیریت میکنند و خروجی سرمایهگذاریهای بازاریابی را بالا میببرند.
خردهفروشی
بانکهای اطلاعاتی بزرگ، اطلاعات ارزشمندی را در خود نهفته دارند که میتوان از آنها برای بهبود روابط مشتری، بهینهسازی کمپینهای تبلیغاتی و پیشبینی میزان فروش استفاده کرد.
شرکتهای خردهفروش با بهرهگیری از مدلهای اطلاعاتی دقیق، قادرند کمپینهای هدفمندتری عرضه نموده و پیشنهادهایی که تاثیر بیشتری بر مشتریان دارد، به آنها عرضه نمایند.
Michael Schrage کارشناس و تحلیلگر هاروارد میگوید: اگر داده کاوی و تحلیلهای پیشگویانه (predictive analytics) به گونهای درست و اصولی انجام شود، تحلیلها فقط وسیلهای برای پیشبینی نیستند بلکه این پیشبینیها به ابزاری برای به دست آوردن بینشهای تحلیلی تبدیل خواهد شد.
داده کاوی چگونه کار میکند؟
داده کاوی به عنوان یک فرایند ترکیبی، شامل مجموعهای از روشها و تکنیکهایی است که برای تحلیلهای گوناگون به کار میرود و میتواند پاسخگوی طیف وسیعی از نیازهای سازمانی باشد.
در داده کاوی از الگوریتمها و شیوههای مختلفی استفاده میشود که برخی از آنها به این شرح است:
مدلسازی توصیفی
آشکارسازی موارد مشابه یا گروههای مشترک در دادههای موجود، با هدف تشخیص دلایل موفقیت یا شکست؛ از قبیل دستهبندی مشتریان بر اساس ترجیحات محصول یا احساسات آنها.
برخی تکنیکهای مورد استفاده در این روش عبارتند از:
خوشهبندی (Clustering): گروهبندی رکوردهای مشابه
کشف ناهنجاری (Anomaly detection): تشخیص الگوهای چندبعدی نامتعارف.
یادگیری قانون وابستگی (Association rule learning): شناسایی روابط میان رکوردها.
تحلیل مولفههای اصلی (Principal component analysis): شناسایی روابط میان متغیرها.
گروهبندی شباهت (Affinity grouping): گروهبندی افراد با علایق مشترک یا اهداف مشابه (مثال: مردمی که الف را میخرند، معمولاً ب را نیز میخرند و احتمال دارد که ج را نیز خرید کنند).
مدلسازی پیشبینانه
این مدل به گونهای عمیقتر، به دستهبندی رویدادها در آینده میپردازد و میکوشد نتایج ناشناخته را پیشاپیش برآورد کند. به عنوان مثال، با استفاده از امتیاز اعتباری یک فرد، میزان احتمال بازپرداخت اقساط وام او را تخمین میزند.
مدل پیشبینانه همچنین در دستیابی به بینشهای مرتبط با اموری همچون رویگردانی مشتری، پاسخ به کمپین یا افول اعتبار کمک میکند. برخی تکنیکهای مورد استفاده در این روش عبارتند از:
رگرسیون (Regression): اندازهگیری شدت رابطهی میان یک متغیر وابسته و مجموعهای از متغیرهای مستقل
شبکههای عصبی (Neural networks): برنامههای رایانهای که میتواند الگوها را شناسایی کند، دست به پیشبینی بزند و آموزش ببیند.
درختهای تصمیمگیری (Decision trees): نمودارهایی به شکل درخت که هر شاخه آن نشاندهنده یک رویداد احتمالی است.
ماشینهای بردار پشتیبان (Support vector machines): مدلهایِ یادگیریِ تحت نظارت، در هماهنگی با الگوریتمهای یادگیری.
مدلسازی تجویزی
پا به پای رشد دادههای بدون ساختار در وب، فیلدهای اظهار نظر، کتابها، ایمیلها، فایلهای پیدیاف، منابع متنی و فایلهای صوتی، متن کاوی (text mining) نیز که یکی از شاخههای داده کاوی محسوب میشود، افزایش قابل توجهی داشته است.
شما باید از تجزیه، پالایش و تبدیل دادههای بدون ساختار برای استفاده از خروجی در مدلهای پیشگویانه – جهت بالا بردن میزان دقت پیشبینیها استفاده کنید.
در نهایت بیان این موضوع ضروری است که شما نباید به داده کاوی به عنوان یک فرایند جداگانه و مستقل بنگرید زیرا پیشپردازش (تهیه دادهها و اکتشاف دادهها) و پسپردازش (اعتبارسنجی مدل، امتیازدهی، نظارت بر عملکرد مدل) به یک اندازه مهم و ضروری هستند.
مدلسازی پیشبینانه به متغیرهای داخلی و خارجی نظر دارد و معمولاً یک یا دو پیشنهاد را مطرح میکند (مانند تعیین بهترین پیشنهاد بازاریابی برای ارسال به هر مشتری).
برخی تکنیکهای مورد استفاده در این روش عبارتند از:
تحلیلهای پیشبینانه به همراه قوانین مربوطه: توسعهی قوانین اگر/سپس (if/then) از الگوها و پیشبینی نتایج.
بهینهسازی بازاریابی: شبیهسازی برترین رسانههای مفید برای کسب بالاترین نرخ بازگشت سرمایه (ROI)، به صورت بلادرنگ.
منبع: وبسایت SAS
سلام لطفا مقالات تخصصی داده کاوی هم منتشر کنید ممنون
سلام یکی از موضوعات روز الان هوش مصنوعیه که خیلی هم سر و صدا کرده. اگر در این مورد مطالب قشنگی بذارید خیلی فکر کنم مناسب باشه
توضیحاتتون عالی بود
سپاس از حسن نظرتون