داده کاوی چیست؟ چرا داده کاوی نیاز است؟
داده کاوی چیست؟ امروزه در اكثر سازمان ها، دادهها به سرعت در حال جمع آوری و ذخیره شدن می باشند. اما استفاده از این داده ها در اغلب موارد کار راحتی نیست و نمی توان به صورت یکپارچه از این حجم داده ها استفاده نمود، از این رو با استفاده از ترکیب علم آمار و کامپیوتر و بکارگیری تکنیک های یادگیری ماشین، می توان از این داده ها به نحو مطلوب استفاده کرد. در واقع داده کاوی عبارت است از:
«استخراج اطلاعات و دانش و كشف الگوهای پنهان از پایگاه دادههای بسیار بزرگ»
داده کاوی چیست؟ چه موقع و کجا دادهکاوی نیاز است؟
• مسئله ای پیچیده و ناساخت یافته و یا نیمه ساخت یافته
• دادههای مرتبط وجود داشته باشند و به آنها دسترسی داشت.
• داده ها در یکجا مجتمع شده و انباره داده ها ایجاد شود.
• توانایی کامپیوترها امکان استفاده از نرم افزارهای مرتبط با داده کاوی را به ما بدهند.
• مدیران نیاز به استفاده از دانش استخراج شده از داده ها را حس کرده باشند.
کاربرد علم آمار در داده کاوی چیست؟
آمار شاخه ای از علم ریاضی است که به جمع آوری توضیح و تفسیر داده ها می پردازد. این مبحث به گونه ای است که روزانه کاربرد زیادی دارد. در مقایسه این علم با data mining قدمت بیشتری دارد و جزء روشهای کلاسیک داده کاوی محسوب می شود، وجه اشتراک تکنیکهای آماری و data mining بیشتر در تخمین و پیش بینی است. البته از آزمون های آماری در ارزیابی نتایج داده کاوی نیزاستفاده می شود. در کل اگر تخمین و پیش بینی جزء وظایف data mining در نظر گرفته شوند، تحلیل های آماری، data mining را بیش از یک قرن اجرا کرده است. به عقیده بعضی DM ابتدا از آمار و تحلیل های آماری تحلیل شروع شد. می توان تحلیل های آماری از قبیل فاصله اطمینان، رگرسیون و… را مقدمه و پیش زمینه DM دانست که به تدریج در زمینه های دیگر و متدهای دیگر رشد و توسعه پیدا کرد. پس در واقع متدهای آماری جزء روشهای کلاسیک و قدیمی DM محسوب می شوند. در جایی اینگونه بحث می شود که با تعریف دقیق ، آمار یا تکنیک های آماری جزء داده کاوی (data mining) نیستند. این روش ها خیلی قبل تر از data mining استفاده می شدند. با این وجود، تکنیک های آماری توسط داده ها بکار برده می شوند و برای کشف موضوعات و ساختن مدل های پیشگویانه مورد استفاده قرار می گیرند.
کاربرد آمار در داده کاوی
همانگونه که واضح و مشخص است با گذشت زمان علم نیز پیشرفت می کند، هر چه به جلوتر می رویم روشه ای جدیدتر و بهتر مورد استفاده قرار می گیرد، علم امروز نسبت به دیروز جدیدتر است. روش های جدید علمی در پی کشف محدودیت های روش های قدیمی ایجاد می شود، و از آنجایی که روش های آماری جزء روش های قدیمی Data mining محسوب می شوند، از این قاعده کلی که دارای محدودیت هستند مستثنی نیستند. داشتن فرض اولیه در مورد داده ها، یکی از این موارد است. در اینجا به تشریح بیشتر تفاوت های بین مباحث و متدهای آماری و دیگر متدهای داده کاوی که در کتاب های مختلف بحث شده است می پردازیم.
تکنیک های داده کاوی و تکنیک های آماری در مباحثی چون تعریف مقدار هدف برای پیش گویی، ارزشیابی خوب و داده های دقیق (تمیز)(clean data) خوب عمل می کنند، همچنین این موارد در جاهای یکسان برای انواع یکسانی از مسایل (پیش گویی، کلاس بندی و کشف)استفاده می شوند، بنابر این تفاوت این دو چیست؟ چرا ما آنچنان که علاقه مند بکار بردن روش های داده کاوی هستیم علاقه مند روشهای آماری نیستیم؟ برای جواب این سوال چندین دلیل وجود دارد اول اینکه روشهای کلاسیک داده کاوی از قبیل شبکه های عصبی، تکنیک نزدیک ترین همسایه روش های قوی تری برای داده های واقعی به ما می دهند و همچنین استفاده از آنها برای کاربرانی که تجربه کمتری دارند راحت تر است و بهتر می توانند از آن استفاده کنند. دلیل دیگر اینکه بخاطر اینکه معمولاً داده ها اطلاعات زیادی در اختیار ما نمی گذارند، این روش ها با اطلاعات کمتر، بهتر می توانند کار کنند و همچنین اینکه برای داده ها وسیع کابرد دارند.
در جایی دیگر اینگونه بیان شده که داده های جمع آوری شده نوعاً خیلی از فرض های قدیمی آماری را در نظر نمی گیرند، از قبیل اینکه مشخصه ها باید مستقل باشند، تعیین توزیع داده ها، داشتن کمترین همپوشانی در فضا و زمان اغلب داده ها هم پوشانی زیاد می دارند، تخلف کردن از هر کدام از فرض ها می تواند مشکلات بزرگی ایجاد کند، زمانی که یک کاربر (تصمیم گیرنده) سعی می کند که نتیجه ای را بدست آورد. داده های جمع آوری شده بطور کلی تنها مجموعه ای از مشاهدات چندی بعد است بدون توجه به اینکه چگونه جمع آوری شده اند.
در جایی پایه و اساس Data mining به دو مقوله آمار و هوش مصنوعی تقسیم شده است که روشهای مصنوعی به عنوان روش های یادگیری ماشین در نظر گرفته می شوند. فرق اساسی بین روش های آماری و روش های یادگیری ماشین (machine learning) بر اساس فرض ها و یا طبیعت داده هایی که پردازش می شوند. بعنوان یک قانون کلی فرض ها تکنیک های آماری بر این اساس است که توزیع داده ها مشخص است که بیشتر موارد فرض بر این است که توزیع نرمال است و در نهایت درستی یا نادرستی نتایج نهایی به درست بودن فرض اولیه وابسته است. در مقابل روش های یادگیری ماشین از هیچ فرض در مورد داده ها استفاده نمی کند و همین مورد باعث تفاوت هایی بین این دو روش می شود.
به هر حال ذکر این نکته ضروری بنظر می رسد که بسیاری از روش های یادگیری ماشین برای ساخت مدل dataset از حداقل چند استنتاج آماری استفاده می کنند که این مسأله بطور خاص در شبکه عصبی دیده می شود.
بطور کلی روش های آماری روش های قدیمی تری هستند که به حالت های احتمالی مربوط می شوند. Data mining جایگاه جدید تری دارد که به هوش مصنوعی یادگیری ماشین سیستم های اطلاعات مدیریت (MIS) و متدلوژی Database مربوط می شود.
روش های آماری بیشتر زمانی که تعداد داده ها کمتر است و اطلاعات بیشتری در مورد داده ها می توان بدست آورد استفاده می شوند به عبارت دیگر این روش ها با مجموعه داده های کوچک تر سر و کار دارند همچنین به کاربران ابزارهای بیشتری برای امتحان کردن داده ها با دقت بیشتر فهمیدن ارتباطات بین داده ها می دهد. بر خلاف روش هایی از قبیل شبکه عصبی که فرآیند مبهمی دارد. پس بطور کلی این روش در محدوده مشخصی از داده های ورودی بکار می رود. بکار بردن این روش ها مجموعه داده های زیاد احتمال خطا در این روش ها را زیاد می کند. چون در داده ها احتمال noise و خطا بیشتر می شود و نیز روش های آماری معمولاً به حذف noise می پردازند، بنابراین خطای محاسبات در این حالت زیاد می شود.
در بعضی از روش های آماری نیازداریم که توزیع داده ها را بدانیم. اگر بتوان به آن دسترسی پیدا کرده با بکار بردن روش آماری می توان به نتایج خوبی رسید.
روش های آماری چون پایه ریاضی دارند نتایج دقیق تری نسبت به دیگر روش های Data mining ارایه می دهند ولی استفاده از روابط ریاضی نیازمند داشتن اطلاعات بیشتری در مورد داده ها است.
مزیت دیگر روش های آماری در تعبیر و تفسیر داده ها است. هر چند روش های آماری به خاطر داشتن ساختار ریاضی تفسیر سخت تری دارند ولی دقت نتیجه گیری و تعبیر خروجی ها در این روش بهتر است بطور کلی روش های آماری زمانی که تفسیر داده ها توسط روش های دیگر مشکل است بسیار مفید هستند.