پیش پردازش داده‌ها : پاکسازی داده، یکپارچه سازی داده، کاهش داده و تبدیل داده

ما در این بخش میخواهیم یکی از مهمترین تکنیک های انتقال داده یعنی پیش پردازش داده‌ها رو با جزییات بیشتری بررسی کنیم. در مطلب قبل چرخه داده کاوی رو معرفی کردیم و گفتیم که پیش پردازش داده‌ها اولین گام در داده کاوی است. در این مطلب مهمترین تکنیک ها پیش پردازش داده ها را معرفی میکنم.

مهمترین فعالیت های که در بخش پیش پردازش داده‌ها انجام می شود عبارت است از ۱- پاکسازی داده (data cleaning) ، ۲- یکپارچه سازی داده (data integration ) ، ۳- کاهش داده (data reduction) و در نهایت تبدیل داده (data transformation)

توی این مطلب یک تعریف مختصر از هر کدوم از ۴ مفهوم بالا ارائه میدیم تا یک شناخت کلی از اونا حاصل بشه و در مطالب بعدی هر یک رو به جزییات بیشتر، تکنیک ها و مثل های متنوع بررسی میکنیم

  • پاکسازی داده (data cleaning)

مهمترین فعالیت های این بخش عبارت است تخمین مقادیر ناموجود در پایگاه داده ها، از بین بردن اختلال (noise) در داده ها، حذف کردن داده های پرت و نامربوط، از بین بردن ناسازگاری در داده ها. نکته مهم این است که هر چه این گام از داده کاوی بهتر انجام شود، خروجی الگوریتم ها و تکنیک های داده کاوی کیفیت بالاتری خواهد داشت

  • یکپارچه سازی داده (data integration)

در بسیاری از موارد ممکن است داده ها در فایل ها و منابع مختلف نگهداری شوند و در این صورت نیاز است تا داده ها پیش از اجرای تکنیک های داده کاوی با یکدیگر یکپارچه شوند.  یکپارچه سازی هم فعالیتی سنگین است و هم چالش های فراوانی را به همراه دارد که در مفصل در مورد آن صحبت خواهیم کرد.

  • کاهش داده (data reduction)

یکی از مهمترین نکات در داده کاوی این است که ممکن است همیشه، همه داده ها مورد نیاز نباشند و تنها بخشی از داده ها که مورد نیاز است باید مورد پردازش قرار بگیرد. کاهش داده (data reduction) به این مباحث می پردازد.

  • تبدیل داده (data transformation)

فعالیت های مانند نرمال سازی داده ها و گسسته سازی داده ها در این حوزه جای میگیرند.