عبارت Big Data مدتها است که برای اشاره به حجمهای عظیمی از دادهها که توسط سازمانهای بزرگی مانند گوگل یا ناسا ذخیره و تحلیل میشوند مورد استفاده قرار میگیرد؛ اما به تازگی، این عبارت بیشتر برای اشاره به مجموعههای دادهای بزرگی استفاده میشود که بهقدری بزرگ و حجیم هستند که با ابزارهای مدیریتی و پایگاههای داده سنتی و معمولی قابل مدیریت نیستند. مشکلات اصلی در کار با این نوع دادهها مربوط به برداشت و جمعآوری، ذخیرهسازی، جستوجو، اشتراکگذاری، تحلیل و نمایش آنها است.
این مبحث، به این دلیل هر روز جذابیت و مقبولیت بیشتری پیدا میکند که با استفاده از تحلیل حجمهای بیشتری از دادهها، میتوان تحلیلهای بهتر و پیشرفتهتری را برای مقاصد مختلف، از جمله مقاصد تجاری، پزشکی و امنیتی، انجام داد و نتایج مناسبتری را دریافت کرد. بیشتر تحلیلهای مورد نیاز در پردازش دادههای عظیم، توسط دانشمندان در علومی مانند هواشناسی، ژنتیک، شبیهسازیهای پیچیده فیزیک، تحقیقات زیستشناسی و محیطی، جستوجوی اینترنت، تحلیلهای اقتصادی و مالی و تجاری مورد استفاده قرار میگیرد. حجم دادههای ذخیرهشده در مجموعههای دادهای Big Data، عموماً به خاطر تولید و جمعآوری دادهها از مجموعه بزرگی از تجهیزات و ابزارهای مختلف مانند گوشیهای موبایل، حسگرهای محیطی، لاگ نرمافزارهای مختلف، دوربینها، میکروفونها، دستگاههای تشخیص RFID، شبکههای حسگر بیسیم و غیره با سرعت خیرهکنندهای در حال افزایش است.