مقدمه ای بر مفهوم داده های بزرگ و ابرداده ها

همانطور که می دانید داده‌هایی که ما تولید می‌کنیم پایه و اساس اطلاعات بشر هستند. این داده‌ها درباره موضوعات و حوزه‌های مختلف ممکن است به تنهایی دارای ارزش نباشند. اما تجمیع، سازماندهی و تجزیه و تحلیل آن‌ها است که باعث ایجاد ارزش می‌شود. در این دنیای دیجیتال، داده‌ها از منابع متفاوتی تولید می‌شوند، همچنان که رشد سریع فناوری‌های دیجیتال منجر به افزایش نرخ تولید و ایجاد حجم انبوهی از داده‌ها ( ابرداده ها ) شده است. این داده‌ها از تراکنش‌های آنلاین، ایمیل ها، ویدیوها، صوت ها، متون، اسناد، تصاویر، کلیک بر روی لینک ها، پست‌ها و صدها عمل دیگری که ما در طول شبانه روز انجام می‌دهیم تولید می‌شوند.

هر روزه با افزایش تعداد دستگاه‌ها، ماشین‌ها و اپلیکیشن‌های متصل به اینترنت که با یکدیگر ارتباط برقرار می‌کنند، دفترها به طرز عجیبی در حال جمع کردن انباشته هایی از اطلاعات هستند. بیشترین درصد داده ها در دنیا طی همین دو سال گذشته تولید شده‌اند. نیاز به ذخیره‌سازی، جست‌و‌جو در آنها و معنا دادن به این حجم از داده سبب شده سرمایه‌گذاری‌ها بسیار وسیعی در ابعاد گوناگون در زمینه اطلاعات و پایگاه داده در سراسر جهان انجام شود. همچنان که شرکت تحقیقاتی IDC ادعا دارد، حدود 2.9 میلیون پایگاه سروری در ایالات متحده وجود دارد و البته که این تنها شروع کار است.

درباره تجهیزات ذخیره سازی در کاریز بیشتر بدانید …

حجم داده های بزرگ

این حجم غیر قابل باور داده‌ها به ابرداده ها، داده‌های حجیم یا بزرگ داده‌ها (Big data) معروف شده است. نکته قابل توجه آن است که ابرداده ترجمه متداول و پرکاربرد عبارت Big Data محسوب می‌شود، در حالیکه معادل فارسی برگزیده شده توسط فرهنگستان زبان و ادب پارسی «مِه‌داده» است.

مسئله ابرداده به مجموعه ای از داده‌های بزرگ و پیچیده‌ باز می‌گردد که پردازش آن‌ها با استفاده از سیستم‌های پایگاه داده یا نرم‌افزار‌های پردازش داده سنتی کاری بسیار دشوار و دور از ذهن است. این داده‌ها در قالب‌های ساختار یافته (structured)، ساختار نیافته (unstructured) و نیمه ساختار یافته (semi-structured) و در اندازه پتابایت (PB)، اگزابایت (EB)، زتابایت (ZB) و یا بیشتر وجود دارند. با اینکه دغدغه حجم ابرداده‌های تولید بشر به طور جدی از دهه‌های ۶۰ و ۷۰ میلادی آغاز شد اما میتوان گفت این اصطلاح، مفهوم جدیدی است.

در واقع ابتدایی ترین هدف از تحلیل‌های ابرداده، پردازش حجم بسیار زیاد با نرخ رشد بالا، متنوع و همراه با صحت داده‌ها با بهره‌گیری از روش‌های هوشمند محاسباتی و سنتی متعدد می باشد. این مسئله به تصمیم‌سازی پیشرفته و بهینه‌سازی در عین خلاقیت و کاهش هزینه کمک می‌کند.

چهار “v” مهم در داده های بزرگ و ابرداده ها

حجم داده‌ها (Volume): با بیگ دیتا شما با حجم زیادی از داده‌های بدون ساختار و با تراکم پایین مواجه هستید. این داده‌ها می‌توانند شامل داده‌هایی با مقادیر نامعلوم مثل داده‌های توییتر، کلیک‌های مربوط به یک صفحه وب یا داده‌های مربوط به یک حسگر باشد. برای برخی سازمان‌ها این به معنی ده‌ها ترابایت داده است.

سرعت (Velocity): سرعت به نرخ دریافت و همچنین در برخی موارد انجام اعمالی بر روی داده‌ها اطلاق می‌شود. برای مثال برخی از ابزار هوشمند مبتنی بر اینترنت نیاز به دریافت اطلاعات به صورت بلادرنگ و البته انجام پردازش‌ها به صورت بلادرنگ دارند.

تنوع (Variety): این جنبه به انواع داده‌هایی که در بیگ دیتا مورد استفاده قرار می‌گیرند اشاره دارد. داده‌های سنتی اغلب ساختار یافته بودند و در پایگاه داده‌ای رابطه‌ای ذخیره می‌شدند. اما با ظهور بیگ دیتا، داده‌ها بدون ساختار شدند. داده‌هایی مثل صدا، متن و تصویر که به پردازش‌های تکمیلی جهت برداشت معانی خاص از آن‌ها نیازمند هستیم. علاوه بر این، ارزش و اعتبار داده‌ها نیز طی سالیان گذشته مورد توجه قرار گرفته است.

صحت (Veracity): با رشد سریع داده ها از نظر حجم و تنوع، امکان وجود داده های نادرست در آنها نیز افزایش می یابد در نتیجه اگر ورودی قابل اعتماد نباشد نمی توان به اطلاعات استخراج شده از آن اعتماد کرد.

اما شرکت‌ها نیاز دارند با یک روش هوشمند، ارزان و پیشرو، حجم وسیع داده‌های خود را مدیریت کنند. یکی از راهکارها استفاده از ابزارهایی مانند هادوپ است، چارچوبی نرم‌افزاری و منبع آزاد که برای پردازش داده ها در مقیاس‌ بزرگ مورد استفاده قرار می‌گیرد. درواقع هادوپ یک فریم ورک یا مجموعه‌ای از نرم افزار‌ها و کتابخانه‌هایی است که ساز و کار پردازش حجم زیادی از داده‌های توزیع شده را فراهم میکند. این مجموعه از سال ۲۰۰۶ راه اندازی شده است.

می‌توان هادوپ را به یک سیستم عامل تشبیه کرد که طراحی شده تا بتواند حجم زیادی از داده‌ها را بر روی ماشین‌های مختلف پردازش و مدیریت کند. هادوپ توانست در سال 2008 با پردازش 1 ترابایت داده در 202 ثانیه رکورد سریعترین سیستم پردازش را بشکند و حتی بعدها اعلام کرد که این زمان را به 68 ثانیه کاهش داده است.

همانطور که پیش تر اشاره کردیم منابع تولیدی کلان داده ها مدیای اجتماعی، داده های ماشین مانند رایانه ها و وسایل پزشکی، حسگرها و اینترنت اشیا یا به اصطلاح IOT می باشد. بر همین اساس میتوان کاربرد کلان داده ها به طور اخص میتوان در سازمانها و شرکتها، شبکه های اجتماعی و IOT جستجو کرد. در این میان داده های بزرگ با چالش هایی مانند مشکل در نمایش داده ها، کاهش انباشت و فشرده سازی، مکانیزم تحلیلی، سری بودن داده ها و کنترل و تنظیم انرژی روبرو هستند.

نهایتا و با وجود این حجم از تبلیغات، ابرداده ها روزهای نخستین خود را طی می‌کند. به گفته IDC، در سال گذشته تنها 22 درصد اطلاعات دیجیتال قابل تحلیل بودند که 5 درصد آن مورد تحلیل قرار گرفت. همچنان حجم وسیعی از داده‌ها در سیستم‌های بخش‌بندی شده ذخیره شده که خارج از بررسی است و این امر اطلاعات را بدون استفاده ساخته است. از آنجایی که سازمانها از تکنولوژی‌های جدید و ابزارهای تحلیل کارآمدی برای پایگاهها داده استفاده می‎کنند، میتوان گفت آینده روشنی برای در انتظار کلان داده هاست.

لینک منبع مقاله:

https://www.geekboy.pro

این مقاله را با دوستان خود به اشتراک بگذارید:

داده های بزرگ و ابرداده ها

مقدمه ای بر مفهوم داده های بزرگ و ابرداده ها

حجم داده های بزرگ

چهار “v” مهم در داده های بزرگ و ابرداده ها

مطالب مرتبط