اواخر سال ۲۰۱۱ بزرگ دادهها به یک موضوع داغ در تقریبا هر حوزه مرتبط با فناوری اطلاعات تبدیل شد.
به گزارش شبکه خبری دولت الکترونیک، «شرکت دادههای بینالمللی» یا آیدیسی (IDC) در تعریف فناوریهای بزرگ دادهها آن را «نسل جدیدی از فناوریها و معماریها میداند که با ضبط، استخراج، کشف یا تحلیل فوری انبوهی از انواع مختلف دادهها؛ ارزش اقتصادی آنها را استخراج میکند.» مبحث بزرگ دادهها سه عنصر اصلی دارد: اول خود دادهها، دوم تحلیل دادهها و در آخر ارائه نتایج تحلیل. پس محصولات و خدماتی پیرامون بزرگ دادهها با یک یا همه عناصر فوق ارائه میشوند.
البته جهان دیجیتالی نیز خود متشکل از دادههاست ـ همه انواع دادهها. اما بخش عمدهای از دادههای جدید که امروزه تولید میشوند، در نوع خود ساختاریافته نیستند. این بدان معناست که در غالب موارد، ما شناخت کمی از دادهها داریم مگر اینکه به نوعی آنها را دستهبندی کنیم یا برای هر کدام برچسب بگذاریم؛ کاری که در نهایت منجر به شکلگیری متاداده (metadata) خواهد شد. متادادهها یکی از خردهبخشهای جهان دیجیتالی است که با سرعتی فراتر از خردهبخشهای دیگر رشد میکند (هرچند متاداده یک بخش کوچک از کل جهان دیجیتال است). ما معتقدیم تا سال ۲۰۲۰ یکسوم دادهها در جهان دیجیتالی (بیش از ۱۳ هزار هگزابایت) ارزشی در حد بزرگ دادهها خواهند یافت اما به این شرط که ابتدا دستهبندی و تحلیل شوند.
البته همه دادهها نیز الزاما برای تحلیل بزرگ دادهها مفید نیستند. اما برخی انواع دادهها هستند که برای تحلیل بسیار مناسبند، مثل:
تصاویر ویدئویی امنیتی: عموما، متادادههای کلی (تاریخ، زمان، مکان و…) به صورت خودکار به تصاویر ویدئویی پیوست میشوند. با گسترش دوربینهای مداربسته، فرصتها برای گنجاندن هوش بیشتر در آنها نیز گسترش مییابد. طوری که امروزه شاهدیم در دوربینهای پیشرفته تصاویر فورا ضبط، تحلیل و طبقهبندی میشوند.
این فرآیند میتواند باعث تسریع در روند تحقیقات جنایی شود، تحلیل الگوهای خرید (با توجه به ترافیک حضور مشتریان) را ارتقا بخشد و البته هوش نظامی را تقویت کند زیرا تصاویر برگرفته از هواپیماهای بدون سرنشین در مناطق جغرافیایی مختلف میتوانند برای گسترش تبادل اطلاعات، ارائه پاسخ فوری یا سنجش کارایی عملیات ضدشورش مورد استفاده قرار گیرند.
ابزارهای پزشکی و الحاقی: در آینده حسگرها ـ از هر نوعی از جمله آنهایی که ممکن است درون بدن انسان نصب شوند ـ اقدام به ضبط فعالیت زیستی بدن، ردیابی کارایی داروها، ارتباط بین فعالیت بدن و سلامتی، شیوع احتمالی ویروس و… خواهند کرد.
سرگرمی و رسانههای اجتماعی: گرایشات مردمی یا گروههای مختلف میتوانند منبع بسیار خوبی برای دریافت بزرگ دادهها باشند. با استفاده از این منبع میتوان بازار را یک گام بزرگ به جلو برد و برندگان و بازندگان بازار سهام را شناسایی و حتی نتایج انتخابات را پیشبینی کرد، همه این کارها بر اساس اطلاعاتی صورت میگیرند که کاربران آزادانه از طریق رسانههای اجتماعی منتشر میکنند.
تصاویر کاربران: ما با انتشار عکسهای خودمان یا فامیل و دوستانمان خیلی چیزها درباره خودمان میگوییم. یک تصویر به اندازه یک هزار کلمه حرف برای گفتن دارد اما با ظهور بزرگ دادهها این ارزش چند برابر شده است. کلید اصلی در کار با این تصاویر ارائه الگوریتمهای طبقهبندی پیچیدهای است که میتوانند آنها را در زمانی کوتاه ضبط و تحلیل یا آپلود کنند یا حتی بعد از آنکه از وبسایتهای مختلف جمعآوری شدند ذخیره و طبقهبندی کنند.
البته همه این کارها فراتر از تبادل عادی دادههایی است که بین رایانههای شرکتهای بزرگ صورت میگیرد.
امروزه ما معتقدیم که ۲۳ درصد اطلاعات در جهان دیجیتال (یا ۶۴۳ هگزابایت) برای تبدیل شدن به بزرگ دادهها مفیدند با این شرط که طبقهبندی و تحلیل شوند. اما فناروی هنوز راه درازی را تا رسیدن به هدف اصلی خود در پیش دارد و در عمل ما معتقدیم که تاکنون فقط سه درصد دادهها طبقهبندی و مقدار کمتری تحلیل شدهاند.
این وضع را میتوان شکاف بزرگ دادهها نامید. هنوز دادههای فراوانی هستند که بررسی نشدهاند و دستاندرکاران جهان دیجیتالی هنوز آنها را کشف و تحلیل نکردهاند. در اینجا یک خبر خوب داریم و یک خبر بد. خبر بد اینکه رسیدن به هدف مستلزم کاری است سخت و سرمایهگذاری کلان. اما خبر خوب اینکه با گسترش جهان دیجیتالی، مقدار بزرگ دادههای آن نیز گسترش مییابد