البيانات الضخمة وعلم البيانات: بين الخرافة والواقع


ترجمة: بشرى محمد القاضي

تدقيق: شروق السنان

 التصنيف : علم البيانات (عام)

اكتسبت البيانات الضخمة أهمية كبرى في الآونة الأخيرة، ولعبت دوراً هاماً في العديد من القطاعات والمجالات لاسيما فيما يتعلق باتخاذ القرارات. ونتيجة لذلك الأثر خصوصاً على الناحية الاقتصادية، انجذب الكثيرون لهذا المصطلح الرنان والتوجه الجديد لدراسة البيانات، فأصبح مُتداولاً من قبل المختصين ومن ليس لديهم خلفية تقنية على حدٍ سواء. وبالرغم من هذا الاندفاع في استخدام مصطلح البيانات الضخمة وقضاء الوقت في تحليلها إلا أن البعض أساء فهمه واستخدامه كما يجب، فشمولية المصطلح جعلت من السهل استخدامه في غير محله واستغلاله بما يخدم أغراض وأهداف معينة. 

تناقش هذه المقالة الشيقة ذلك اللبس الحاصل في استخدام البيانات الضخمة أو كما أطلق عليها الكاتب الخرافات الأكثر شيوعاً. 

أولاً: الحجم هو كل ما يهم 

ليس من المستغرب أن يربط الكثير من الأشخاص البيانات الضخمة بعامل الحجم فقط فكلمة “ضخمة” بديهياً تشير إلى الحجم بكل تأكيد ويعتبر مقياساً سهلاً وواضحاً بعكس بقية العوامل التي يغفل عنها الكثيرون عند الحديث عن البيانات. قد يتوارد للذهن أن ذلك لا يشمل علماء الحاسب والمتخصصين لكن لسوء الحظ فالحجم أداة سهلة وسريعة لتصنيف البيانات إلى ضخمة وغير ضخمة فمن السهل حساب عدد وحدات البايت في مخازن البيانات، ومن السهل أيضاً عرض سلسلة من هذه القياسات على رسم بياني يوضح مقدار النمو. كل ذلك، إضافة لأسباب اقتصادية، جعل “الحجم” المقياس الأهم والوحيد لنتأكد أن لدينا بيانات ضخمة تستحق الدراسة والحديث عنها. فهل حقاً عامل الحجم يستحق أن يحظى بهذا الاهتمام دون غيره؟ 

قبل عدة سنوات اقترحت مجموعة جارتنر نظرية “3Vs” الشهيرة لإدارة البيانات الضخمة والتي تأخذ في الاعتبار ثلاثة عوامل أساسية وهي الحجم والسرعة والتنوع (volume, velocity, and variety) حيث يشير الحجم إلى كمية البيانات، وتشير السرعة إلى سرعة معالجة البيانات بينما يشير التنوع إلى تنوع البيانات المستخرجة. في الآونة الأخيرة، تم اقتراح إضافة عامل رابع وهو صحة وموثوقية البيانات (veracity) وأعيد تسمية النظرية لتصبح “4Vs”. وبالرغم من شهرة هذه النظرية إلا أن الكثير لا يزال يتجه مباشرة لمناقشة عدد البيتابايت عند الحديث عن البيانات. 

لا ننكر أن الحجم والسرعة قد يمثلان تحدياً حقيقياً في بعض الحالات لكن التنوع وصحة البيانات يمثلان تحدياً أكثر صعوبة. أحد الأسباب التي جعلت من تنوع وصحة البيانات عوامل غير مغرية لاعتمادها عند تقييم البيانات، هو أنه لا يوجد مقياس واضح لأي منهما وبالتالي يصعب متابعة التقدم فيهما. فعلى سبيل المثال، ليس من الصعب تطوير نظام مبتكر يستطيع التعامل مع بيانات أكبر حجماً ومقارنته بالمنافسين، وذلك لسهولة الاستناد على قياسات واضحة لمقارنة حجم البيانات مع المنافسين. لكن في المقابل لن يكون الأمر بهذه السهولة عند الحديث عن عامل التنوع في البيانات حيث يجب التفكير جيدًا في كيفية قياس هذا النموذج بالمقارنة مع المنافسين دون أن يبدو هذا النظام وسيلة للتسويق لا أكثر. وكما هو الحال مع عامل تنوع البيانات، فإن موثوقية البيانات تشكل تحدياً آخر، ونادراً ما تكون معالجة موثوقية البيانات وصحتها أسهل بل كلاهما يشكلان تحدياً لكن ذلك لا يلغي أهميتها وقد حان الوقت ليكون حديثنا عن البيانات الضخمة أكثر عدلاً وشمولية. 

ثانياً: يعد ابتكار بنى تحتية وخوارزميات جديدة التحدي الرئيسي في البيانات الضخمة

على الرغم من معرفتنا بنظرية العوامل الأربعة “4Vs” إلا أننا لا زلنا كثيراً ما نتساءل بشأن المعيار الذي يحدد ضخامة البيانات من عدمها. بالنسبة للتنوع وموثوقية البيانات نعلم أن هذا ليس سؤالاً قابلاً للإجابة، لغياب المقاييس الواضحة في المقام الأول. أما من ناحية الحجم والسرعة نجد أن المعيار لضخامة البيانات عند أغلب الناس يتوقع على ما نستطيع التعامل معه من الناحية التقنية. من الواضح أن هذا المعيار متغير لاعتماده على ما نملك من إمكانيات وخوارزميات حديثة وذلك قد يحد من حجم السوق. بناء على ذلك فمعيار ضخامة البيانات من وجهة نظر الكاتب هو أكثر مما نعرف ونفهم نحن كبشر، فالسياق هو ما يحدد هل لدينا بيانات ضخمة أم لا. قد تبدو بعض البيانات مفهومة وبسيطة من أول نظرة لكن معالجة العدد الهائل منها قد يخفي العديد من التحديات والتعقيدات سواء ما يخص التصميم أو الروابط بين العناصر. إنّ تجاوز هذه التحديات بحد ذاته يجعل منها بيانات ضخمة. 

قد نستطيع شراء أنظمة أحدث، ومعالج أسرع، وأقراص أكبر، لكن القدرة البشرية لا تتطور بنفس السرعة. تشكل البيانات الضخمة تحدياً هائلاً للتفاعل البشري. ومن الجيد أن نرى عدد من الدراسات الحالية المثيرة للاهتمام في مجال البيانات الضخمة تعمل على تسهيل هذا التفاعل البشري. 

ثالثاً: معالجة البيانات الضخمة تتمركز حول تحليلها 

يتصور العديد من الأشخاص نظام البيانات الضخمة كبرنامج سحري يأخذ البيانات كمدخلات وينتج لنا استنتاجات ورؤى عميقة كمخرجات. وقد يناسب هذا التصور بعض الشركات والباحثين كأسلوب تسويقي للعمل الذي يقومون به. لكن كمختصين ندرك تماماً أن معالجة البيانات الضخمة لا تقتصر على خوارزميات تعلم الآلة فقط بل تحمل في طياتها الكثير من القرارات والتحديات لكي نحصل على نتائج واقعية ومرضية. 

تبدأ هذه السلسلة من القرارات في مرحلة مبكرة من المشروع أولها تحديد نوع البيانات التي تنوي جمعها وتسجيلها وكيفية الاستفادة المثلى من البيانات غير المثالية. يليها اتخاذ قرارات لتمثيل البيانات بطريقة مناسبة للتحليل وذلك بعد استخراجها وتنظيفها ودمجها مع المصادر الأخرى. حتى مرحلة التحليل، والتي لقيت اهتماماً كبيراً، لا تخلو من التفكير واتخاذ القرارات التي قد يصعب على البعض استيعابها. وأخيراً ربما تكون مرحلة فهم النتائج وتفسيرها هي الأكثر أهمية فمنها تنطلق قرارات التغيير والتطوير. لذلك حتى نلمس أثر التغيير ونضيف قيمة حقيقية يجب أن نفهم ونثق في النتائج التي تم الحصول عليها أولاً فغياب ذلك قد تدفع ثمنه لاحقاً. 

رابعاً: إعادة استخدام البيانات حل سهل ويوفر الكثير 

غالباً ما يكون لدينا بيانات تم جمعها سابقاً لغرض ما وقد تبدو إعادة استخدامها لغرض آخر خيار مغري للتخلص من تكاليف جمع البيانات مرة أخرى. في الواقع قد يكون من غير الممكن تجنب إعادة الاستخدام في بعض الحالات خصوصاً ما يتعلق بالبيانات التاريخية والتي لا يمكن العودة بالزمن لجمعها مرة أخرى. في حين أنها قد تكون فرصة مقنعة، إلا أن استغلالها يتطلب منا الانتباه لأمور عدة قبل اتخاذ القرار بإعادة الاستخدام. أولها مدى توافق البيانات مع غرض البحث أو المشروع الحالي ومن المهم كذلك تواجد النسخة الأصلية من البيانات وقت إعادة الاستخدام والأخذ بالاعتبار مدى الترابط والعلاقة بينها. يجب أيضاً فهم البيانات جيداً حتى يمكن إعادة استخدامها، والذي عادة يتطلب بيانات وصفية كافية أو ما تسمى (metadata)، والتي يغفل المسؤول عن جمع البيانات عن إرفاقها في المقام الأول. وذلك يشمل معرفة تحت أي ظروف تم الحصول على البيانات، وباستخدام أي الأدوات، وأساس اختيار العينة. كل هذه المعطيات ستعرف من خلالها مدى ملاءمة تلك البيانات لمشروعك. إضافة لما سبق غالباً ما تكون البيانات التي تم جمعها سابقاً غير متوافقة مع الاستخدام الحالي من حيث التمثيل والنوعية. قد يسهل تحويلها ومعالجتها أحياناً لكن يظل بعضها يعاني مشاكل جوهرية. باختصار إعادة استخدام البيانات أمر حاسم ومجاله واعد ولكنه يطرح العديد من الأسئلة الصعبة والتي تم الالتفات لها مؤخراً. 

خامساً: علم البيانات هو نفسه البيانات الضخمة 

إن القدرة على جمع وتحليل كميات هائلة من البيانات أحدثت ثورة في طريقة إجراء البحث العلمي والتطوير. ويستخدم مصطلحي علم البيانات والبيانات الضخمة بطريقة تبادلية لدى كثير من الناس بسبب التداخل الحاصل بينهما. لكن التركيز على منطقة التقاطع بينهما وأوجه الشبه سيحد بلا شك من إمكانيات كل منهما والقيمة التي تضيفها. أبسط اختلاف بينهما يكمن في المنظور، فالبيانات الضخمة تركز على معالجة خصائص البيانات وإدارتها وتبدأ عملها من هناك في حين أن علم البيانات يركز على استخدام البيانات واستخراج الفائدة منها ولا يتطلب خبرة عميقة فيما يتعلق بتخزين البيانات وإدارتها. يُستخدم علم البيانات لوصف الظواهر الطبيعية والاجتماعية وتفسيرها والتنبؤ بها من خلال تطوير أساليب لتصنيفها وتحليلها. نقطة أخرى جديرة بالملاحظة هو أنه من الممكن القيام بعلوم البيانات دون استخدام البيانات الضخمة، والعكس صحيح. وبالطبع لا شيء يمنع علم البيانات من استخدام البيانات الضخمة، بل في الواقع يحدث ذلك كثيراً لكن ينبغي أن يحافظ كل منهما على معناه والهدف منه.  

سادساً: البيانات الضخمة ضجة مؤقتة 

كان تحليل البيانات موجودًا منذ فترة طويلة، وقواعد البيانات أيضاً. إذن ما الذي تغير؟ لماذا مُنحت البيانات الضخمة اهتماماً خاصاً في هذا الوقت بالذات؟ هل هو مجرد ضجيج عابر أم أن خلفه أسباب معينة أثارته؟  

بالنظر إلى الاهتمام الكبير الذي يولى للبيانات الضخمة، ليس بالمستغرب أن تتبادر للأذهان هذه الأسئلة. لكن لو أمعنا التفكير لوجدنا أن جمع البيانات وتخزينها أصبح اليوم أقل تكلفة بصورة لم تكن مألوفة من قبل، بفضل التطور التقني الذي نعيشه، وأتمتة العمليات التجارية، وشبكة الإنترنت، وانخفاض أسعار الوسائط. نتيجة لذلك أصبحت أغلب المجالات غنية بالبيانات فاتجه التركيز لاستغلالها واكتشاف إمكانياتها. 

في نفس الوقت بدأنا تدريجياً ندرك بعض العواقب للبيانات الضخمة، وانكشف الستار عن خصوصية البيانات وأخلاقيات تحليلها. الأخطاء والتجاوزات من هذه الناحية قد تؤدي إلى تقليص إمكانياتها ولكن باستثناء ذلك تظل البيانات الضخمة مادة دسمة وغنية وجديرة بالاهتمام. 

Paper Title:

Jagadish, H. V. (2015). Big data and science: Myths and reality. Big Data Research, 2(2), 49-52.‏