استخدام البيانات الضخمة في الشبكات الاجتماعية (تجربة لينكدإن)

ترجمة: أثير الحارثي

مدخل

تعتبر لينكدإن أكبر شبكة مهنيّة عبر الإنترنت في العالم ، حيث تضم أكثر من 410 مليون عضو في أكثر من 200 دولة. بذلك يربط موقع لينكدإن المهنيين من خلال تمكينهم من بناء شبكة علاقات ضخمة من خلال الكثير من العوامل مثل الاهتمامات المشتركة وغير ذلك. 

في عام 2003 تم أطلق موقع لينكد إن بواسطة Reid Hoffman ، مما يجعله أحد أقدم شبكات التواصل الاجتماعي في العالم.

ما هي المشكلة التي تساعد البيانات الضخمة في حلها؟

أصبحت المنافسة بين الشبكات الاجتماعية أكثر شراسة من أي وقت مضى وما هو أكثر تفاعل وجاذبية في عام ما ، قد لا يكون في العام التالي. إذا ً، يتعين على لينكدإن التأكد من أن موقعهم يظل أداة أساسية للمهنيين المشغولين ، ومساعدتهم على أن يصبحوا أكثر إنتاجية ونجاحا ً ، سواء كانوا يستخدمون الخدمة المميزة (المدفوعة) أو الخدمة المجانية. 

على هذا النحو تعد البيانات الضخمة في صميم عمليات لينكدإن واتخاذ القرارات الاستراتيجية فيها ، مما يساعدهم على تقديم أفضل خدمة ممكنة لملايين أعضاء الموقع.

كيف استخدمت البيانات الضخمة؟

يتتبع لينكد إن كل حركة يقوم بها المستخدمون على الموقع: كل نقرة ، كل مشاهدة صفحة ، كل تفاعل مع 410 مليون عضو ، يعد هذا عددًا هائلاً من الأحداث التي يجب معالجتها كل يوم. بذلك يقوم علماء البيانات والباحثون في لينكدإن بتحليل هذا الكم الهائل من البيانات للمساعدة في اتخاذ القرار وتصميم المنتجات والميزات المدعومة بالبيانات. 

يمكننا تأليف كتاب كامل حول الطرق العديدة التي يستخدمها لينكدإن لإستخدام البيانات الضخمة ، ولكن الهدف من هذه المقالة هو إلقاء نظرة على بعض الأمثلة الرئيسية.

مثل الكثير من شبكات التواصل الاجتماعي الأخرى يستخدم لينكدإن البيانات لتقديم اقتراحات لمستخدميها، مثل “أشخاص قد تعرفهم”. فإن هذه الاقتراحات تستند إلى عدد من العوامل ، على سبيل المثال: إذا نقرت على الملف الشخصي لشخص ما (في هذه الحالة ، من المحتمل جدا ً أن نفترض أنك قد تعرفه ، أو تعرف شخصا ً آخر بهذا الاسم) ، أو إذا كنت تعمل في نفس الشركة خلال نفس الفترة.  أيضاً نظرا ً لأنه يمكن للمستخدمين تحميل جهات اتصال البريد الإلكتروني الخاصة بهم، يستخدم لينكدإن هذه المعلومات لتقديم اقتراحات – ليس فقط من أجل الأشخاص الذين قد تعرفهم على الموقع ولكن أيضاً للأشخاص الذين في جهات اتصالك قد تعرف عنهم عند انضمامهم إلى الموقع. كذلك، يمكن لـ لينكدإن أيضا ً سحب بيانات حول المستخدمين من مواقع أخرى ، مثل تويتر ، لتقديم المزيد من الإقتراحات.

بالإضافة إلى ذلك، يستخدم لينكدإن تقنيات التعلم الآلي لتحسين الخوارزميات وتقديم اقتراحات أفضل للمستخدمين. لنفترض ، على سبيل المثال ، أن لينكدإن قدم لك بشكل منتظم اقتراحات للأشخاص الذين قد تعرفهم و يعملون في الشركة “أ” (التي عملت بها قبل ثماني سنوات) والشركة “ب” (التي كنت تعمل فيها قبل عامين).

 إذا لم تنقر أبدا ً على الملفات الشخصية للأشخاص من الشركة “أ” ولكنك تتحقق بانتظام من الاقتراحات الواردة من الشركة “ب” ، فسيقوم لينكدإن بإعطاء الأولوية للشركة “ب” في اقتراحاتهم من الآن فصاعدا ً. يمكّن هذا النهج المخصص للمستخدمين من بناء الشبكات التي تعمل بشكل أفضل بالنسبة لهم.

إحدى الميزات التي تميز لينكدإن عن منصات وسائل التواصل الاجتماعي الأخرى مثل فيسبوك هي الطريقة التي تتيح لك معرفة من شاهد ملفك الشخصي. 

وقد حصلت هذه الميزة مؤخرا ً على تفاصيل أكثر بكثير: بينما اعتدت أن تكون قادرا ً على رؤية عدد الأشخاص الذين شاهدوا ملفك الشخصي ومن هم أحدث المشاهدين ، يمكنك الآن أيضا ً معرفة المناطق والصناعات التي ينتمي إليها هؤلاء المشاهدون ، والشركات التي يعملون فيها وما هي الكلمات الرئيسية (إن وجدت) التي جلبتهم إلى ملفك الشخصي. 

تساعد هذه الأفكار ، التي أتاحتها البيانات الضخمة ، المستخدمين على زيادة فعاليتهم على الموقع.

تستخدم  لينكدإن تقنية معالجة التدفق لضمان عرض أحدث المعلومات عندما يكون المستخدمون على الموقع – بدءا ً من المعلومات المتعلقة بمن انضم إلى الموقع ومن حصل على وظيفة جديدة وحتى المقالات المفيدة التي نالت إعجاب جهات الاتصال أو تمت مشاركتها من قبلهم. باختصار ، يقوم الموقع بجمع بيانات جديدة وعرضها باستمرار للمستخدمين. فهو لا يجعل هذا التدفق المستمر للبيانات الموقع أكثر تشويقا ً للمستخدمين فحسب ، بل إنه يسرع أيضا ً من عملية التحليل. 

تقليديا ، كانت الشركة تلتقط البيانات وتخزنها في قاعدة بيانات أو مستودع بيانات لتحليلها في وقت لاحق. ولكن باستخدام تقنية معالجة التدفق الفورية ، فإن  لينكدإن لديها القدرة على “دفق” البيانات مباشرة من المصدر (مثل نشاط المستخدم) وتحليلها أثناء التنقل.

أخيرا ً، دعونا لا ننسى أن لينكدإن بحاجة إلى زيادة الإيرادات، ويقومون بذلك من خلال خدمات التوظيف والعضوية المدفوعة والإعلانات. إذ تلعب البيانات الضخمة دورا ً في زيادة الإيرادات وكذلك في تحسين تجربة المستخدم. على سبيل المثال، في الإعلانات – التي تمثل 20-25٪ من الإيرادات السنوية لـ لينكدإن – يعمل المحللون مع فريق مبيعات لينكدإن لفهم سبب نقر الأعضاء على إعلانات معينة وليس على إعلانات أخرى. يتم إرسال هذه الأفكار بعد ذلك إلى المعلنين لجعل إعلاناتهم أكثر فعالية.

ماهي أبرز النتائج؟

تشمل مقاييس نجاح لينكدإن الإيرادات وعدد الأعضاء، وكلاهما يواصل في الارتفاع عاما ً بعد عام. و اكتسب موقع لينكدإن 40 مليون عضو جديد في النصف الأول من عام 2015 ، وفي وقت كتابة هذا التقرير ، بلغت الإيرادات الفصلية الأخيرة للشركة أكثر من 700 مليون دولار (ارتفاعا ً من بعد أن كان حوالي 640 دولارا ً في الربع السابق). 

ليس هناك شك في أن البيانات الضخمة تلعب دورا ً كبيرا ً في استمرار نجاح الشركة.

ما هي البيانات التي تم استخدامها؟ 

يتتبع لينكدإن كل حركة يقوم بها المستخدمون على الموقع ، بدءًا من كل شيء يتم الإعجاب به ومشاركته إلى كل وظيفة يتم النقر عليها وكل رسالة يتم إرسالها إلى جهة الاتصال.تخدم الشركة عشرات الآلاف من صفحات الويب في كل ثانية في اليوم.  تتضمن كل هذه الطلبات جلب البيانات من أنظمة الواجهة الخلفية في لينكدإن ، والتي بدورها تتعامل مع ملايين الاستفسارات في الثانية. بعد الحصول على الإذن، يجمع لينكدإن بيانات حول جهات اتصال البريد الإلكتروني للمستخدمين.

ما هي أبرز التقنيات المستخدمة؟

يشكل Hadoop جوهر البنية التحتية للبيانات الضخمة في لينكدإن ، ويتم استخدامه لكل من الاستعلامات المخصصة وتحليل تدفق البيانات. بذلك تمتلك الشركة استثمارا ً كبيرا ً في Hadoop ،بالإضافة إلى بعض التقنيات الأخرى في بانوراما البيانات الضخمة على لينكدإن مثل:

Oracle , Pig , Hive , Kafka , Java , MySQL. 

تعد مراكز البيانات المتعددة مهمة بشكل لا يصدق لـ لينكدإن ، من أجل ضمان الإتاحة العالية وتجنب نقطة واحدة من الفشل. اليوم يعمل لينكدإن من ثلاثة مراكز بيانات رئيسية. كما طورت لينكد إن أيضا ً أدوات مفتوحة المصدر خاصة بها للوصول إلى البيانات الضخمة وتحليلاتها. 

بدأ Kafka حياته بهذه الطريقة ، وتشمل التطورات الأخرى Voldemort و Espresso (لتخزين البيانات) و Pinot  (للتحليلات).

 بالإضافة إلى ذلك ، تمتلك الشركة فريقا ً رائعا ً من علماء البيانات الداخليين – حوالي 150 في التقديرات الحالية. لا يعمل الفريق فقط على تحسين منتجات لينكدإن وحل المشكلات للأعضاء ، بل يقومون أيضا ً بالنشر في المؤتمرات الكبرى والمساهمة في مجتمع المصادر المفتوحة. و في الواقع ، يتم تشجيع الفريق على متابعة البحث في العديد من المجالات، بما في ذلك الإعلانات الحاسوبية والتعلم الآلي والبنية التحتية والتنقيب عن النصوص وتحليل المشاعر والأمن والبريد المزعج.

ما هي أبرز التحديات التي تم التغلب عليها؟

يمثل النمو الهائل للبيانات الضخمة أحد التحديات الواضحة التي يتعين على لينكدإن التغلب عليها باستمرار – مما يجب أن تكون الشركة الآن قادرة على التعامل مع كميات هائلة من البيانات وتحليلها وفهمها كل يوم. يتمثل الحل في الاستثمار في أنظمة قابلة للتطوير بدرجة كبيرة ، والتأكد من أن البيانات لا تزال دقيقة بما يكفي لتوفير رؤى مفيدة. يوفر Hadoop القوة الخلفية وقابلية التوسع اللازمة للتعامل مع أحجام البيانات ، وتسمح واجهة مستخدم لينكدإن لموظفيهم بتقسيم البيانات وفهمها بعدة طرق مختلفة.

من شركة كانت توظف أقل من 1000 موظف منذ خمس سنوات ، نمت لينكدإن لتوظف ما يقرب من 9000 شخص. هذا يفرض طلبا ً هائلاً على فريق التحليلات. ربما استجابةً لذلك ، أعادت لينكدإن مؤخرا ً تنظيم فريق علم البيانات الخاص به بحيث يكون جزء علم القرار (الذي يحلل استخدام البيانات ومقاييس المنتج الرئيسية) الآن تحت رئاسة المكتب المالي للشركة ، بينما جزء علم بيانات المنتج (الذي يطور ميزات لينكدإن التي تولد كميات كبيرة من البيانات للتحليل) الآن جزء من الهندسة . على هذا النحو ، أصبح علم البيانات الآن أكثر تكاملاً من أي وقت مضى في لينكدإن ، حيث أصبح المحللون أكثر توافقا ً مع وظائف الشركة.

قد يكون من المفاجئ معرفة أن توظيف الموظفين يمثل أيضا ً تحديا ً ، حتى بالنسبة لشركة عملاقة مثل لينكدإن.  أكدت Sherry Shah ، رئيسة قسم توظيف البيانات في لينكدإن ، في حديثها إلى CNBC.com أنها تبحث لتوظيف أكثر من 100 عالم بيانات في عام 2015 (زيادة بنسبة 50٪ من 2014).

ولكن المنافسة على أفضل علماء البيانات صعبة بشكل خاص في كاليفورنيا ، واعترف Shah بأن “هناك دائما ً حرب مزايدات”.  على الرغم من دخول الكثير من الأشخاص إلى هذا المجال ، فمن المحتمل أن تكون هذه الفجوة في المهارات – حيث الطلب على علماء البيانات يفوق العرض – سيستمر بضع سنوات بعد.

بالإضافة إلى ذلك ، لم يلفت لينكدإن من رد الفعل العنيف بشأن الخصوصية. في يونيو 2015 ، وافقت الشركة على دفع 13 مليون دولار لتسوية دعوى جماعية ناتجة عن إرسال دعوات متعددة عبر البريد الإلكتروني إلى قوائم الاتصال الخاصة بالمستخدمين. 

نتيجة لتلك التسوية ، ستصرح لينكدإن الآن صراحةً أن أداة “إضافة اتصالات” الخاصة بهم تستورد قوائم العناوين ، وسيسمح الموقع لأولئك الذين يستخدمون الأداة بتحديد جهات الاتصال التي ستتلقى دعوات آلية ورسائل متابعة عبر البريد الإلكتروني.

الخاتمة:

تقدم لينكدإن درسا ً لجميع الشركات حول كيف يمكن أن تؤدي البيانات الضخمة إلى نمو كبير. حول باعتبارها واحدة من أقدم شبكات التواصل الاجتماعي ولا تزال قوية حتى الآن،  في إن قدرتهم على تقديم الاقتراحات والتوصيات للمستخدمين أمر يُحسدون عليه بشكل خاص (ويتم استخدامه أيضا ً بنجاح من قبل الشركات الأخرى الواردة في هذا القطاع ، مثل شركة إتسي وشركة إير بي إن بي). 

لكن لينكد إن تقدم أيضا ً مثالاً على الحاجة إلى الشفافية عند استخدام بيانات الأفراد – وردود الفعل العكسية التي يمكن أن تحدث عندما يشعر الناس أن الشركة لا تتمتع بالشفافية بشكل كاف. 

أعتقد أنه يمكننا توقع رؤية المزيد من الدعاوى القضائية المشابهة ضد الشركات في المستقبل ، لذلك من المهم أن تكون واضحا ً تماما ً مع عملائك بشأن البيانات التي تجمعها وكيف تنوي استخدامها.

المصدر:

https://engineering.linkedin.com/big-data

https://engineering.linkedin.com/architecture/brief-history-scaling

http://www.cnbc.com/2015/06/04/big-data-is-creating-big-career-

opportunites.html

LinkedIn had one of the first data science teams. Now it’s breaking up the band

http://www.mediapost.com/publications/article/251911/linkedin-to-

pay-13-million-to-settle-battle-over.html