د. ماجد سعيد السرحي - حاصل على درجة الدكتوراه في فيزياء الجسيمات الأولية النظرية من جامعة ليفربول، ويعمل في مجال النظم الإلكترونية وتطوير الأشياء المرتبطة بالإنترنت، ومهتم بالفلسفة والأسس الرياضية للعلوم

البيانات الضخمة ونظرية المعرفة

أطلّ علينا التحدي المعرفي في عصر البيانات الضخمة إطلالةً مثيرةً ساحرةً تجعلنا نقف ننظر بدهشة إلى نتائج تحليل تلك البيانات، ونلتفت إلى الوراء لننظر إلى طرائق البحث العلمي التقليدية ونتفقّدها ونسأل: هل اكتشفنا مصدراً جديداً للمعرفة؟ وما مدى صواب هذه المعرفة؟

أظن أن السؤال الرئيس الذي يشغل عقول العلميين هو: هل تستطيع البيانات الضخمة أن تنتج لنا نظريات جديدة أو تنقض نظريات أساسية موجودة تغيّر من فهمنا لعالمنا؛ لتنتج تقنيات أكثر تطوراً بصورة ثورية؟

في هذا المقال سأقوم بعرض طرائق استنباط المعرفة التقليدية وتفنيدها، وطريقة التجريبين، وطريقة استحدثت لتردم الهوة بينهما سُمَّيت (العلوم الموجّهة بالبيانات Data Driven Sciences)، وكذلك تفنيد ادعاء أننا لم نعُدْ نحتاج إلى نظرية كي نستنبط المعرفة في وجود البيانات الضخمة؛ فبينما يفرك التجريبيون أكفّهم فرحاً أن أهدتهم التكنولوجيا برهاناً جديداً على أحقية نظريتهم بالاتباع يقولون: «انتهت النظرية».

الطريقة التقليدية

بدايةً ننظر إلى الطريقة التقليدية لاستنباط المعرفة (البحث العلمي)، التي يمكن تلخيصها في الخطوات الآتية:

– تكوين سؤال له أهمية في مجال علمي ما، وعادةً ما يكون هذا السؤال نتيجة خبرة الباحث في مجاله، ومن خلال المراقبة والاستقراء للنظريات الموجودة أصلاً.

– تُنسج فرضيةٌ حول هذا السؤال، ونسعى إلى إثباتها أو نقضها.

– نجمع البيانات.

– نحلّل البيانات (التجربة).

– نُحيك استنتاجاتنا في نظرية جديدة أو امتداداً لنظرية موجودة، أو ربما نتوقف لعدم كفاية الأدلة، أو ربما النتائج تنقض الفرضية التي افترضناها(1).

هكذا يعمل التقليديون على استنباط المعرفة في زمن ما قبل البيانات الضخمة، معتمدين على بيانات قليلة جُمعت بطرائق علمية تحت شروط صارمة، كما أنها نظيفة من شواذ البيانات، والعلاقات بينها محددة، وقبل كلّ ذلك هناك سؤال محدد في البال.

الطريقة التجريبية

في المقابل، يشتغل التجريبيون على بيانات ضخمة غير ثابتة تتراكم بسرعة، وتتغيّر في كل لحظة، وتضم بيانات متنوعة بعلاقات متباينة وغير محددة، وتكثر فيها البيانات الشاذة في أغلب الأحيان، كما يعتريها قدر كبير من عدم اليقين. أما طريقة استنباط (غُلاة) التجريبين للمعرفة، فيعتمد على التحليل بخوارزميات ونماذج رياضية لا تخضع لشروط نظرية محددة يقتضيها مجال البحث، وكذلك من دون وجود سؤال محدد ولا فرضية في العقل، ويقول التجريبيون: إن البيانات تتحدث عن نفسها، وتمدّنا بالمعرفة، وهكذا. وتتلخص فكرة التجريبيين في:

– يمكن للبيانات الضخمة تغطية نطاق كامل، وتوفير حلول شاملة.

– ليست هناك حاجة إلى نظرية مسبقة أو نماذج أو فرضيات للاستنباط المعرفي.

– سنجد من خلال تطبيق خوارزميات غير متحيّزة في تحليل البيانات أن البيانات تتحدث عن نفسها، وستخرج لنا علماً نلقاه منشوراً؛ فهي بطبيعتها ذات مغزى وصادقة.

– لا نحتاج إلى تدخل بشري خبير في مجال معين ليُفهمنا النتائج؛ فهي ميسّرة لأيّ شخص(2).

إذاً، النتيجة هنا هو حذف الخطوتين الأولى والثانية من الطريقة التقليدية، اللتين تحتويان على النظرية والخبرة في مجال العلم. وهنا طاف بي سؤال: هل هناك علاقة بين (تجريبيي البيانات الضخمة) والفلاسفة التجريبيين؟ بالطبع أنا لم أنحت مصطلح (التجريبيين) في مجال البيانات الضخمة؛ لأنه موجود في بعض أوراق البحث التي اطّلعت عليها. يقول التجريبيون الفلاسفة: إننا نُولد صفحةً بيضاء لا نعلم شيئاً، وتعلّمنا التجربة فقط. ويقول العقلانيون الفلاسفة: إننا نُولد بمعلومات أساسية مغروسة فينا، ونستطيع إنتاج المعرفة بالعقل فقط. وأورد هنا مقولة لكريس أندرسون -رئيس تحرير مجلة وايرد Wired magazine– وهو ممّن يدفعون في هذا الاتجاه، ويقولون بـ(موت النظرية): «لا داعي للبحث في العلاقات السببية causations، وإنما يكفي أن نكتشف وجود علاقات correlations، والحقيقة أن العلوم لا تحتاج إلى نظريات موحّدة ومتماسكة كي تتقدّم»(3)؛ ففي متجر أمازون الإلكتروني مثلاً، الذي يعتمد أساساً على تحليل بيانات ضخمة بتطبيق نماذج رياضية تكتشف الأنماط فيها، يقوم نظام التوصية فيه على أساس اكتشاف أنماط الشراء السابقة لك ولأشخاص آخرين قاموا بشراء كتب مشابهة، ولا يحاول الدخول أبداً في فهم ثقافة القارئ، ولا معرفة من أيّ حضارة هو(4).

تجربة شخصية

ومن تجربة شخصية، ومن خلال مشاركتي في دورة تعليمية من خلال جامعة إم آي تي MIT بعنوان: (البيانات الضخمة والتحليل الاجتماعي Big Data & Social Analytics)، أُجريت تجربتان: الأولى في مدينة سويسرية، وبتحليل بيانات تحديد الموقع جي بي إس لبعض الأشخاص فقط استطاعت التجربة أن تتوقّع المشكلات المالية لهؤلاء الأشخاص بنسبة 50% أفضل من بنوكهم من دون النظر إلى أي من السجلات المالية لهؤلاء الأشخاص، وفي التجربة الثانية التي كانت تمريناً عملياً أُعطينا بيانات الجي بي إس لشخص ما لا نعرف اسمه ولا رسمه، وقيل لنا: استنبطوا منها معرفة ما، فاستطعنا من هذه البيانات البسيطة أن نحدّد أنه طالب، ويدرس في جامعة حدّدنا موقعها، وبالطبع اسمها، وكذلك مركز التسوق الذي يتردّد إليه، وكذلك زيارته أقرباءه/ أصدقاءه في مدينة مجاورة في عطلة نهاية الأسبوع، وكذلك مكان قضائه أوقات التسلية.

اكتسبت هذه الطريقة رواجاً كبيراً خارج الأروقة الأكاديمية، خصوصاً في عالم الأعمال، ونلاحظ أن دعم رجال الأعمال يسوّغه اهتمامهم بإيجاد منتجات جديدة، وأسواق وفرص جديدة للبيع، بينما يتطلّع الأكاديميون إلى إيجاد معرفة لفهم العالم، وتفسير ظواهره. وهنا لا يجدر بأيّ باحث غير متحيّز أن يهمل أو ينبهر بمثل هذه النتائج، ويتركها أو يقبلها من دون تمحيص وتفنيد؛ ليتبيّن الناس إن كانت نتائجهم خداع (حواس ديكارت) الباطلة سحروا بها أعين الناس أم أنها حقيقة فيتبع الناس، ويسلّموا بنتائج طريقتهم في العلم الجديد. ربما يقول بعضهم: إن هذه معرفة دون معرفة، ولهم حقّ في ذلك؛ فالمعرفة هنا لا ترقى إلى معرفة تزيد من فهمنا عالمنا على المستوى العميق للمعرفة؛ إذ يجادل آخرون فيقولون: هذا الشخص جزءٌ من هذا العالم الذي نحاول تعرّفه، وتفاعله معه يضيف شيئاً ما -ولو يسيراً- من المعرفة، وبذلك نكون أيضاً في الطريق إلى المعرفة العميقة التي نصبو إليها، خصوصاً إذا استطعنا تجميع عدد أكبر منها.

عوار في مقاربة التجريبيين للبيانات الضخمة

لكن بتمحيص أكثر يمكننا اكتشاف عوارٌ في مقاربة التجريبيين للبيانات الضخمة في خطواتها السابقة كالآتي:

• صحيح أن البيانات ضخمة، وتغطّي مساحةً واسعةً، ومعلومات غزيزه لمجال البحث، لكن هذا الأمر لا يجعلها صافية غير متحيزة بسبب التكنولوجيا التي جُمعت بها؛ فهذه البيانات لم تُجمع بطريقة طبيعية وموضوعية لكي تؤخذ كما هي؛ فهي نتاج تفاعل معقّد مع الآلات التي تجمعها.

• عمليات تحليل البيانات لا تحصل في فراغ علمي؛ فالنماذج والخوارزميات المستخدمة في التحليل أتت من خلال بحث علمي محكم، وأُسّست في الأغلب على أساس نظرية ما، وربما توهمنا بعض الخوارزميات ونماذج التحليل بأنها تعطي نتائج من دون سؤال يطرح، لكن بالتعمق قليلاً نجد أن لها أصلاً في نظرية ما بدأت بسؤال في الأغلب.

• القول بأن البيانات تتحدث عن نفسها قول غير صحيح؛ فالبيانات تحتاج دائماً إلى تدخّل إنساني لا يخلو من التحيّز، إما بتفسير حدسي ركيك، وإما بتفسير على أساس فكرٍ متين، كما أن اكتشاف أنماط العلاقات في بيانات ما قد يكون عشوائياً جداً، ولا يحمل علاقات سببية قوية بينها، والخطأ في التفسير هنا يؤدي إلى نتائج كارثية(5).

في المقابل، يقف العقلانيون تاريخاً على النقيض من هذا الطرح، ويقولون: إن العقل -والعقل فقط- هو مصدر المعرفة الموثوقة، وعلى الرغم من توزّع العقلانية إلى عدة اتجاهات فلسفية، أكثرها تشدّداً ربما يسمى (العقلانية المطلقة)، ويراها بعضهم -مثل هانز رايشنباخ- نزعة صوفية بعيدة عن الواقع؛ فالتطور العلمي يفرض على العلميين التعامل مع النظرية (العقل) والتجربة معاً؛ فلا تستطيع العلوم إلا أن تجمع بين الاثنين (حتى الآن، لكن هل يحدث شيء آخر يغيّر هذا الفهم؟ ربما)؛ لذلك ربما يكون مصطلح العقلانية العلمية هو أنسب الفلسفة لبحثنا، وهو في ثلاثة أنساق:

– النسق الأول كما في رأي بشلار؛ إذ يقول: «العقلانية العلمية تقوم على ضرورة امتلاء يقين مزدوج يجعل الواقع خاضعاً لما هو عقلي، مثلما يجعل ما هو عقلي مستخلصاً من صميم ما هو تجريبي».

– النسق الثاني الذي يقول: النسق الرياضي يعتمد نظريات خالصة تمّ التوصل إليها باستنباط منطقي، ثم تُصاغ النظرية، وتُبنى عقلياً، ودور التجربة هو المطابقة والاتباع، وهو ما نجد عليه التطور الفيزيائي في مطلع القرن الماضي: أينشتاين ورجال النظرية الكمية.

– النسق الثالث الذي يقول بضرورة الانطلاق من الملاحظة التجريبية لبناء المعرفة العلمية، وهو يناقض النسق الثاني، ويقول بهذا النسق هانز رايشنباخ، ويرى أن أيّ معرفة تتجاوز هذا المنطق تكون أقرب الى التصور منها إلى العلم(6).

العلوم الموجّهة بالبيانات

نُلاحظ هنا أن هذه الأنساق كُتبت بمعزلٍ عن العلم الجديد، وأقصد هنا (علم البيانات الضخمة)، وفي عصر مضى. ولأننا أحرار في التفلسف أجدني أميل إلى خلط النسق الأول لبشلار والنسق الثالث لرايشنباخ بتصرّف لتفسير المقاربة الآتية، التي قام بعضهم بابتكارها لاستنباط المعرفة من البيانات الضخمة انطلاقاً من قناعتهم بعوار مقاربة التجريبيين، وفي الوقت نفسه إيمانهم بما تحمله البيانات الضخمة في طياتها من معرفة جديرة بالاكتشاف، فقالوا بـ(العلوم الموجّهة بالبيانات Data Driven Sciences)، هذه المقاربة تعدّ نسخة معدّلة من الطريقة التقليدية وطريقة التجريبيين؛ فهي تعتمد النظرية (العقل) والخبرة في المجال في عملية جمع البيانات، كما تعترف بأهمية البيانات في توليد معارف جديدة، وتتحرّى توليد الفرضيات من البيانات، وليس من النظرية. العملية هنا محكومة في كلّ مراحلها بالنظريات الموجودة أصلاً في مجال ما، وليست متروكة هكذا لتتحدث البيانات عن نفسها كما يدّعي التجريبيون. إذاً هي موجّهة بالنظريات كما هي موجّهة بالبيانات. وتلخّصها الخطوات الآتية:

– نجمع بيانات في مجال ما بناءً على النظريات المثبتة.

– نحلّل البيانات (التجربة) بخوارزميات مبنية على نظريات المجال.

– ننظر إلى الأنماط والعلاقات.

– نكوّن أسئلة وفرضيات لها أهمية في المجال من خلال الأنماط والعلاقات.

– نُعيد اختبار هذه الفرضيات على بيانات ضخمة أخرى.

ما تطمح إليه هذه المقاربة هو أن تكتشف نظريات جديدة تخبرنا عن العالم، أو تنقض نظريات قائمة كانت تخبرنا عن العالم، وربما هذا الأمر لم يتحقق بعد من علوم البيانات الضخمة، لكنه هو ما يصبو إليه العلميون والفلاسفة على حدٍّ سواء.

هل هناك خلل في المنطق الرياضي يُفضي إلى خلل في الخوارزميات بشكل عام؟

المنطق الرياضي الثنائي Binary Logic هو الأساس لجميع العمليات المنطقية التي يقوم بها الحاسب الآلي، ويحتوي هذا المنطق على عمليات أساسية مكّنتنا من برمجة الحاسب الآلي؛ فهناك عملية أساسية، هي الاقتضاء Implication، وتكتب بالصيغة الرياضية: س è ص، ويُقال إن (ص) تقتضي (س)، وهذه العملية المنطقية تحمل في طياتها علاقة سببية بين (ص) و(س)، لكن هذه العلاقة احتمالية جداً، ولا يستطيع المنطق الرياضي أن يستوعبها؛ لأنه يسعى إلى الدقة المتناهية، خصوصاً أننا نريد تمثيلها بجدول الصواب والخطأ Truth Table؛ لذلك عرّف الرياضيون هذه العلاقة بالآتي:

الاقتضاء Implication=الشرط (الصواب/ الخطأ) Conditional + السببية Causation

واصطلحوا أن يُهمل جزء السببية من المعادلة أعلاه.

ويأتي السؤال هنا: هل يمكن لنا أن نقول بأن النماذج الرياضية التي نستخدمها في تحليل البيانات الضخمة، والتي نبرمجها في الحاسب الآلي، وأساسها المنطق الرياضي، ستنتج لنا علاقات سببية نستفيد منها؟ وهل هناك خلل في المنطق الرياضي يحتاج إلى معالجة قبل أن نستطيع أن نحصل على نظريات أساسية جديدة، أو ننقض نظريات قائمة تشكّل لنا ثورة في فهمنا للعالم؟

ربما تكون هناك حلول إبداعية قصّرت بعدم الاطّلاع عليها في هذا المجال، والحقيقة أنني وجدتُ أوراقاً بحثية تتحدث عناوينها عن السببية في النماذج الخوارزمية، لكنني لم أدرسها بعد.

الانتماء إلى العقلانية

الانتماء إلى العقلانية انتماء ضخم فخم، وهو انتماء إنساني بالدرجة الأولى، ويميّزنا عطره من مخلوقات الله الأخرى؛ فالتفكير هو عمل العقل الذي ربما تتوزّع مهمّاته بين المخ الذي في الجماجم، والقلوب التي في الصدور، وربما أشياء أخرى لا أعلمها، ونحن بني البشر في الحقيقة نجيد التفكير بحرفية أكثر من أيّ شيء آخر، ويجعل منا بشراً أكثر. أما التجربة، فهي عمل الجوارح، وربما الطبيعة أيضاً، وأظنّها مهمة آلية لا نُتقنها باحتراف؛ لذلك ابتكرنا الآلات لتقوم بها نيابةً عنا بصورة أدق، وإتقان أكثر، ولا أعرف إنساناً يحب أن تجرّده من عقلانيته، وتصفه بالآلية التجريبية.

اضف تعليق

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *