QA للبيانات: لماذا تحتاجها وكيفية القيام بذلك

سيكون خبراء البيانات ذوي الخبرة (علماء البيانات ومحللو البيانات ومهندسو البيانات ، وما إلى ذلك) على دراية بالقول "القمامة في الداخل ، القمامة خارج". ببساطة ، سيؤدي البحث على البيانات السيئة إلى استنتاجات سيئة. لتجنب هذا الأمر ، من الضروري أن يتعرف علماء البيانات أولاً على البيانات التي يبحثون عنها قبل القيام بأي شيء آخر.

يبدأ اكتساب معرفة عميقة بمجموعة البيانات بفهم أنه ، قبل الوصول إليها ، خضعت مجموعة البيانات بالفعل لرحلة معقدة. وبالتالي ، قبل أن يبدأوا أبحاثهم ، يجب على متخصصي البيانات فهم كل جانب من جوانب هذه الرحلة.

الخطوة الأولى في Data QA هي فهم عملية جمع البيانات. ولهذه الغاية ، تتضمن بعض الأسئلة التي يجب على العلماء طرحها أولاً:

● كيف تم جمع أو إنشاء هذه البيانات؟ ‍

هل تم إنشاؤه بواسطة نظام يقوم بتسجيل البيانات أو المسح؟ هل تم تأليفه بواسطة جهاز معين؟ إذا كان الأمر كذلك ، فهل يعمل الجهاز تلقائيًا أم يدويًا؟ هل حدثت أي أخطاء أو مشكلات أخرى مثل انتهاء مهلة النظام أثناء فترة جمع البيانات؟

● من تعامل مع البيانات حتى هذه اللحظة؟

هل قام الأشخاص الذين يديرون البيانات حتى الآن بتطبيق أي فلاتر عليها؟ هل أدخلوا أي تحيزات من خلال جمع البيانات فقط من جزء من المصادر المتاحة ذات الصلة ، أو من خلال إزالة البيانات التي قد تكون ذات صلة؟ هل هناك أي بيانات لا أراها؟

● هل تحتوي البيانات على أي فلاتر؟

قد تكون عملية جمع البيانات قد نفذت عن غير قصد بعض الفلاتر ، على سبيل المثال ، إذا لم يتم استخدام جميع طرق أو أجهزة جمع البيانات بشكل متكافئ.

ربما تمت تصفية البيانات التي تلقيتها في مرحلة سابقة من الجمع.

قبل أن يبدأوا أبحاثهم ، يجب أن يتأكد علماء البيانات من شيئين: ما إذا كانت هناك أية بيانات مفقودة ، وما إذا كانت البيانات التي يقومون بفحصها قد خضعت لأي تغييرات.

بمجرد أن يصبحوا واضحين بشأن الرحلة التي قامت بها مجموعة البيانات ، وتم الكشف عن أي فلاتر أو انحرافات ، يمكن لمحترفي البيانات البدء في تنفيذ QA للبيانات. تقدم هذه المقالة إرشادات عامة لأداء مرحلتي QA للبيانات: التحقق من صحة البيانات Apriori والتحقق من البيانات الإحصائية. يُعد إجراء خطوات ضمان الجودة للبيانات أمرًا بالغ الأهمية قبل بدء البحث. من خلال عملية قوية لضمان جودة البيانات ، يمكن لعلماء البيانات ضمان صحة المعلومات التي يبنون عليها أبحاثهم.

التحقق من صحة بيانات Apriori

يصف Apriori Data Validation عملية مراجعة جميع الحقول في البيانات وصياغة القواعد والشروط التي لا يمكن أن توجد في مجموعة بيانات يمكنك الوثوق بها.

خذ ، على سبيل المثال ، مجموعة بيانات تشير إلى التحويلات من أحد الإعلانات ، حيث تكون النقرة ضرورية حتى يحدث التحويل. يحدد هذا الشرط العلاقة بين عمود التحويل وعمود النقر. نظرًا لأن التحويل لا يمكن أن يوجد بدون نقرة ، لا يمكن أن تظهر القيمة TRUE للتحويل إلى جانب قيمة FALSE للنقرة في الصف نفسه.

يجب أن يكون محترفو البيانات قادرين على فحص مجموعة البيانات ووصف العلاقات بين الأعمدة والصفوف المختلفة بطريقة مفصلة للغاية. يجب عليهم تحديد القواعد الصارمة التي يجب أن تتبعها هذه العلاقات من أجل اعتبار البيانات جديرة بالثقة.

كمثال آخر ، ضع في اعتبارك مجموعة بيانات تحتوي على حقل للمدينة وحقل للولاية. إذا كانت مجموعة البيانات تحتوي على LA و NY مقترنين ، فهذا لا معنى له. يجب أن يحتوي حقل الولاية على ولاية ، ويجب أن تكون المدينة المشار إليها داخل حقل المدينة المرتبط موجودة بالفعل داخل تلك الولاية. لذلك يجب تحديد القاعدة وفقًا لذلك.

أمثلة على البيانات غير المنطقية.

من خلال الفحص الدقيق لمجموعة المعلومات المعروضة عليهم ، يجب أن يتمكن أخصائيو البيانات من صياغة الأسئلة والإجابات اللازمة للتحقق من أن البيانات التي يبحثون عنها يمكن الاعتماد عليها للبحث. ولكن كيف سيعرف عالم البيانات الأسئلة التي يجب طرحها؟ الجواب بسيط: أداء واجباتهم المدرسية!

مكان جيد للبدء هو النظر إلى عمود البيانات تلو الآخر والتفكير في العلاقات القائمة بين كل منهما. يجب أن ينظر علماء البيانات إلى أنه يمكن عرض العمود ككيان - جزء من البيانات موجود في مجتمع من الأعمدة الزميلة. الصف ، ككيان ، هو مجموع معلومات أعمدته وكذلك العلاقة بينهما. يحتاج محترفو البيانات إلى التأكد من أنهم يبدأون بأصغر مكون داخل هذه المجتمعات ، وهو القيمة المفردة ، ويقومون بالتصغير التدريجي وتعيين علاقته مع "الذرات" الأخرى - القيم في الأعمدة الأخرى التي تشكل معًا "جزيءًا" "هذا هو الصف نفسه.

فيما يلي بعض القواعد التي يجب مراعاتها عند إجراء التحقق من صحة بيانات Apriori:

● يجب أن يحتوي العمود على أحرف كبيرة أو صغيرة فقط

● يجب أن تكون القيمة في العمود أكبر أو أصغر من قيمة في عمود. العمود المرتبط

● لا يمكن أن يحتوي العمود على قيم أو أحرف معينة

● يجب أن يحتوي العمود على قيم ذات طول محدد

تتضمن الأسئلة التي يجب طرحها أيضًا أثناء التحقق من صحة بيانات Apriori ما يلي:

● هل هناك أي قيم مفقودة حيث لا ينبغي أن تكون هناك قيم مفقودة؟

● هل تحتوي مجموعة البيانات على جميع الحقول التي نتوقع رؤيتها في البيانات؟

● هل الطوابع الزمنية على البيانات صالحة ، وتوفير كميات متساوية من البيانات عبر نقاط زمنية مختلفة؟ إذا لم يكن الأمر كذلك ، هل يمكن تفسير هذا السلوك؟

● هل حجم القيم منطقي؟ على سبيل المثال ، إذا كان العمود يجب أن يعرض القيم بين صفر وثلاثين فقط ، فهل هناك أي قيم خارج هذا النطاق؟

● هل يحتوي الحقل على نسخ مكررة حيث لا يجب وجود نسخ مكررة؟ ‍

إن أمكن ، يجب على محترفي البيانات أيضًا مقارنة البيانات المتوفرة لديهم بالحقيقة الأساسية - المعلومات المقدمة من الملاحظة المباشرة. على سبيل المثال ، إذا كان لدى الشركة وصول مباشر إلى نظام تحديد المواقع العالمي (GPS) لجهاز المستخدم ، فيجب أن تكون الشركة قادرة على التحقق مما إذا كان هذا المستخدم قد زار موقعًا معينًا كما هو موضح في مجموعة البيانات.

إذا فشلت البيانات ، أثناء التحقق من صحة بيانات Apriori ، في أي اختبار ، فيجب على أخصائي البيانات إبلاغ مالك البيانات وحل المشكلة قبل الاعتماد على هذه البيانات في بحثهم. في حين أن هذا الظرف هو أخبار جيدة وأخبار سيئة (لا يمكن الوثوق بالبيانات ، ولكن تم اكتشاف خطأ) ، فإن فهم سبب فشل البيانات في الاختبار سيساعد في حل المزيد من المشكلات التي قد لا يتم اكتشافها بخلاف ذلك .

التحقق من صحة البيانات الإحصائية

في المرحلة الثانية من Data QA ، التحقق من صحة البيانات الإحصائية ، يجب على محترفي البيانات التحقق مما إذا كانت البيانات التي يرونها تتوافق مع ما يتوقعون رؤيته. تتضمن هذه العملية الدقيقة استجواب كل شيء. لا ينبغي لعلماء البيانات أن يأخذوا أي شيء كما هو - يجب أن يأخذوا بعين الاعتبار ، على سبيل المثال ، ما إذا كانت البيانات التي يبحثون عنها تتماشى مع حدسهم وخبرتهم ، وما إذا كانت منطقية جنبًا إلى جنب مع مجموعات البيانات الأخرى الموجودة لديهم.

في التحقق من صحة البيانات الإحصائية ، يستخدم علماء البيانات معرفتهم بالمجال ومعرفتهم بالنظام لفصل البيانات حقًا وفهم "السبب" وراء ذلك. نوصي بالبدء بكتابة الشروط التي يتوقعون العثور عليها. على سبيل المثال ، إذا كان نظامك يخدم مليون مستخدم يوميًا ، فمن المتوقع أن يكون العدد اليومي الذي تعكسه البيانات في هذا المبلغ. إذا كانت البيانات تشير إلى 100000 مستخدم فقط في شهر معين ، فهذا يشير إلى مشكلة سيتم الكشف عنها أثناء التحقق من صحة البيانات الإحصائية ولكن ليس أثناء التحقق من صحة بيانات Apriori.

تتضمن الأمثلة الإضافية للظروف التي سيتم استكشافها أثناء التحقق من صحة البيانات الإحصائية:

● الطوابع الزمنية: هل تعكس البيانات الإطار الزمني الذي ترغب في رؤيته؟ على سبيل المثال ، إذا كنت تقيس استهلاك الآيس كريم وتظهر بياناتك معلومات من الساحل الشرقي خلال أشهر الشتاء ، فقد يؤدي ذلك إلى تحريف نتائجك. بعد كل شيء ، هل سيذهب معظم الناس حقًا إلى مخروط الآيس كريم في درجة حرارة -10 درجة؟

● القيم الغريبة: هل هي حقيقية؟ لماذا توجد في البيانات؟ على سبيل المثال ، افترض أن لديك خمس آلات تسجل درجات حرارة ، حيث تسجل أربع درجات حرارة في درجة مئوية بينما تسجل الآلة الخامسة في فهرنهايت. قد تظهر بياناتك بعد ذلك "32 ، 32 ، 104 ، 33 ، 32". تشير القيمة البعيدة إلى ضرورة معالجة شيء ما في مجموعة البيانات هذه. لاحظ أنه في 99٪ من الوقت ، ستتضمن مجموعة البيانات بعض القيم البعيدة. إذا لم يكن لديك ، يجب أن تشك في نوع من المشاكل في اللعب.

● كمية البيانات: هل يعقل؟ هل يتطابق عدد الصفوف والمستخدمين الفريدين والمدن وما إلى ذلك مع ما تتوقع العثور عليه؟ بمعنى آخر ، يجب أن تعكس نسبة البيانات التي يتم رؤيتها في المدن المختلفة السكان المختلفين في تلك المدن. إذا كانت المدينة ممثلة تمثيلًا زائدًا أو ناقصًا ، فهل يمكنك حساب ما هو ذلك؟

عدد المستخدمين في شيكاغو أكبر بكثير من المدن الأخرى ، بالنسبة لحجمهم.

كما ذكرنا ، يتطلب التحقق من صحة البيانات الإحصائية معرفة المجال وكذلك معرفة النظام. يمكن أن تكشف معرفة المجال ، على سبيل المثال ، ما إذا كانت كمية زناد المستخدم لإطار زمني محدد يتم الإشارة إليه في مجموعة البيانات تقع بالفعل ضمن النطاق الطبيعي أو المتوقع. كمثال آخر ، إذا كنت شركة إعلانية ، يجب أن تعرف الرقم المخصص لعدد الإعلانات التي عرضتها. إذا كنت ترى بيانات من آلاف الناشرين فقط ولكنك تعلم أنه يجب أن ترى بيانات من مئات الملايين ، فهناك خطأ في البيانات.

كيف يجب التعامل مع نتائج اختبار التحقق من الصحة؟

إن فهم ما هو متوقع أمر بالغ الأهمية للتحقق من صحة البيانات الإحصائية. حساب الإحصائيات الوصفية لعمود ما دون أن يكون لديك بعض الحدس فيما تتوقع أن تجده قد يقودك إلى التحيز المعروف لتبرير كل ما ستجده. هذا ليس النهج الصحيح. من الناحية المثالية ، سيكون لدى محترف البيانات فكرة عما يتوقعون العثور عليه ، ويجب أن تتماشى مجموعة البيانات مع هذا التوقع. إذا لم يحدث ذلك ، يجب أن تكون فضوليًا بشأن التباين ؛ هل هو موجود لأن توقعاتك كانت متوقفة ، أو هل اكتشفت شيئًا معيبًا في البيانات؟

من المهم أيضًا فهم عدد الصفوف التي تحتوي على بيانات إشكالية. إذا كان هناك عدد قليل من هذه الصفوف ، فقد لا يستحق النظر في هذه الأخطاء وتصحيحها ، نظرًا لأن هذه كمية صغيرة نسبيًا من البيانات. من الشائع إيجاد مشاكل في البيانات ؛ عدم العثور على أي شيء يكاد يكون مستحيلاً.

على وجه التحديد ، إذا كانت البيانات تبدو مثالية ، فمن الحكمة الشك في نوع من المشاكل. إذا لم يكن هناك أي بيانات و / أو قيم فارغة على الإطلاق ، يجب عليك التحقق مما إذا كانت البيانات قد تم تنظيفها في مرحلة سابقة. قد تكون عملية التنظيف هذه قد أضافت ضوضاء وتحيزات غير مرغوب فيها إلى البيانات.

خاتمة

عند تنفيذ عملية ضمان الجودة للبيانات التي حددناها هنا ، ستندهش بعدد الأخطاء الموجودة في عملية كتابة البيانات التي لم تلاحظها أبدًا. هذه الأخطاء هي سبب فشل العديد من الأشخاص في تحقيق النتائج ؛ ليس بسبب اختيار النموذج السيئ أو هندسة الميزات السيئة. لأنه تم التغاضي عن العملية الهامة لضمان جودة البيانات.

لكن حقيقة الأمر هي ، في حين أن Data QA مهمة جدًا ، فهي أيضًا مملة وتستغرق وقتًا وعرضة للخطأ. من السهل نسيان طرح الأسئلة ذات الصلة وبالتالي تفويت التفاصيل ذات الصلة.

حتى في الحالات التي تجد فيها بياناتك متحيزة وتحتوي على أخطاء ، فهذا لا يعني أنه لا يمكن استخدامها. هذا يعني أنه يجب أن يكون محترف البيانات على دراية بالتحيزات والأخطاء وأن يفهم أن نتائج البحث ذات صلة فقط بالسياق الذي تم فيه إجراء البحث. على سبيل المثال ، إذا تم إجراء مرشح مبكر وكانت البيانات المتبقية من بلد معين ، فإن نتائج الدراسة ستكون ذات صلة فقط بهذا البلد واستنباط ما هو صحيح في بلدان أخرى فإنه ليس من الممكن بالضرورة مع مجموعة البيانات المحددة.

ستكون نتائج دراسة تستند إلى بيانات من بلد واحد ذات صلة فقط بهذا البلد.

في ضوء كل العمل والمجهول المتضمن في Data QAing ، قمنا بتطوير أداة تعمل على أتمتة معظم العمل نيابة عنك. نحن نأخذ البيانات على محمل الجد ، وتزيل أداتنا إمكانية أن يستند أي بحث إلى بيانات سيئة. تقوم أداة Data QA بفحص كل مجموعة بيانات وتقرير جميع الأخطاء التي تكشفها. من خلال هذا ، يمكننا التأكد من أننا نتجنب "القمامة في الداخل ، القمامة خارجًا" من خلال البحث والاستنتاجات التي تستند إلى بيانات صلبة وموثوقة.

روابط مفيدة

التنميط الباندا - تقارير التنميط من كائنات الباندا DataFrame

spark-df-profiling - تقارير التنميط من Apache Spark DataFrames

تمت كتابة مشاركة المدونة هذه في الأصل لمدونة Bigabid وهي متاحة هنا