وجهات نظر متعددة حول كيفية اختيار التصور

TLDR: معظم أدلة المراجع السريعة تنصح باستخدام التصور المرئي لاستخدامه استنادًا إلى ما تريد أن يراه الأشخاص في البيانات. هذا الأمر أصعب في مرحلة التحليل ، عندما لا تعرف بعد ما يمكن رؤيته. لقد أنشأت منتقيًا جديدًا يستند بدلاً من ذلك إلى بنية البيانات المرسومة.

كيف يمكنك رسم هذه البيانات؟

تخيل أنني أعطيك الأرقام الثمانية على اليسار ، وأطلب منك رسم بياني لها في عرض حيث يمكنك كشف الأنماط بمرونة. أستخدم هذا المثال بشكل متكرر في ورش عمل تصور البيانات ، والنتيجة النموذجية هي مظهر المصابيح الأمامية في الغزلان. وهؤلاء هم جماهير أذكياء - طلاب جامعيون ، دكتوراه الطلاب ، ماجستير في إدارة الأعمال ، أو محللي الأعمال. معظمهم غارقون في الخيارات: البارات ، الخطوط ، الفطائر ، أوه يا. إذا قمت بدلاً من ذلك بعرض البيانات بالفعل في عرض مرئي وطلبت منهم إعادة إرسالها ، فإن الجمهور يكمن في كونه غارقًا في الخيارات ، إلى عدم القدرة على تخيل البيانات المرسومة بأي طريقة أخرى.

تُعد الأدلة المرجعية السريعة للتصور (تُعرف أيضًا باسم "منتقي المخططات") حلاً رائعًا لهذه المشكلات ، حيث تستخلص نظريات متزعزعة لتقديم اقتراحات مباشرة لكيفية تمثيل البيانات. يتم تنظيم هذه الأدلة عادةً بواسطة مهام العارض - هل يريد المصمم من العارض رؤية تصنيف أو فحص توزيع أو فحص علاقة أو إجراء مقارنة؟ تستخدم هذه الأدلة هذه المهام لتصنيف (أو مخطط انسيابي) لتصاميم بديلة قابلة للحياة. يقدّر الطلاب والممارسون (الباحثون والباحثون) الطريقة التي تساعدهم بها هذه الأدوات في الخروج من الطغيان على الخيارات أو التركيز على احتمال واحد.

هناك العديد من منتقي الرسوم البيانية القائمة على المهام (هنا مثال من الفاينانشيال تايمز) ، فلماذا نصنع نموذجًا جديدًا؟ يمكن أن يكون اختيار التصور استنادًا إلى المهمة عائقًا مفيدًا عندما يحين الوقت لتوصيل نمط معروف إلى الجمهور. ولكن يمكن أن يكون أقل فائدة في مرحلة التحليل قبل ذلك ، حيث لديك فقط مفاهيم غامضة من المهام التي يحتمل أن تكون مهمة. قد يؤدي الالتزام المبكر بتصور ملائم لمهمة محددة إلى تثبيتك على نمط معين ، وتفويت نمط آخر. وبعض المهام محددة بشكل غامض. أجد "راجع العلاقة" و "اجعل المقارنة" غامضين بشكل خاص ألم تعلن شركة Tufte أن كل شيء عبارة عن مقارنة؟ بالنسبة للمحللين ، عادةً ما يكون أفضل تنسيق مرئي هو التنسيق المرن عبر المهام ، مما يتيح البحث العام عن الأنماط المحتملة.

ولكن إن لم يكن المهمة ، فما هي الطريقة الأخرى لتنظيم منتقي؟ عندما قررت إعداد واحدة جديدة ، أحببت الموضوعية البسيطة المتمثلة في انتقاء التصور وفقًا لهيكل البيانات المرسومة (على الرغم من سعادتي مؤخرًا بالإشارة إلى منتقي آخر مع إعداد مماثل).

توضح مجموعة البيانات الصغيرة أدناه الأنواع النموذجية للبيانات الكمية في أي ورقة excel: الفئات والفئات المطلوبة والمقاييس المستمرة. بمجرد أن تقرر أي أعمدة من مجموعة البيانات تريد تجميعها ، يخبرك المنتقي (نظريًا) بأفضل الخيارات. سأنظر في كيفية عمله أدناه.

لديك كومة من المقاييس (الأرقام) ، ربما ترغب في تخزينها حسب فئات منفصلة (نموذجيًا ، رسم بياني شريطي) ، أو ربما فئتين في نفس الوقت ، كما هو الحال في جدول ثنائي الأبعاد (أحب شريط الجداول لهذا). أو ربما تريد تنظيم هذه المقاييس على طول محور مستمر (قياس آخر) كما هو الحال عند رسم القيم التي تتغير بمرور الوقت (عادةً ، رسم بياني خطي) ، ثم قد ترغب في إظهار ذلك مأخوذ عن طريق فئات منفصلة (عادةً ما ، خط الرسم البياني مع خطوط متعددة على ذلك). إذا ، بدلاً من القيم المطلقة ، فيجب تفسير المقاييس على أنها نسب مئوية ، مما يستلزم عادةً رسم الرسم المكاني في الفطائر أو أشرطة مكدسة.

بيانات العينةالمحور الأفقي للدليل المرجعي السريع ، الفئات المنفصلة إلى المقاييس المستمرة

أقوم بتدريس وتحليل البيانات الخاصة بي باستخدام Tableau ، والذي يقوم تلقائيًا بتغيير تصورات التصور استنادًا إلى ما إذا كان التصور ينظم البيانات حسب الحقول المعينة على أنها منفصلة أو مستمرة (والتي تستند بدورها إلى تاريخ العمل في تخيل البيانات). أصبح هذا الاختلاف المنفصل مقابل المستمر هو المبدأ الأساسي لتنظيم المحور الأفقي للمنتقي. توجد المقاييس التي يتم تنظيمها بواسطة صناديق الفئات المنفصلة على اليسار ، والمقاييس التي يتم تنظيمها بواسطة مقاييس مستمرة أخرى على اليمين. المقاييس التي ينظمها الطفل المربك من الفئات المرتبة تجلس في المقعد الأوسط.

هناك نوعان من تغييرات التصميم الرئيسية التي تحدث من اليسار إلى اليمين. أولاً ، يؤدي تنظيم المقاييس حسب الفئات المنفصلة (الجانب الأيسر من منتقي المخططات) إلى حظر الرسوم البيانية ذات الأعمدة المنفصلة المتعددة ، كما يؤدي تنظيم المقاييس بواسطة المقاييس المستمرة الأخرى (يمين) إلى رسم بياني سطري مع خطوط مستمرة. يؤثر هذا التغيير في التصميم بشدة على ما إذا كان المشاهدون يفسرون بشكل صحيح بنية البيانات ، كما هو موضح في التجارب النفسية (انظر الرسوم البيانية لارتفاع السكان ، والتفسيرات النموذجية ذات الصلة ، أدناه ، المأخوذة من أسفل مركز المنتقي).

قيم الارتفاع لمواطني البلدين. على محمل الجد ، يقول الناس حرفيا هذا.

ثانياً ، بالنسبة للفئات المنفصلة على اليسار ، يتم تنظيم الأشرطة عموديًا كـ "رسم بياني للصف" بحيث يمكن أن تحتوي التسميات "أ ، ب ، ج" ، والتي عادةً ما تكون كلمات أو عبارات كاملة ، على مساحة يمكن كتابتها على شكل أفقي نص. في "رسم بياني عمود" منظم عموديًا ، يجب أن تكون هذه الكلمات مكتظة بشدة ، أو تتحول قطريًا أو رأسيًا ، والتي يصعب قراءتها جميعًا. بالنسبة إلى المنظمات المترية المستمرة في اليمين (وقيم الفئات البرتقالية مرتبة في الوسط) ، يتم تنظيم القيم من اليسار إلى اليمين ، لأن هذا ما يتوقعه الناس. ينتقل الوقت من اليسار إلى اليمين في العقل البشري ، وكذلك تنتقل الكميات المتزايدة ، مثل خط الأرقام المنشور أعلى السبورة في الفصل الدراسي بالمدرسة الابتدائية.

مبدأ التنظيم العمودي هو أكثر عقدي. يعرض الصف العلوي المقاييس التي تنظمها إدخالات فئة واحدة (مجموعة واحدة من الأشرطة أو النقاط ، أو مجموعة واحدة من النقاط المتصلة بخط أو منطقة). ثم تُظهر الصفوف الموجودة أسفلها تصميمات مماثلة لتنظيم المقاييس حسب الإدخالات بفئتين في نفس الوقت ، كما هو الحال في جدول ثنائي الأبعاد. يكرر القسم التالي أدناه نفس المنظمة ، ولكن بالنسبة للمقاييس التي ينبغي تفسيرها كنسب مئوية أو أجزاء من الكل ، بدلاً من القيم المطلقة المستقلة.

في الجزء السفلي مع الخلفية الزرقاء ، يُظهر الجانب الأيسر ببساطة طرقًا جذابة لإظهار الأرقام الفردية أو النسب المئوية ، ويصور الجانب الأيمن طرقًا لوضع مقياسين متواصلين مقابل بعضهما البعض (معظمها أنواع من بقع متناسقة منسقة بشكل عمودي ، على الرغم من أن هناك أيضًا مظهر من ابن عمه مفرط الطموح ، الإحداثيات الموازية). لاحظ أن المقاييس في scatterplots لا تزال مقسومة على إدخالات فئة (عدد إدخالات تلك الفئة يحدد عدد النقاط على scatterplot ، أو عدد أسطر الإحداثيات المتوازية).

بالرجوع إلى الجدول المكون من 8 أرقام في الأعلى ، فإن بنية البيانات هي المقاييس (النسب المئوية) التي تم تخزينها بفئتين (ABC is Region: N، S، E، W ، بينما XYZ هو نوع المنتج: Widgets ، Blickets) . لذلك إذا كان ينبغي اعتبار المقاييس بمثابة قيم مطلقة ، فإن "جدول الشريط" هو الأفضل ، وإذا كانت النسب المئوية هي التركيز المفضل ، فإن الأشرطة المكدسة (الصف) هي بديل يجب مراعاته.

هذه تستغرق وقتًا للتعلم ، مما يجعلها فظيعة للتواصل السريع لجذب الجماهير. لكن بالنسبة للمحللين ، أو عندما يكون لديك 3 دقائق لتعليم جمهورك كيفية قراءتها ، يمكن أن تكون تصورات مفيدة للبيانات المعقدة.

حاولت تضمين تصورات معروفة فقط ، وهي الأنواع الموجودة في منتقي المخططات النموذجية الحالية. لقد قمت بتضمين بعض الخيارات الجديدة ، لأنني أعتقد أنها تستحق التعلم. تستغرق مخططات Marimekko والمخططات المتصلة والإحداثيات الموازية وقتًا طويلاً لفهمها ، ولكنها قد تكون قوية.

محللو الأعمال ، يرجى التوقف عن استخدام هذا

لقد أدرجت خرائط ثلاثية الأبعاد ، والتي أرى أنها غالبًا ما تكون مفاجئة في عالم الأعمال ، وذلك بشكل أساسي لتثبيط استخدامها. المقصود من Treemaps هو إظهار مجموعة بيانات هرمية كبيرة مع مقياسين تم ترميزهما بشكل منفصل كحجم ولون ، لكنني أراها كثيرًا ما تستخدم لإظهار البيانات غير الهرمية ، وعادةً ما يكون الحجم واللون (مربكًا) يشفران نفس القيم بشكل متكرر ، عادةً مع تباعد منحدر اللون (بحيث تكون الصناديق الصغيرة حمراء والوسائط رمادية وكبيرة الحجم باللون الأزرق). لقد تم فقدان الآلاف من ساعات العمل أمام المشاهدين المشوشين في هذا المخطط ، والذي كان من المفترض أن يكون رسم بياني شريطي.

الحمض النووي نفسه.

أنت تعرف كيف تعتقد أنك تعرف شيئًا صحيحًا حتى تضطر إلى تدوينه أو شرحه لشخص ما أو بناء شيء ما بالفعل ، ثم تدرك أنك تعرف أقل مما تعرفه أو أن ما تعرفه لا يعرفه كثيرًا. منطقي؟ ساعدني إنشاء منتقي هذا المخطط في رؤية المرئيات بطرق جديدة. لفترة من الوقت ، لم أعد أفهم المكان الذي تنتمي إليه خريطة الحرارة (فقد انتقلت إلى ثلاثة مواقع مختلفة على الأقل على الصفحة حتى الآن). إنها حاليًا طريقة لتقسيم المقاييس حسب فئتين مرتبتين ، لكن ما زلت مفتوحًا لنقلها. أرى الآن أن Rosling scotsplots والخرائط تشترك في نفس الحمض النووي ، حيث تستخدم الخرائط خطوط الطول والعرض مثل محاور scatterplot (هذه هي الطريقة التي يعامل Tableau الخرائط).

أدركت أنه ليس لدي أي دليل على بعض الادعاءات ، مثل أن Bar Tables أفضل من ألواح Interleaved ، على الرغم من أن إحدى دراساتنا تظهر خلاف ذلك ، أعتقد أن الاختبار الصحيح لم يتم بعد. قد تكون هذه التوصية مثيرة للجدل بشكل خاص لأن جدول الشريط يضع بعض المقارنات الشريطية على طول خط الأساس غير المحاذى ، مما يجعل المقارنة أقل دقة (لأنه يمكنك فقط مقارنة الأطوال وفقدان القدرة على مقارنة نهايات الشريط). لكنني أعتقد أن انخفاضًا بسيطًا في الدقة المرئية يغمره الوضوح والمرونة اللذان يتمتع بهما تنظيم شريط الطاولة ثنائي الأبعاد. لا يوجد أيضًا دليل تجريبي على ادعاء المختار بأن المحور الصادي المقطوع أقل سوءًا على الرسم البياني الخطي مقارنة بالرسم البياني الشريطي ، وقد ينتهي بي الأمر إلى حذف ذلك الواقع.

لا يرى معظم مصممي التصور أي سبب للقيام بذلك على الإطلاق ، لكن حفنة من المحللين أقسموا أنها متفوقة إدراكياً لإدراك العلاقةطبعة جديدة مصمم التصور من أعلاه

لقد تم تحديي أيضًا بطرق مرحب بها. هناك وصفة في منتقي المخططات الخاصة بي لاستخدام دائمًا "جدول بار الخط" بدلاً من الرسم البياني "المحور المزدوج" الأكثر شيوعًا في عالم الأعمال. لكن كل ربع سنة أو نحو ذلك ، أواجه معركة ممتعة مع محلل يقسم أن المحور الثنائي يتيح إدراك أفضل للعلاقة بين مجموعتي القيم (ونعم ، فهم يفهمون أنهم يقارنون محاور تفاح وبرتقال ، إلخ. ، يحصلون على ما تمتم به لنفسك الآن). أنا الآن على يقين من أنني على صواب ، لذا لديّ اختبار تجريبي لذلك في قائمة مهام معملنا (يا طلاب دكتوراه في التصور: هذه قائمة طويلة ، اتصل بي إذا كنت مهتمًا) في التعاون على اختبار أشياء مثل هذا).

لقد أجبرني إنشاء المختار واستخدامه على التعلم من خلال التصورات ، إلى بنية البيانات الأساسية الخاصة به ، وهذا يساعد على التغلب على تثبيت التصميم. في ورشة عمل حديثة ، كنا ننتقد تصورًا للتدفق النقدي ، حيث تم الحصول على المال من مجموعة من المصادر X و Y و Z ، وتم تخصيص كل مصدر تفاضليًا للنفقات A و B & C. وكان الأصل هو تدفق على غرار Sankey رسم بياني حيث توجه المال من كل مصدر. كان معكرونة جميلة ولكن غير عملي. حتى أنني كنت عالقًا في هذا التصميم ، وكان علي إجبار نفسي على إلقاء نظرة على الدليل لتحديد أن Marimekko يلائم بالفعل بنية تلك البيانات.

الشمال والجنوب متماثلان ، الشرق والغرب متشابهان

يركز هذا الدليل على خياراته استنادًا إلى بنية البيانات ، بدلاً من مهمة المشاهد. لكن كلا النموذجين مهمان. يشير المستخدم إلى مجموعة من المرئيات ، لكن نصيحتي من ذلك لا تزال تفكر في المهمة ، من خلال رسم بياناتك أو رسمها بسرعة بتنسيقات قليلة ، ورؤية أي شخص يصرخ بنمطك بأعلى صوت (أو ، المرجع المرجعي مع الدليل القائم على المهمة). على سبيل المثال ، يصرخ "شريط المرآة" الموجود على اليمين "علاقة عكسية" بطريقة لا يظهرها "شريط الجدول" أعلاه ، حتى مع وجود نفس البيانات. ربما هناك طريقة لإضافة البعد الثالث من "المهمة" إلى الدليل الحالي ، وأتطلع إلى أن يكتشف شخص ما كيفية تصور ذلك المكعب (hmm ... تسليط الضوء على المهام التفاعلية مع مجموعة فرعية من الخيارات؟).

إنني متحمس للغاية بشأن تقديم الدليل كإضفاء طابع رسمي على الإرشادات التي يمكن أن تتم المصادقة عليها أو تنقيحها أو رفضها من قِبل الممارسين ومجتمعات البحث (مع الإجابات التي ربما تطفو على السطح لأطر أكثر تطوراً). التوصيات الواردة هنا غير كاملة ، ويسعدني أن أقوم بتغييرها باستمرار لتتوافق مع الآراء المتفق عليها بشأن ما يحدث خطأ (أنا أنظر إليك ، قناة DataVis Society Slack). أنا متحمس تمامًا للمناقشات التي لم يتم حلها ، والتي سيتم توجيهها على الفور إلى الدكتوراه. الطلاب كمشاريع بحثية تجريبية ، للجمع بين ما يعرفه الممارسون والمصممون والباحثون حول كيفية اختيار التصور الأكثر فعالية.