Jak nie dać się zmanipulować wykresom (i nie zmanipulować innych)? Poznaj 6 najczęstszych pułapek

Zdjęcie pokazujące różne typy wykresów
Image source: Team Vectors by Vecteezy

Jeszcze 30 lat temu sztuka wizualizacji danych zarezerwowana była dla nielicznych, zwykle naukowców, badaczy i dziennikarzy. Dzisiaj każdy może otworzyć arkusz kalkulacyjny lub program graficzny, wkleić dane i wygenerować wykres. Myślę, że to wielka szansa, ale korzystajmy z niej rozważnie i ze świadomością pułapek, w które możemy po drodze wpaść – zarówno jako twórcy, jak i odbiorcy treści. 


Gdy weszłam dziś rano do mediów społecznościowych, już w pierwszej minucie przeglądania treści zobaczyłam kilka wykresów i infografik. Wzrost spożycia produktów wegańskich przez Polaków, zasięg ostatniej konferencji edukacyjnej i wyniki sondażu przedwyborczego. Bardzo się cieszę, że coraz więcej organizacji pokazuje dane, chwali się nimi i używa ich do edukowania swoich odbiorców.  Liczby nas otaczają i warto je eksponować. Problem pojawia się jednak wtedy, gdy dane są niewiarygodne lub przedstawione w zmanipulowany sposób. Wbrew pozorom nie zdarza się to rzadko. Możesz się o tym przekonać, przeglądając zebrane przez mnie przykłady wizualizacji danych (głównie medialnych), które mogą wprowadzić Cię w błąd. Niektóre z nich wykorzystałam również w tym artykule. 

W tym wpisie chciałabym:

  • pokazać Ci, jako odbiorcy różnorodnych danych i wizualizacji, na jakie sztuczki i manipulacje uważać;
  • uświadomić Ci, jako twórcy treści, w jakie pułapki nie wpaść (kto z nas nie tworzy od czasu do czasu wykresów?).

Przedstawię Ci 6 najczęstszych (choć na pewno nie jedynych) pułapek w prezentacji danych. Wszystkie one się przenikają i są ze sobą związane. 


Pułapka 1: Ale to jest ładne! Na pewno musi być poprawne… czyli o chowaniu kiepskich analiz za ładną grafiką

Podstawowa zasada prezentacji danych brzmi: najpierw treść, później forma. Bez solidnych fundamentów nawet najpiękniejsza wizualizacja będzie jedynie pustym zbiorem megabajtów, który może wyrządzić więcej szkody niż pożytku. I właśnie na to chcę zwrócić Twoją uwagę już w pierwszym punkcie. Pamiętaj, że to, co ładne i przyjemne dla oka, łatwo zapada w pamięć. Dlatego w przypadku estetycznych wizualizacji danych należy zachować szczególną czujność. 

Pamiętaj, że będąc odbiorcą danych (a jeśli śledzisz wiadomości z jakiejkolwiek dziedziny – na pewno nim jesteś), sam(a) musisz ocenić, czy masz do czynienia z godną zaufania analizą, czy z wydmuszką. Forma nie determinuje treści (a w dobie przystępnych i darmowych programów takich jak Canva, estetyka jest na wyciągnięcie ręki)! Za wizualnie nieciekawym obrazem może stać rzetelna analiza i odwrotnie – za estetyczną wizualizacją mogą stać jedynie puste liczby i niedociągnięcia metodologiczne.

Spójrz na poniższy przykład. Przyjemny dla oka, a jednak… dane są przedstawione w sposób niepoprawny i niezrozumiały, co wpływa na małą wiarygodność całości. Dlaczego na pierwszym wykresie niebieski słupek jest kilkukrotnie dłuższy od żółtego? Czy legenda w wykresie pierścieniowym jest czytelna?

Infografika pokazująca procent osób mieszkających z rodzicami w różnych grupach wiekowych
Źródło: część infografiki, której całość znajdziesz tutaj

W drugim przykładzie nurtuje mnie pytanie, dlaczego np. okrąg o wartości 85% jest większy od okręgu o wartości 92%. Powierzchnie okręgów powinny odpowiadać przedstawianym na nich wartościom. Proporcje na poniższym wykresie z pewnością nie zostały zachowane, co widać gołym okiem.

Infografika pokazująca ważność koloru dla Twojego biznesu
Źródło: część infografiki, której całość znajdziesz tutaj

Jak widzisz, szata nie zdobi wykresu. Jak zatem sprawdzić rzetelność prezentacji danych, z którymi się spotykasz? Szczególnie, jeśli dotyczą bardziej poważnych tematów? Przyjrzyjmy się kolejnym pułapkom.  


Pułapka 2: Skąd my to wszystko wiemy… czyli o wiarygodności źródeł. 

Nie jestem z natury sceptykiem, ale w przypadku oceanu danych, który nas otacza, chciałabym w Tobie zaszczepić nutkę podejrzliwości. Nawet jeśli lubisz i szanujesz instytucje czy osoby, od których czerpiesz informacje – sprawdź, skąd wiedzą to, co Ci przekazują. Kropka. 

Wiarygodność źródeł to absolutna podstawa. Fundamentem dobrej prezentacji danych są… dobre dane. W świecie analitycznym krąży powiedzenie, z którym w 100% się zgadzam. Jeżeli Twoje dane są nierzetelne lub wątpliwe, żadna wizualizacja nie sprawi, że efekt końcowy będzie dobry (tzw. zasada garbage in, garbage out). 

Przyznam szczerze, że weryfikacja informacji to bardzo trudne zadanie. Nie zachęcam Cię do tego, abyś rzucił(a) swoje codzienne zadania w celu nieustannego sprawdzania wszystkich źródeł danych i wykresów, które do Ciebie docierają. Nikt z nas nie ma na to czasu. Zasugeruję Ci jednak trzy kroki, które warto za każdym razem wykonać, aby zmaksymalizować szansę na konsumpcję sprawdzonych informacji.

  1. Sprawdź, czy podane jest źródło danych.

Pomyślisz pewnie, że to oczywiste. Zaobserwuj jednak przy kolejnej wizycie w mediach społecznościowych, jak często przyjmujesz na wiarę dane, nie poddając w wątpliwość ich źródeł (jeśli mój zarzut jest bezpodstawny – czapki z głów i tak trzymaj!). 

  1. Oceń, czy podane źródło danych jest wiarygodne i aktualne.

Czy instytucja, która odpowiadała za zbieranie i analizę danych, jest godna zaufania? Z jakiego roku pochodzą dane? Czy nie są przestarzałe? Czy możesz bez problemu dotrzeć do przytoczonego źródła? 

  1. Zastanów się, czy autor wizualizacji nie wyciąga zbyt daleko idących wniosków. 

Czy autor komentuje wykres w sposób, który wynika bezpośrednio z przedstawionych danych? A może przedstawione dane mogłyby zostać zinterpretowane inaczej? Czy autor wziął pod uwagę szerszy kontekst omawianego zjawiska?

Powyższe kroki zajmą Ci najwyżej kilka minut, a pomogą Ci wstępnie odróżnić ziarna od plew. 

Zasugeruję Ci jednak jeszcze jedną rzecz. Raz na jakiś czas dokładnie sprawdź źródło danych wykresu/infografiki z niecodziennego dla Ciebie obszaru. Załóżmy, że trafisz w mediach społecznościowych na dane dotyczące konsumpcji napojów gazowanych w Polsce. Jeżeli zazwyczaj tylko skanujesz tego typu posty, poświęć tym razem 15-20 min na sięgnięcie do oryginalnego raportu/tabeli. Spróbuj się dowiedzieć, skąd dokładnie pochodzą dane i jak zostały zebrane. Takie podejście sprawi, że z czasem staniesz się dużo bardziej świadomym i krytycznym odbiorcą informacji. 

Uwaga! Jeżeli masz do czynienia z danymi, wykresami, wizualizacjami, które chcesz rozpowszechnić (np. udostępnić w swoich mediach społecznościowych, wykorzystać w ramach prezentacji na konferencji, umieścić w artykule na blogu), zawsze dokonaj głębszej analizy oryginalnego źródła. Pamiętaj, że jesteś współodpowiedzialny za sprawdzenie rzetelności danych, które podajesz dalej. Uważaj, czym się dzielisz, szczególnie jeśli podoba Ci się wizualny aspekt prezentacji danych i/lub ideologicznie zgadzasz się z tezami autora (pisał o tym bardzo ciekawie Daniel Kahneman w Pułapkach myślenia).


Pułapka 3: Obserwowane różnice są ogromne… Czyli o zniekształcaniu skali w wykresach słupkowych.

Czas na szczyptę matematyki i odrobinę proporcji. 

Zobacz, w jaki sposób mogą się od siebie różnić dwa wykresy, pokazujące dokładnie te same dane. Wyobraź sobie, że prezentujesz je na spotkaniu. Czy na ich podstawie mógłbyś opowiedzieć dwie, zupełnie różne historie?

Wykres słupkowy z uciętą osią Y zestawiony z poprawnym wykresem słupkowym
Źródło: opracowanie własne, dane przykładowe

Zdecydowanie tak. Niestety sposób pokazania danych po lewej stronie jest całkowicie niepoprawny. Na lewym obrazku, z powodu (błędnego) rozpoczęcia skali osi pionowej w punkcie 7%, wydaje się, że różnice między kolejnymi latami są ogromne, a udziały firmy w rynku wzrosły co najmniej czterokrotnie. W istocie wzrosły one o 4 p.p. (co widać dokładnie na poprawnym obrazku po prawej stronie).

Pamiętaj, że na wykresie słupkowym początek słupka musi odpowiadać zeru na osi. Tutaj nie ma wyjątków. 

Pozornie jest to prosta zasada, jednak nagminnie łamana – nie zdarzyło mi się jeszcze uczestniczyć w konferencji, na której bym tego błędu nie zobaczyła chociaż na jednym slajdzie. Dlaczego tak jest? Powody mogą być dwa. Pierwszy to zwyczajna niewiedza lub nieuważność autora. Drugi to chęć manipulacji odbiorcą. Wszak ucięcie skali Y często powoduje, że dane wyglądają bardziej imponująco niż w rzeczywistości.

Spójrz na poniższy przykład:

Wykres pokazujący wysokość subwencji oświatowej w latach 2012-2020
Źródło: @Twitter MEN

Na wykresie słupki rozpoczynają się od kwoty 35 mld PLN, co sprawia, że różnice w wysokości subwencji oświatowej w kolejnych latach wydają się zdecydowanie wyższe niż w rzeczywistości. Na wykresie różnica między pierwszym a ostatnim słupkiem sugeruje wzrost subwencji oświatowej o ok. 200-300%, gdy w rzeczywistości był to wzrost o ok. 25%.

Niezależnie od tego, czy powodem jest niewiedza czy chęć manipulacji, musimy szczególnie uważać na tę sztuczkę. Nasz mózg porównuje ze sobą automatycznie długości słupków i bardzo szybko wyciąga wnioski (jeszcze zanim spojrzy na skalę osi Y, jeśli w ogóle!). Szczególnie trudno wyłapać ten błąd, gdy mamy do czynienia z estetyczną i przyjemną dla oka wizualizacją (patrz pułapka pierwsza).

Warto zwrócić uwagę na jeszcze jedną kwestię. W ostatnich latach w wizualizacji danych coraz częściej używa się ikon. Jestem zwolenniczką tego podejścia, ponieważ grafiki odciążają przekaz i działają na wyobraźnię odbiorców. Niestety, często obserwuję skrajnie niepoprawne użycie ikon, szczególnie jeśli w zamyśle autora mają one zastąpić słupki. Jeżeli nie zastosujemy się do zasady, że 0 jest początkiem skali, możemy uzyskać efekt taki jak poniżej…

Niepoprawny wykres pokazujący różnice wydokości mężczyzn w różnych krajach
Źródło: reddit.com/r/CrappyDesign

Czasami otrzymuję pytania, jak wygląda kwestia skali w wykresach liniowych. Czy również musimy rozpoczynać skalę od 0? Nie ma takiej konieczności, jednak należy uważać na tzw. overzooming, czyli przesadne zawężenie skali, które może dać efekt podobny do źle skonstruowanego wykresu słupkowego. Tutaj również należy być czujnym.


Pułapka 4: Wydaje się, że ten kawałek tortu jest większy… czyli o amatorskich wykresach 3D.

Wizualizacja w 3D ma tę przewagę, że dokładamy jeden wymiar do standardowego obrazu i dzięki temu możemy więcej zobaczyć i lepiej zrozumieć omawiane zjawisko. Póki co brzmi dobrze. Dlaczego zatem ten punkt znalazł się w moim zestawieniu? Odpowiedź jest prosta – tworzenie wykresów 3D to duże wyzwanie i nie lada sztuka. A tam, gdzie pojawiają się duże wyzwania, czyhają również pułapki… 

Moje doświadczenie pokazuje, że w większości przypadków wykresy 3D używane są do zobrazowania danych, którym wyszłoby na dobre pozostanie w drugim wymiarze. Spójrz na poniższy wykres. 

Wykres kołowy 3D, zniekształcający proporcje pomiędzy kategoriami
Źródło: opracowanie własne na przykładowych danych, wykres celowo przerysowany

Przedstawiony wykres kołowy może wskazywać, szczególnie w połączeniu z sugerującym tytułem oraz czerwonym kolorem wykorzystanym do pokazania udziału w rynku głównego konkurenta, że to nasza firma (niebieska) jest liderem. Jeśli jednak do tego samego wykresu dodamy etykiety pokazujące dokładne procenty, okaże się, że konkurent A ma większy udział w rynku niż nasza firma. 

Wykres kołowy 3D zniekształcający proporcje między kategoriami
Źródło: opracowanie własne na przykładowych danych, wykres celowo przerysowany

Nie jestem fanką wykresów kołowych. Staram się ich nie używać, ponieważ proporcje między danymi są często trudne do odczytania. Połączenie wykresu kołowego oraz efektu 3D to przepis na wizualny chaos. Jeżeli w mediach widzisz wykres 3D, zachowaj czujność i sprawdź, czy autor nie chciał czegoś ukryć. 

Moja wskazówka dla osób, które tworzą wykresy, ale nie są profesjonalnymi analitykami lub grafikami: pozostawmy wizualizacje w 3D specjalistom. Uważam, że mogą być one absolutnie zachwycające, profesjonalnie wykonane i trzeci wymiar może ułatwić zrozumienie jakiegoś zjawiska. – spójrz na przykład na grafikę kostek lodu w artykule the Economist (zamieszczam poniżej) lub krótkie video pokazujące skutki zbyt szybkiego rozprzestrzeniania się koronawirusa. Są to jednak perełki w morzu wprowadzających w błąd, nieczytelnych i niepoprawnych wykresów 3D. 

Przykład efektywnej wizualizacji 3D magazynu The Economist
Przykład efektywnej wizualizacji objętości pokrywy lodowej w 3D, źródło: The Economist

Pułapka 5: Elastyczne lata i miesiące… czyli o manipulacjach na osi czasu.

Gdy widzimy wykres liniowy lub słupkowy, na osi poziomej często spodziewamy się jednostki czasu – dni, miesięcy, lat. Słusznie. Muszę Cię jednak ostrzec, że na tej osi mogą kryć się niespodzianki, dlatego zawsze warto dokładnie przeczytać etykiety. Niespójności na osi czasu są trudne do wyłapania na pierwszy rzut oka, a mocno wpływają na przekaz wizualizacji. 

Spójrz na poniższy wykres, który został opublikowany w Onecie w 2020 roku:

Wykres pokazujący liczbę zajętych respiratorów w Polsce
Źródło: onet.pl

Spodziewalibyśmy się równych odstępów czasu, jednak tak się nie dzieje. Odstęp między pierwszymi dwoma słupkami wynosi 19 dni, odstęp między drugim a trzecim słupkiem – 1 dzień. Między trzecim a czwartym – 30 dni. Zaburzenie skali osi czasu może mocno wpływać na to, jak nasze oko postrzega dynamikę zmian. Dlatego właśnie odstępy pomiędzy kolejnymi punktami danych na osi czasu powinny być zawsze takie same. 

Poniżej jeszcze inny przykład, w selektywny sposób przedstawiający skalę pożarów lasów w Australii. Odstępy czasu na osi czasu są nierówne, a dodatkowo dane o wszystkich innych pożarach zostały pominięte. Wizualizacja przedstawia dane w sposób bardzo wybiórczy. Źródło danych, na które powołuje się autor (Wikipedia, Major bushfires in Australia), wskazuje, że nie tylko w tych latach miały miejsce największe pożary. Jeżeli chcielibyśmy zaobserwować faktyczny trend, na wykresie powinny zostać przedstawione wszystkie dane, w równych odstępach czasu.

Wykres pokazujący skalę pożarów buszu w Australii
Źródło: Twitter @PorownajRzady

Inną manipulacją, z którą możesz się zetknąć, jest nieporównywalność kolejnych punktów danych.

W jaki sposób wyłapać ten błąd? Sprawdź, czy wszystkie wartości odnoszą się do tej samej jednostki czasu, np. dni, miesięcy, lat. Jeżeli tak nie jest, wykres może wprowadzać w błąd, ponieważ nie porównuje “jabłek do jabłek”.

Klasycznym przykładem takiej manipulacji jest wykres opublikowany przez Ministerstwo Edukacji Narodowej w marcu 2019 roku. Pierwszy rzut oka na wykres sugeruje, że nauczyciele z roku na rok mogą liczyć na coraz większe podwyżki. Czy na pewno? W ostatnim słupku, w przeciwieństwie do poprzednich, widzimy wartość zsumowaną dla czterech lat. Jeżeli będziemy nieuważni, możemy dać się nabrać.

Wykres pokazujący podwyżkę nagrodzeń nauczycieli
Źródło: Twitter @MEIN_GOV_PL (przykład znaleziony na blogu smarterpoland.pl)

Pułapka 6: Sam dopowiedz historię… czyli o wykresach, które pozostawiają wiele wątpliwości.

Dobry wykres to taki, który nie pozostawia wątpliwości co do przedstawionych informacji. Wiemy, jak interpretować dane, jakiego okresu czasy dotyczą, do jakiej instytucji się odnoszą itd. 

Niestety, rzeczywistość wykresowa nie zawsze jest taka różowa. Często spotykam się z:

  • wykresami, które nie posiadają tytułu i/lub opisu, przez co nie wiem, co autor chciałby mi przekazać;

Przykład:

Źródło: Twitter @NFZ_Centrala, październik 2018,(przykład znaleziony na blogu smarterpoland.pl)

Oprócz uciętej skali Y, która sprawia, że proporcje między słupkami są mocno zaburzone, nie wiadomo, jaka dokładnie zmienna przedstawiona jest na wykresie. Czy są to całkowite wydatki na służbę zdrowia? Tytuł Plan finansowy nie jest niestety jednoznaczny, a wizualizacja nie została należycie opisana.

  • wykresami, które nie mają opisanych osi (lub są one opisane w sposób niepełny), co sprawia, że nie wiem z jakimi zmiennymi i/lub z jakimi jednostkami mamy do czynienia;

Przykład:

Wykres pokazujący aktywne przypadki zakażenia koronawirusem w Polsce i na świecie
Źródło: Fakty TVN, 2020

Powyższy wykres nie jest możliwy do odcyfrowania ze względu na zastosowanie dwóch osi Y. Z założenia nie jest to błąd, ale w tym przypadku na każdej osi widzimy tę samą zmienną, czyli liczbę aktywnych zakażeń. Co je różni? Zauważmy, że po lewej stronie skala ma granice 0 – 12.5 tys., a po prawej stronie 0 – 125 tys. (czyli dziesięciokrotnie wyższą). Nie wiemy, które serie danych odnoszą się do której osi. Wykres dla Polski (czerowna linia) wskazuje na duży przyrost zakażeń, ale czy na pewno większy niż w innych krajach? To zależy, której osi dotyczy. A tego nie wiemy.

  • wykresami przedstawiającymi dane, których sposób obliczania nie jest dla mnie jasny, np. skomplikowane wskaźniki ekonomiczne, do których warto by było dodać definicję;
  • wykresami pokazującymi wycinek rzeczywistości, które sprawiają, że zastanawiam się, dlaczego autor pokazał mi tylko wybiórcze dane (problem opisany w Pułapce 5);

Wszystkie te punkty łączy jedno – ich odbiorcy dopowiedzą sobie zupełnie inną i, bardzo możliwe, błędną historię.

Za każdym razem, gdy analizujesz wykres zastanów się, czy masz pełną jasność, na co patrzysz. Jeżeli nasuwają Ci się pytania – czy możesz łatwo uzyskać na nie odpowiedź? Dobra wizualizacja danych wzbudzi w Tobie chęć zdobycia dodatkowych informacji i pogłębienia tematu, ale nie powinna Cię zostawiać z poczuciem dezorientacji i niezrozumienia.


Podsumowanie

Mam nadzieję, że mój subiektywny wybór najczęściej spotykanych pułapek pomoże Ci w bardziej krytycznej analizie otaczających Cię danych i podejmowaniu bardziej świadomych decyzji (mniejszych lub większych) na podstawie danych. 

Na sam koniec mam do Ciebie prośbę 🙂

  • Jeżeli tworzysz wykresy, infografiki, raporty, zawsze sprawdzaj, czy nie wpadasz w jedną z najczęstszych pułapek i czy nieświadomie nie manipulujesz rzeczywistością. Z czasem poprawne nawyki wejdą Ci w krew. 
  • Jeżeli konsumujesz wizualizacje danych w mediach, sprawdź, czy autor przedstawił dane w poprawny sposób i czy podał wiarygodne źródło . Pamiętaj, że sposobów manipulacji (świadomej lub nieświadomej) jest bardzo wiele i czasami jest je trudno odróżnić, szczególnie jeśli patrzymy na materiał miły dla oka. Mimo wszystko – warto! Nie dajmy się oszukiwać.

Czy spotkałeś się już z opisanymi przeze mnie manipulacjami? A może znasz inne sposoby zaciemniania rzeczywistości, o które warto uzupełnić mój wpis? Napisz do mnie na adres: klaudia.stano@jezykdanych.pl lub zostaw komentarz pod wpisem.

P.S. W powyższym tekście z pełną premedytacją pominęłam aspekty, które jedynie utrudniają zrozumienie danych, ale same w sobie nie wprowadzają w błąd (np. niekonsekwentne użycie kolorów, umieszczanie na wykresie zbyt wielu niepotrzebnych elementów). O tym na pewno jeszcze napiszę w przyszłości 🙂


Chcesz wiedzieć więcej o tym, jak należy (i nie należy) przedstawiać danych?

Zajrzyj do polecanych przeze mnie zasobów:

  • Czy wiesz, że od 2012 roku organizowany jest w Polsce konkurs na najgorszy wykres roku? Za tym pomysłem stoi Przemysław Biecek z bloga Smarter Poland. Polecam lekturę corocznych plebiscytów. Wciąż można głosować na najgorszy wykres roku 2020. Ja już mam swojego faworyta 🙂
  • Obejrzyj 4-minutową animację Ted-ED, która podsumowuje najważniejsze manipulacje dotyczące przedstawiania danych na wykresach (dostępne są polskie napisy)

Zapisz się na newsletter i bądź na bieżąco!

Od czasu do czasu otrzymasz ode mnie wskazówki i inspiracje dotyczące tworzenia efektywnych wykresów i wizualizacji, a także przegląd najciekawszych analiz z nurtu data storytelling.