Poniżej znajdziesz zestawienie wykresów, które mogą wprowadzić Cię w błąd, świadomie lub nieświadomie, a pojawiły się w mediach, reklamach, raportach czy podczas prezentacji na żywo. Do każdej wizualizacji dodałam krótki komentarz z objaśnieniem, które elementy są mylące. Celem zestawienia jest edukacja, a nie krytyka autorów (jestem pewna, że każdemu zdarzają się błędy).
Jeżeli, oprócz analizy konkretnych przykładów, chcesz przeczytać więcej o o tym, jak krytycznie podchodzić do otaczających nas wizualizacji danych, zajrzyj do mojego wpisu Jak nie dać się zmanipulować wykresom (i nie zmanipulować innych?) Poznaj 6 najczęstszych pułapek.
W tym momencie baza pokazuje 28 anty-przykładów.
Jeśli natkniesz się na wykres, który budzi Twoje wątpliwości, zrób zdjęcie/screenshota i napisz do mnie: klaudia.stano@jezykdanych.pl. Dodam do galerii. Dziękuję!
1. Opłaty za śmieci w Warszawie
Co jest nie tak z tym wykresem?
Kwota 1,2 mld zł (czerwone koło) jest około 2.5 raza większa od kwoty 457 mln zł (niebieskie koło). Jednak pole dużego, czerwonego koła wydaje się co najmniej pięć razy większe od niebieskiego. Dlaczego tak jest? Autorzy wizualizacji (najprawdopodobniej) popełnili błąd polegający na tym, że prezentowane kwoty są proporcjonalne do promieni okręgów, a nie do ich pól (jak być powinno). W efekcie matematyczne proporcje pomiędzy kategoriami są zaburzone i całkowity koszt wywozu śmieci wydaje się dużo wyższy od wpływów do budzetu i dopłat miasta, niż jest w rzeczywistości.
2. Udziały czterech głównych stacji
Źródło: fanpage FakeNews.pl
Co jest nie tak z tym wykresem?
Różnice między udziałami w rynku TVP a udziałami TVN-u i Polsatu wydają się ogromne, podczas gdy tak naprawdę wahają się od… 7,3% do 7,9%. Wykres słupkowy powinien zaczynać się od 0. W przeciwnym razie wygląda na próbę zmylenia odbiorcy.
3. Przeciętna miesięczna wypłata emerytury
Co jest nie tak z tym wykresem?
- Pierwsza połowa wykresu ukazuje dane w odstępach rocznych, a druga połowa w odstępach dzisięcioletnich. Co więcej, oś pozioma została arbitralnie przerwana w roku 2018 i „wznowiona” w 2030 r. Tego typu zabieg sprawia, że spadki w latach 2030-2060 wydają się dużo bardziej drastyczne, chociaż rok do roku wcale nie muszą takie być. Należy uważać na (zamierzone lub niezamierzone) manipulacje na osi poziomej, ponieważ nasze oko w pierwszej kolejności wyłapuje trend, zanim jeszcze przyjrzy się szczegółom.
- Mimo że rozpoczynanie skali osi pionowej wykresu liniowego od poziomu 20 nie jest błędem, w tym przypadku sprawia, że wartości w latach 2050-2060 wydają się bliskie zera. To według mnie klasyczny przykład tzw. overzooming.
4. Alokacja środków w ramach Polityki Spójności (lata 2021-27)
Co jest nie tak z tym wykresem?
Zastosowanie wykresu 3D sprawia, że w widoku 2D proporcje matematyczne nie są zachowane. Na pierwszy rzut oka żółty i szary kawałek tortu wydają się podobnej wielkości. Jednak gdy dokładnie przyjrzymy się liczbom, okazuje się, że wartość szarej kategorii jest o prawie 20% wyższa od żółtej.
Niestety, stosując wykres 3D można łatwo wprowadzić odbiorców w błąd. Najlepszym przedstawieniem powyższych danych byłby czytelny wykres słupkowy, uporządkowany w kolejności od największej do najmniejszej kategorii.
5. Stosunek do obecności zwierząt w biurze
Co jest nie tak z tym wykresem?
Proporcja pomiędzy niebieską a granatową częścią pokazanego słupka jest dla mnie zupełnie niejasna. Z pewnością granatowa część nie stanowi 56% długości słupka, tak jak niebieska część nie stanowi 75% słupka. Nie udało mi się rozszyfrować tej wizualizacji. Zrozumienia nie ułatwia też fakt, że stół, będący elementem grafiki towarzyszącej, również jest niebieski i przypomina… słupek.
Warto zaznaczyć, że raport jest wizualnie przyjemny dla oka, jednak zdarzają się w nim niezrozumiałe wizualizacje danych, takie jak powyższa.
6. Budynek Twojego przyszłego pracodawcy
Co jest nie tak z tym wykresem?
W wykresie pierścieniowym cały zamalowany okrąg powinien stanowić 100%. W powyższych wykresach ta zasada nie została zachowana, np. wartość 39% odpowiada okręgowi zamalowanemu w około 60%. Niestety nie widać tu spójności i konsekwencji. Szczęściem w nieszczęściu jest to, że wartości procentowe wysuwają się na pierwszy plan i są mocno widoczne, co sprawia, że to raczej na nie zwrócimy uwagę, a nie na stopień zamalowania okręgów.
7. Spadająca liczba księgarni w Polsce
Co jest nie tak z tym wykresem?
- Ponieważ skala osi pionowej nie zaczyna się od 0, spadek liczby księgarni wydaje się bardzo duży. W rzeczywistości liczba księgarni pomiędzy marcem 2020 r. a marcem 2021 r. spadła o 5%. Jako uzależnionego czytelnika martwi mnie ten spadek, uważam jednak, że wykres jest „przekoloryzowany”.
- Od etykiet danych w marcu 2020 r. i marcu 2021 r. odchodzą linie, które z niezrozumiałych przyczyn wskazują na wartości inne niż przedstawione (np. liczba 1891 odpowiadająca wartości w marcu 2020 r. jest połączona linią z wartością 1820 na osi pionowej).
8. Stali mieszkańcy gminy Września
Co jest nie tak z tym wykresem?
Wykres na pierwszy rzut oka sugeruje, że liczba stałych mieszkańców Wrześni wzrosła ponad dwukrotnie. Jeśli jednak przeanalizujemy liczby, okazuje się, że od 2016 r. do 2020 r. liczba mieszkańców wzrosła procentowo tylko o… 1%. Wydaje się, że autor ustawił minimalną wartość osi pionowej na 44 000, zamiast na 0, co niesamowicie zniekształca wykres i całkowicie zmienia jego odbiór jeżeli nie zwrócimy uwagi na skalę.
9. Średnie miesięczne wynagrodzenie nauczyciela dyplomowanego
Co jest nie tak z tym wykresem?
- Skala osi Y nie zaczyna się od 0, co sprawia, że planowany wzrost wynagrodzeń między latami 2019-2023 wydaje się kilkukrotny (a z danych wynika, że jest on na poziomie 37% dla kategorii Pensum 22).
- W przypadku wynagrodzeń warto zawsze dodać adnotację, czy mamy do czynienia z danymi brutto czy netto (aby nie było wątpliwości).
- Dobrą praktyką jest pokazywanie prognozowanych danych w odróżniający się wizualnie sposób (aby czytelnik od razu wiedział, że od pewnego momentu ma do czynienia z prognozą, a nie historycznymi danymi).
10. Liczba drużyn w klasie B
Co jest nie tak z tym wykresem?
Podstawy słupków nie zaczynają się w punkcie 0. Rzut okiem na wykres sugeruje, że liczba drużyn w klasie B spadła w ciągu 10 sezonów co najmniej kilkukrotnie. W rzeczywistości był to spadek z liczby 2313 do liczby 1885, czyli o ok. 19%.
11. Składki ZUS dla przedsiębiorców
Co jest nie tak z tym wykresem?
- Wykres sugeruje, że za rządów PiS wysokość składek ZUS dla przedsiębiorców wzrosła cztero- lub pięciokrotnie. Gdy jednak bliżej przyjrzymy się wartościom słupków, okaże się, że oś Y nie zaczyna się w 0. W rzeczywistości od 2015 roku nastąpił wzrost składek o ok. 45%.
- Wykres zawiera elementy typowe dla alarmistycznych wiadomości (na które powinniśmy uważać). Czerwony kolor, CAPS LOCK oraz polityka w tle 🙂
12. Wydatki publiczne na ochronę zdrowia jako % PKB
Co jest nie tak z tym wykresem?
- W wykresie słupkowym początek słupka powinien wskazywać 0, aby proporcje długości pomiędzy słupkami odpowiadały rzeczywistości. Na załączonym wykresie oś Y rozpoczyna się z pewnością w innym punkcie (na moje oko mniej więcej na poziomie 4%), co sprawia, że różnice wydatków na ochronę zdrowia w kolejnych latach wydają się ogromne.
- Nie wiemy, dlaczego część słupków zaznaczona jest na niebiesko, a reszta na zielono.
- Jakiego punktu danych/okresu dotyczy czerwona liczba 109 mld zł? Niestety nie wiemy.
- Dobrą praktyką jest pokazywanie prognozowanych danych w wyróżniający się wizualnie sposób (aby czytelnik od razu wiedział, że ma do czynienia z prognozą, a nie historycznymi danymi).
13. Kradzież cudzej rzeczy w Polsce
Co jest nie tak z tym wykresem?
Ponownie mamy do czynienia z najpowszechniejszym błędem przy wykresie słupkowym, czyli rozpoczynaniem skali Y w punkcie innym niż 0. W efekcie spadek z 200 tys. na 100 tys. nasze oko odbiera nie jako spadek dwukrotny, a raczej siedmio- lub ośmiokrotny. Na słupki została dodatkowo nałożona linia trendu, której nachylenie sugeruje ogromny spadek kradzieży.
14. Wielkie kobiety i mali mężczyźni
Co jest nie tak z tym wykresem?
Czasami, dla podniesienia atrakcyjności wykresu, autorzy decydują się na wykorzystanie ikon. Niestety, trzeba zachować ostrożność. Na poniższym wykresie wielkość ikony w założeniu ma pokazywać wielkość danego zjawiska w rozróżnieniu na płeć. Proporcje są jednak nienaturalnie wyolbrzymione ze względu na to, że oś Y nie zaczyna się od 0, a od poziomu 3. To sprawia, że np. w punkcie C różnica między kobietami a mężczyznami wydaje się ogromna (mimo iż w rzeczywistości nie jest tak duża).
15. Plan finansowy Łódzkiego Oddziału Wojewódzkiego NFZ
Co jest nie tak z tym wykresem?
- Nie wiemy, jaka zmienna została przedstawiona na wykresie. Wykres nie jest podpisany. Możemy się jedynie domyślać, że są to wydatki.
- Na wykresie słupkowym oś Y nie zaczyna się od 0. W efekcie jako odbiorcy możemy mieć wrażenie, że wydatki NFZ-u w roku 2019 wzrosną o kilkaset procent. W rzeczywistości wzrost będzie na poziomie ok. 8%.
16. Jakie zagrożenie stanowi sytuacja epidemiczna dla gospodarki?
Co jest nie tak z tym wykresem?
Skala powinna się zaczynać od 0%, a zaczyna się od 80%, co sprawia, że odpowiedź duże zagrożenie, wskazana przez 88% respondentów, wydaje się być raczej na poziomie 40%. Warto zaznaczyć, że Główny Urząd Statystyczny szybko zareagował na komentarze odbiorców i skorygował swój błąd – brawo za szybką reakcję 🙂
Poprawiony wykres wygląda tak:
17. Wysokość subwencji oświatowej
Co jest nie tak z tym wykresem?
- Oś pionowa powinna się zaczynać w 0, aby długości słupków były między sobą porównywalne. Na powyższym wykresie słupki rozpoczynają się dopiero w punkcie 35, co sprawia, że różnice w wysokości subwencji oświatowej w kolejnych latach wydają się zdecydowanie wyższe niż w rzeczywistości. Na wykresie różnica między pierwszym a ostatnim słupkiem sugeruje wzrost subwencji oświatowej o ok. 200-300%, gdy w rzeczywistości był to wzrost o ok. 25%. Nie wiemy również, czy dane zostały skorygowane o inflację, tzn. czy biorą pod uwag ogólny wzrost cen w gospodarce.
- Nie wiemy, skad biorą się trzy różne kolory słupków. Dlaczego np. rok 2016 oznaczony jest kolorem pomarańczowym?
- Uważam, że podtytuł wykresu jest niezrozumiały – chodzi mi o sformułowanie kwota części oświatowej subwencji ogólnej. Co to oznacza? Gdyby nie główny, prosty do zrozumienia nagłówek, czułabym się zagubiona.
18. Stopa bezrobocia w Polsce
Co jest nie tak z tym wykresem?
Gdy spotykamy się z osią czasu, zazwyczaj liczymy na to, że dane ułożone są chronologicznie i w jednakowych odstępach czasu. Na tym wykresie złamane są obydwie zasady. Po pierwsze, dane ułożone są w kolejności od najnowszych do najstarszych (czyli inaczej niż zwykle). Po drugie, odstęp między pierwszym a drugim słupkiem to jeden miesiąc, natomiast między drugim a trzecim słupkiem to już 11 miesięcy ( i obserwujemy “spektakularny” spadek). Jeżeli odbiorca nie przyjrzy się uważnie etykietom, może odnieść mylne wrażenie, że stopa bezrobocia spada, i to znacznie (co nie jest prawdą według danych na tym wykresie).
19. Podwyżka wynagrodzeń nauczycieli
Co jest nie tak z tym wykresem?
Ostatni słupek, w przeciwieństwie do słupków poprzednich, pokazuje zsumowaną wartość podwyżek dla czterech lat. Jeżeli nie przeanalizujemy dokładnie osi X, możemy odnieść wrażenie, że nauczyciele z roku na rok otrzymują coraz większe podwyżki, co nie musi być prawdą.
20. Liczba zajętych respiratorów podczas pandemii koronawirusa
Co jest nie tak z tym wykresem?
Zwróć uwagę na oś czasu. Spodziewalibyśmy się równych odstępów (dni, tygodni, miesięcy), tak się jednak nie dzieje. Odstęp między pierwszymi dwoma słupkami wynosi 19 dni, odstęp między drugim a trzecim słupkiem – 1 dzień. Między trzecim a czwartym – 30 dni. Zaburzenie skali osi czasu może mocno wpływać na to, jak nasze oko postrzega dynamikę zmian. Dlatego właśnie odstępy pomiędzy kolejnymi punktami danych na osi czasu powinny być zawsze takie same.
21. Największe pożary w Australii
Co jest nie tak z tym wykresem?
Wizualizacja przedstawia dane w sposób bardzo wybiórczy. Odstępy czasu na osi czasu są nierówne, a źródło danych, na które powołuje się autor (Wikipedia, Major bushfires in Australia), wskazuje, że nie tylko w tych latach miały miejsce największe pożary.
22. Wzrost zachorowań na koronawirusa w Polsce i na świecie
Co jest nie tak z tym wykresem?
Porównywanie absolutnych wartości zachorowań pomiędzy różnymi krajami zazwyczaj nie ma sensu ze względu na inny rozmiar populacji. Na poniższym wykresie krzywa dla Polski wygląda na prawie płaską, podczas gdy liczba zachorowań w Niemczech i w USA gwałtownie rośnie. Dla uzyskania porównywalności, na wykresie należałoby przedstawić odsetek populacji, który aktywnie choruje. Zauważmy, że w USA mieszka 328 mln ludzi, w Niemczech 83 mln, podczas gdy w Polsce tylko 38 mln. Z tego względu porównywanie liczby zachorowań bez odniesienia ich do populacji jest pozbawione sensu i, co gorsza, może wprowadzić odbiorcę w błąd co do faktycznej skali pandemii.
23. Udział Apple w rynku smartfonów
Co jest nie tak z tym wykresem?
Powyższy wykres kołowy został zaprezentowany przez Steve’a Jobsa w 2007 roku. Niestety wykorzystanie efektu 3D spowodowało znaczne zniekształcenie proporcji pomiędzy konkurentami. Mimo iż udział w rynku Apple to niecałe 20%, zielony kawałek tortu wizualnie wydaje się dużo większy niż fioletowy (a w rzeczywistości jest mniejszy).
24. Utracone miejsca pracy
Co jest nie tak z tą mapą?
Na pierwszy rzut oka wydaje się, że w państwach oznaczonych kolorem granatowym nastapił najmniejszy procentowy spadek liczby miejsc pracy. Tego koloru nie znajdziemy jednak w legendzie, co prowadzi mnie do kokluzji, że dla tych państw po prostu nie ma danych (nie jest to jednak wyjaśnione). Kolor dla kategorii brak danych powinien się znacznie różnić od czerwonego i niebieskiego, aby nie było wątpliwości, że nie zajmuje miejsca po żadnej stronie skali (dobrym wyborem byłby np. kolor szary).
25. Aktywne przypadki zakażenia koronawirusem
Co jest nie tak z tym wykresem?
- Podstawowym problemem na powyższym wykresie jest zastosowanie dwóch osi Y. Z założenia nie jest to błąd, ale w tym przypadku na każdej osi widzimy tę samą zmienną, czyli liczbę aktywnych zakażeń. Co je różni? Zauważmy, że po lewej stronie skala ma granice 0 – 12.5 tys., a po prawej stronie 0 – 125 tys. (czyli dziesięciokrotnie wyższą). Nie wiemy, które serie danych odnoszą się do której strony. Wykres dla Polski (czerowna linia) wskazuje na duży przyrost zakażeń, ale czy na pewno większy niż w innych krajach? To zależy, której osi dotyczy. A tego nie wiemy.
- W każdym kraju pokazany jest przyrost absolutnej liczby zakażeń, bez odniesienia do liczby mieszkańców danego kraju. Porównywanie danych absolutnych ma w tym przypadku mały sens. Wiadomo, że każdy kraj ma inną populację. Dużo lepiej byłoby pokazać odsetek populacji.
- Seria danych pokazująca sytuację w Niemczech jest czarna, co sprawia, że bardzo trudno ją odróżnić od ciemnoszarego tła.
26. Jedna piąta pracowników w wieku 50+ jest otwarta na samozatrudnienie
Co jest nie tak z tym wykresem?
- W wykresach pierścieniowych i kołowych jesteśmy przyzwyczajeni do tego, że cały okrąg odpowiada wartości 100%, jednak ten specyficznie zaprojektowany wykres z wyraźnie zaznaczonym szarym półokręgiem może sprawić, że zmienimy zdanie. Wielu odbiorców ulegnie wrażeniu, że półkole = 100%. Jest to wizualnie uzasadniony wniosek, jednak niezgodny z prawdą, ponieważ zamalowany półokrąg odpowiada wartości 50%. Aby wykres był bardziej zrozumiały, cały okrąg powinien zostać zaznaczony na szaro.
- Zestawianie obok siebie pierścieni różnej wielkości jest ryzykowne. Zauważmy, że obwód zewnętrznego okregu jest zdecydowanie dłuższy od obwodu wewnętrznego okręgu. Tym samym wartość 7% przedstawiona na okręgu zewnętrznym wydaje się na oko jedynie nieco mniejsza od wartości 15% w okręgu wewnętrznym, co nie jest oczywiście prawdą. Aby wyciągnąć prawidłowe wnioski najlepiej by było… przeczytać sam tytuł (raport Deloitte, mimo kilku niedoskonałości, jest bardzo ciekawy).
27. Mediolański koszyk studenta
Poniższy wykres prezentuje wybrane wydatki studenta mieszkającego w Mediolanie.
Co jest nie tak z tym wykresem?
Nie wiadomo od czego zacząć… 🙂
- Przede wszystkim proporcje między kategoriami nie są zachowane. Dlaczego wydatek 20 euro na wyjście do klubu jest wizualnie równy wydatkowi 35 euro na komunikację miejską? Wykres wizualnie wprowadza w błąd i nie uznaje matematyki.
- Wydatki w przypadku dwóch kategorii (piwo, obiad w restauracji) nie są określone precyzyjnie, w związku z czym ich zestawienie z konkretnymi liczbami na wykresie kołowym (lub przypominającym kołowy) mija się z celem.
28. Przestępstwa dokonane na osobach transpłciowych w Wielkiej Brytanii
Źródło: post Patryka Słowika na portalu X w lutym 2024 r.
Co jest nie tak z tym wykresem?
Skala osi pionowej nie zaczyna się od 0, przez co wzrost agresja wygląda na niemal trzykrotny, mimo że jest 11-procentowy.
To już wszystko! Mam nadzieję, że powyższe zestawienie okazało się dla Ciebie pomocne i zachęciło Cię do dokładnego przyglądania się wykresom, które spotykasz.
Udało Ci się natknąć w mediach na wykres, który mógłby wzbogacić moje zestawienie? Napisz do mnie: klaudia.stano@jezykdanych.pl.