Ucinać czy nie ucinać? O skali osi Y na wykresach liniowych

Problematyczna oś wykresu liniowego

Czy na wykresie liniowym, pokazującym zmianę jakiegoś zjawiska w czasie, skala osi Y powinna zaczynać się od 0?

O ile w przypadku wykresów słupkowych środowisko analityków i prezenterów danych jest zgodne, że skala powinna zaczynać się od 0, to na wykresach liniowych nie jest to takie oczywiste.

Dlaczego jednoznaczna odpowiedź jest trudna?

  • Bo czasami, gdy zaczniemy skalę od 0, to zupełnie nie widać zmienności danych. I w efekcie pokazujemy płaską linię, a nie to, na czym nam zależy.
  • Z kolei, gdy nie zaczniemy skali od 0 i ustawimy inną, arbitralną wartość startową, możemy mocno wyolbrzymić jakieś zjawisko.

Pokażę Ci to na przykładach.

Przykład 1: Dzieci się (nie) rodzą.

Co sądzisz o polskiej demografii, gdy widzisz poniższy wykres?

Spadek liczby urodzeń dzieci w Polsce - wykres liniowy - Obserwator gospodarczy

Źródło: Obserwator Gospodarczy

Można odnieść wrażenie, że spadek liczby urodzeń w ostatnich latach jest dramatyczny. 

Używając narciarskiej analogii, tendencja spadkowa od 2018 r. przypomina „czerwoną” trasę, czyli dość mocno nachylony stok. W 2022 r. mamy zapaść, zjechaliśmy pod wyciąg i niżej się nie da.

Ale zaraz, zaraz. 

Skala wykresu nie rozpoczyna się od 0, tylko od 280 tys. urodzeń. Dlatego ta czerwona kropka, symbolizującą liczbę dzieci urodzonych w 2023 r., wygląda jakby szorowała po dnie. 

I teraz pytanie – czy taki dobór skali to uzasadniony zabieg autora/autorki?

Nie wiem, ale wyszło mocno alarmistycznie. 

Ten wykres to moim zdaniem klasyczny przykład overzoomingu, czyli „przesadzenia” ze skalą osi Y. 

Dobre pole do manipulacji, prawda? Nie zakładam co prawda, że celem była manipulacja (zawsze zakładam dobre intencje), ale wykres zostawia na czytelniku wrażenie bardzo złej sytuacji. 

A może alarmistyczny ton jest uzasadniony, bo sytuacja demograficzna jest naprawdę zła przy tak niskiej liczbie urodzeń i media powinny bić na alarm? 

Jak widzisz, trudno jest obiektywnie stwierdzić, czy ten wykres jest poprawny czy niepoprawny (chętnie usłyszę Twoje zdanie ?).

Pewnie gdybym ja tworzyła tę wizualizację, rozpoczęłabym skalę osi Y niżej. 

Spójrzmy na kolejny przykład.

Przykład 2: Coraz grzeczniejsze nastolatki?

Poniższy wykres pokazuje odsetek amerykańskich nastolatków deklarujących, że pokłócili się z rodzicami co najmniej trzy razy w ostatnim roku (okres 1976-2014). 

Kłótnie z rodzicami - iGen - wykres liniowy

Grafika pochodzi z książki iGen, badającej różnice pokoleniowe między nastolatkami dorastającymi w erze smartfonów a wcześniejszymi pokoleniami (mimo pewnych słabości jest to ciekawa lektura skłaniająca do refleksji).

Niestety książka jest pełna wykresów, które moim zdaniem cierpią na wcześniej wspomniany overzooming

Bo czy nie odnosisz wrażenia, że teraz nastolatkowie prawie w ogóle nie kłócą się z rodzicami? W rzeczywistości jest to spadek z ok. 70% w latach osiemdziesiątych do ok. 55% w 2014 r. Gdybym tworzyła ten wykres, myślę, że rozpoczęłabym skalę wykresu od 30-40%. 

Przykład 3: Szczepienia niemowlaków na gruźlicę.

Czas na moje przykłady. 

Ściągnęłam z GUS-u dane o odsetku niemowlaków zaszczepionych na gruźlicę i wrzuciłam do arkusza kalkulacyjnego:

Tabela - odsetek niemowląt zaszczepionych na gruźlicę w Polsce 2010-2022

Zobacz poniżej, jak różni się wykres liniowy na dokładnie tych samych danych w zależności od punktu startowego osi Y

I jak różne reakcje/emocje wywołuje. 

Opcja 1: Skala osi Y od 0% do 100%.

Udział niemowlaków zaszczepionych na gruźlicę - wykres liniowy - skala od 0 do 100%

Na tym wykresie praktycznie nic nie widać… Próbujemy dalej.

Opcja 2: Skala osi Y od 75% do 95%.

Udział niemowlaków zaszczepionych na gruźlicę - wykres liniowy - skala od 75 do 95%

Już lepiej. Spróbujmy jeszcze przybliżyć dane, aby lepiej zobaczyć zmienność.

Opcja 3: Skala osi Y od 85% do 95%.

Udział niemowlaków zaszczepionych na gruźlicę - wykres liniowy - skala od 85 do 95%

Wydaje mi się, że teraz jest nieźle. Dobrze widać trendy z ostatnich lat. A co się stanie, gdy jeszcze mocniej ograniczymy skalę osi Y?

Opcja 4: Skala osi Y od 90% do 94%.

Udział niemowlaków zaszczepionych na gruźlicę - wykres liniowy - skala od 90 do 94%

Ups… Teraz to wygląda tak, jakby dzieci już w ogóle się nie szczepiły. Takiego doboru skali nie rekomenduję. 

To jak dobrać skalę wykresu liniowego?

Nie ma tu moim zdaniem jednej dobrej odpowiedzi. Jak widzisz – to zależy. Kilka wskazówek ode mnie:

✔️ Zastanów się, jaki punkt odcięcia będzie najlepszy w przypadku Twoich danych – nie pozostawiaj tej decyzji programowi!

✔️ Używaj rozsądnych i sensownych w danym kontekście baselines (np. poziom alarmowy czy wartość, poniżej której dana zmienna na pewno nie spadnie).

✔️ Unikaj przesadzania – zarówno w stronę „skala od 0 za wszelką cenę”, jak i „wyolbrzymianie zjawiska”.

✔️ Poinformuj odbiorcę o tym, że oś nie zaczyna się od 0 – podczas prezentacji na żywo powiedz to na głos, a gdy tworzysz dokument, zaznacz to w widocznym miejscu w tekście.

A ty, co sądzisz?

Jak sobie radzisz z doborem skali, gdy tworzysz wykresy liniowe? (bądź co bądź to jeden z najpopularniejszych typów wykresu, więc „problem” pojawia się często)

I czy jako odbiorca/odbiorczyni zwracasz uwagę na oś Y wykresów, z którymi się spotykasz?

Napisz do mnie (klaudia.stano@jezykdanych.pl) lub podziel się przemyśleniami/przeczytaj opinie innych w tym wpisie na LinkedIn 🙂

Więcej materiałów o skali wykresów liniowych

Inspiracje do tego wpisu i ciekawe materiały:

  • dyskusja na temat rozpoczynania osi wykresów od 0 w serwisie StackExchange.
  • książki Truthful art i How charts lie autorstwa Alberto Cairo.
  • artykuł brytyjskiego Office for National Statistics, który zainspirował mnie do stworzenia wykresów w przykładzie nr 3.
  • artykuł od Flowing Data, w którym na interaktywnym suwaku możesz zmienić zakres osi Y – bardzo edukacyjne 🙂 

PS. W lekcji drugiej mini-kursu „Jak NIE robić wykresów?” również zwracałam Twoją uwagę na (nieco inne) kombinacje przy osiach. Na mini-kurs zapiszesz się poniżej 🙂

Dodaj komentarz