Czytając i analizując raporty, porównania, zestawienia i dane spotykamy różnego rodzaju średnie, które mają zobrazować pewien stan zjawiska celem porównania z innym okresem, konkurencją, inną branżą, czy po prostu, by jak najlepiej przedstawić skomplikowane procesy i obliczenia. Najczęściej mamy doświadczenia ze zwykłą średnią arytmetyczną. Niestety nie zawsze jest to dobra miara do odzwierciedlenia danego procesu, a czasami prowadzi ona do błędnych wniosków. Jakie zatem mamy możliwości uśredniania w analizie danych?
Jakie mamy średnie?
Przygotowaliśmy zestawienie najczęściej spotykanych miar średnich stosowanych zarówno w biznesie, jak i w codziennym życiu. Na początek delikatna matematyka i definicje a następnie ciekawe przykłady użycia:
- średnia arytmetyczna, czyli suma wszystkich danych podzielona przez ich liczbę. Dość dobrze się sprawdza, gdy wszystkie dane nie mają znaczących odchyleń i mieszczą się w relatywnie małych przedziałach. Tak możemy obrazować średnią miesięczną liczbę unikalnych użytkowników serwisu www w danym roku (z danych Google Analytics dodajemy kolejne miesięczne wyniki i dzielimy przez 12) i odnosić do niej wyniki poszczególnych miesięcy. Albo porównywać kolejne kwartały czy lata.
- średnia geometryczna, czyli iloczyn wszystkich danych i wyciągnięcie z niego pierwiastka takiego stopnia ile było tych danych. Wykorzystywana jest ona, gdy mamy do czynienia z wielkościami zmieniającymi się w postępie geometrycznym. Gdy mamy dużo pomiarów ekstremalnie różniących się od pozostałych, a zjawisko wykazuje wyraźną asymetrię albo gdy brak ważkich argumentów dla pominięcia wartości ekstremalnych. Średnią geometryczną stosujemy do obliczenia przeciętnego tempa wzrostu zjawiska. Przykładem dobrego wykorzystania takiej średniej jest wyliczanie wzrostu dochodu narodowego.
- średnia harmoniczna, to iloraz liczby danych przez sumę odwrotności tych danych. Używamy ją w sytuacjach, gdy dane są przedstawione w postaci względnej.
- średnia trymowana, to przykład średniej arytmetycznej ale liczonej dla okrojonej próby. Dane trzeba uporządkować w kolejności rosnącej i obcinamy początkowe i końcowe wartości ekstremalne a następnie z pozostałych danych wyliczamy średnią arytmetyczną. Zwykle odrzuca się do ¼ wyników z przodu i ¼ wyników z tyłu. Przykładem takiej średniej są wyliczenia średniego kursu NBP walut.
- mediana, to dokładnie wartość środkowa danych uporządkowanych w kolejności rosnącej. Jeśli danych jest parzysta liczba to za środek uznajemy średnią arytmetyczną 2 środkowych wartości.
- dominanta (moda), to wartość o największym prawdopodobieństwie bądź częstości wystąpienia. Ta, która pojawia się najczęściej – najwięcej razy. Co ciekawe dominant w zbiorze analizowanych danych może być kilka. Doskonale się sprawdza w przypadku zjawisk i zmiennych jakościowych. Dominanta jest często wykorzystywana w zagadnieniach społecznych czy ekonomicznych np. przy analizowaniu zagadnień płacowych, gdyż w niektórych przypadkach lepiej od powszechnie stosowanego średniego wynagrodzenia oddaje strukturę wynagrodzeń.
- środek rozstępu, to najprostsza miara polegająca na wybraniu skrajnych wartości próby, tej największej i najmniejszej. Bierzemy ich różnicę i dzielimy na pół. To miara najłatwiejsza do policzenia ale bardzo zależna od skrajnych wartości.
Studia przypadków, czyli kiedy stosowane są poszczególne średnie
Monitorując media aplikacją Newspoint dotarliśmy do kilku bardzo życiowych przypadków w których zastosowano przeróżne średnie. Oto one:
- Informacje prasowe
Analizując skuteczność wysyłek kolejnych informacji prasowych PR-owiec chce wiedzieć, czy jest lepiej czy gorzej. Czy informacje docierają do większego grona odbiorców, czy wysyłki z komunikatami są otwierane, czy w ogóle są one publikowane. Analizując dane z systemów wysyłkowych i monitorujących media sprawdzamy wyniki, jakie osiągały kolejne wysyłki. Teraz łatwo już o średnie arytmetyczne kwartalne czy roczne z wysyłek w kontekście otwarć, klików, liczby publikacji w określonych mediach, liczby przejść z hiperłączy czy zapytań od dziennikarzy.
Dla lepszego obrazu, warto wszystkie wysyłki pogrupować w osobne kategorie (produktowe, inwestorskie, promocje, informacyjne, HR, życzenia, newsletter) aby nie wrzucać wszystkiego worka. I przyrównywać wyniki konkretnych wysyłek do średnich w grupach a nie do średniej całościowej.
- CTR (współczynnik klikalności)
Przy wyliczaniu średniego współczynnika CTR kampanii reklamowej czy klikalności newslettera z dłuższego okresu (iloraz liczby kliknięć do liczby wyświetleń) warto zastosować dane z liczby kliknięć w tym dłuższym okresie i podzielić przez liczbę wyświetleń w tym samym okresie. Wyliczanie średniej z samych CTR krótszych okresów doprowadzi do błędu. Generalnie średnia z miesięcznych CTR-ów nie będzie poszukiwanym średnim rocznym CTR-em.
- Wynagrodzenia
GUS regularnie podaje średnią wynagrodzeń. Dla przykładu w grudniu 2017 wynosiło ono w Polsce 5 000 PLN brutto miesięcznie, czyli c.a. 3 500 PLN netto na rękę. Są to dane o płacach ponad 6 milionów Polaków zatrudnionych w przedsiębiorstwach różnych branż liczone średnią arytmetyczną. Niestety taka średnia ma się nijak dla celów poznawczych i porównawczych przeciętnego Kowalskiego. Jak wynika z raportu Newsweeka 2018 “Krezusi i reszta” jest ona zawyżana przez olbrzymie pensje prezesów i menedżerów wysokiego szczebla spółek giełdowych i oddziałów międzynarodowych korporacji oraz pracowników państwowych molochów węglowych, paliwowych i energetycznych.
Dużo lepiej stan naszych wynagrodzeń zobrazuje mediana, która w grudniu 2016 wyniosła ponad 2 500 PLN netto miesięcznie oraz dominanta, która wyniosła w 2016 roku 1 500 PLN netto a w 2017 roku 1 600 PLN netto. Teraz ładnie widać, jak to ma się do wyniku wygórowanej średniej arytmetycznej.
- Opinia na dany temat
Przeprowadzając badanie danego zjawiska często się zdarza, że spotykamy się z kilkoma, albo nawet więcej, różnymi opiniami. Którą uznać za właściwą? Najlepiej tą, która wymieniana jest najczęściej. Przecież w przypadku zjawisk jakościowych nie wybierzemy żadnej średniej – no bo niby, jak to zrobić?
Z tego typu wyzwaniem stoi analityk w badaniu danych pochodzących z monitoringu mediów. Wyeksportowanie publikacji do pliku Excela pozwoli na ich posegregowanie po dacie, źródle, wydźwięku, liczbie polubień czy komentarzy albo innych metadanych. Taki arkusz można teraz przejrzeć wedle wytyczonych kryteriów pod kątem najczęściej występujących opinii. Jeśli jedna z nich dominuje (dominanta) – pojawia się najczęściej to możemy uznać ją za tą najbardziej odpowiednią.
- Wiedza tłumu
Jeśli jakieś zjawisko nia da się dokładnie przeliczyć musimy zastosować się do metod szacunkowych. Załóżmy, że PR-owiec chce zbadać liczbę użytkowników dużej imprezy czy targów organizowanych przez konkurencję. Takich danych nie uzyskamy bezpośrednio. Pozostaje szacowanie. Żeby wynik był obarczony jak najmniejszym błędem warto poprosić kilku naszych pracowników czy znajomych o dyskretne przeliczenie liczby osób na sali. Prawdopodobnie każdy poda inny wynik. Jeśli do zadania asygnowaliśmy dużą liczbę osób to ich wyniki uśredniamy (może być średnia arytmetyczna albo mediana) i dzięki temu przeszacowania i niedoszacowania powinny się wzajemnie znieść. Wynik będzie bliski temu właściwemu. Im więcej osób liczyło tym lepiej. Gdybyśmy zrobili to sami, to szansa na błąd byłaby dużo większa.
- Jaki film obejrzeć?
Oceny filmów, które internauci przyznają na serwisie Filmweb są idealnym przykładem dobrego wykorzystania średniej arytmetycznej. Filmy oceniamy tam w skali od 1 do 10. To jest mała rozpiętość i dlatego ta średnia ma tu idealne zastosowanie. I zazwyczaj, jeśli lubimy dany gatunek filmu, to średnia, jaką uzyskała dana produkcja pozwoli na podjęcie wyboru, czy oglądać, czy szkoda czasu.
Przy bardzo dużej liczbie oceniających, każda kolejna nota, jakakolwiek by nie była, niemal nigdy nie zmienia średniej filmu. Spróbujcie ją zmienić. Nam się jeszcze nie udało przy żadnym filmie.
- Skoki narciarskie
Skoki są od lat najpopularniejszą zimową dyscypliną naszych kibiców sportowych. Do not zawodników za skok, oprócz długości skoku, belki z której się skacze, siły wiatru podczas skoku dodaje się noty sędziowskie. Ale nie wszystkie. Usuwa się skrajne oceny (odrzuca się najwyższą i najniższą notę). To zmodyfikowany przykład średniej trymowanej. Podobnie jest w konkursach tańca na lodzie czy brydżu sportowym w turniejach na tzw. średnią, gdzie skrajne wyniki bardzo wypaczają średnią rozdania.
- Średnia prędkość
Przykładem wykorzystania średniej harmonicznej są wyliczenia średniej przejazdu. Cofnijmy się teraz do słów piosenki Maryli Rodowicz o dwóch pociągach i pokażemy, jak dużym błędem jest liczenie średniej prędkości przejazdu poprzez wykorzystanie średniej arytmetycznej. Jeśli przykładowo w jedną stronę na danej płaskiej trasie poruszamy się ze średnią 40 km/h a z powrotem już 60 km/h to błędem byłoby twierdzić, że średnia prędkość całej podróży wyniosła 50 km/h (jak podpowiada nasza intuicja). W przypadku prędkości to tak nie działa. Musimy skorzystać ze średniej harmonicznej. Wyliczenia wskazują, że prawidłowy wynik wynosi 48 km/h.
- Stopa zwrotu z inwestycji
Jeśli inwestujemy pewną kwotę na kilka lat, to jak wyliczyć średni zysk? To najtrudniejszy przykład z matematyką związany. Załóżmy, że zyski z kolejnych lat wyniosły 60%, 10% i 20%. Czy średni zysk to 60+10+20 dzielone przez 3, czyli 30%? Zobaczmy.
Załóżmy, że zainwestowaliśmy 1000 PLN. Po roku mamy 1600 PLN. Po 2 latach 1600 + 160 to już 1760 PLN. Po 3 roku 1760 + 352, czyli 2112 PLN.
Czy to jest rzeczywiście 30% rocznie? Gdyby tak było to:
Mamy 1000 PLN. Po roku byłoby 1300 PLN. Po 2 latach 1300 + 390 czyli 1690 PLN. Po 3 latach 1690 + 507 daje 2197 PLN.
Coś jest nie tak. Wyszły różne kwoty.
Jak doszliśmy do poprawnego wyniku 2112? Mnożyliśmy 1000 przez 1,6 potem przez 1,1 i 1,2. Sprawdźmy 1000*1,6*1,1*1,2 = 2112. Super.
Czyli szukamy takiego x aby 1000*x*x*x=2112 (dzielimy przez tysiąc obie strony),
zatem x*x*x=2,112,
a to już łatwo – kalkulator w dłoń i szukamy pierwiastka 3 stopnia z 2,112, co daje w wyniku 1,283 (w przybliżeniu).
Zatem prawidłowa poszukiwana średnia to 28,3%.
A to nic innego, jak średnia geometryczna -> mnożymy poszczególne stopy zwrotu i wyciągamy pierwiastek odpowiedniego stopnia.
Trzeba wiedzieć, co i jak liczyć
Zanim zdecydujemy się na wybór konkretnej miary do oceny zjawiska musimy dobrze zdiagnozować problem. Decyzja czy zastosować taką czy inną średnią zależy od tego, co chcemy zobrazować i jak taką daną zinterpretuje potem odbiorca (kierownik, zarząd, czytelnik, klient). Nie należy też stosować miar bez uprzedniego rozważenia kontekstu, w jakim zostaną użyte. A wskaźników uniwersalnych nie ma. O pomyłkę nietrudno.
Dane z Google Trends