Jest początek listopada 2020. Cały sportowy świat wciąż mierzy się z ograniczeniami spowodowanymi COVID-19. Większość europejskich lig rozgrywa mecze przy pustych stadionach, chociaż to może i tak dobrze biorąc pod uwagę, że na wiosnę nie było tak kolorowo. Mimo tego całego zamieszania mecze są rozgrywane, ligi kontynuowane, większość meczów odbywa się po prostu w innej rzeczywistości. Dla fanów najważniejsze, że w ogóle się odbywają, więc nie powinniśmy narzekać widząc, że sama epidemia w dalszym ciągu nabiera tempa.

O ile, my kibice, mamy zapewnioną rozrywkę, o tyle piłkarze już dawno nie mieli tak ciasnego terminarza. Z racji na przesunięcie się całego sezonu w wielu ligach mamy do czynienia z bardzo gęstym rozplanowaniem meczów reprezentacji oraz klubów. Efekty takiego stanu rzeczy możemy zauważyć już teraz. W wielu ligach europejskich dosyć zaskakująco kształtował się układ górnej części tabeli. Oczywiście, jesteśmy na początku sezonu – to wszystko może jeszcze wiele razy ulec zmianie jednak sam fakt, takiego ułożenia mającego miejsce w topowych ligach w Europie jest interesujący.

W tym materiale chciałbym przyjrzeć się i przeanalizować pewne statystki piłkarskie w celu sprawdzenia, czy zmieniły się one znacząco na przestrzeni ostatnich miesięcy. Naszym celem będzie porównanie piłki nożnej do jakiej byliśmy przyzwyczajeni z meczami rozgrywanymi po wznowieniu rozgrywek w czerwcu przerwą spowodowaną COVID-19. Załęcze tutaj wiele wykresów, które pomogą w interpretacji i znalezieniu amonali. Większość statystyk, które będziemy tutaj analizować ciągle dostępna jest na stronie Statystyki piłkarskie oraz https://mlfootballbet.link/football-statistic/.

Po tym wstępie wypada mi tylko i wyłącznie zaprosić do lektury i do samodzielnego interpretowania rysunków przedstawionych niżej. Na koniec oczywiście podzielcie się również swoimi wrażeniami a może i ciekawymi wnioskami.

Założenia

Przed rozpoczęciem części obrazowej i statystycznej muszę przedstawić założenia, którymi kierowałem się przy budowie poniższych analiz.

  1. Porównujemy statystki piłkarskie otrzymane przed wprowadzonymi obostrzeniami w związku z COVID-19 z tymi po wznowieniu rozgrywek,
  2. Zbiór danych „przed-covidowych” zawiera sezon 2019/2020 do momentu zawieszenia rozgrywek (mniej więcej do maja 2020),
  3. Zbiór danych „po-covidowych” obejmuje cały aktualny sezon oraz tę cześć poprzedniego sezonu, która odbywała się po wznowieniu rozgrywek,
  4. Wyłącznie dla wybranych różnic i parametrów będę sprawdzał ich istotność statystyczną, zakładając poziom ufności równy 95%,
  5. Całość analizy została przeprowadzona w R generując wykresy, które są głównym źródłem interpretacji oraz analizy

Przewaga własnego boiska

Przy analizie wpływu kibiców podczas meczu, a raczej ich braku na nim, powinniśmy zacząć od parametru zwanego przewagą własnego boiska. Jaki więc wpływ na końcowy wynik mają fani na stadionie wspierający swoją drużynę? Na przewagę własnego boiska składa się również sam fakt rozgrywania meczu na własnym placu, co też w pewnych aspektach mogłoby mieć znaczenie. Rozgrywanie meczu poza własnym boiskiem wiąże się również z konieczności wyjazdu na spotkanie. Sprawdźmy zatem jak zmieniła się ta statystyka na przestrzeni ostatniego czasu. Mam dużą nadzieję na znalezienie interesujących faktów.

Procentowy rozkład końcowych wyników

Na pierwszy ogień – procent wygranych meczów u siebie przez gospodarza w czterech wybranych ligach europejskich

We wszystkich przedstawionych wyżej ligach mogliśmy zaobserwować spadek procentu wygranych meczów u siebie. Można było się tego spodziewać, biorąc pod uwagę utratę tzw. „12. zawodnika” podczas meczu na własnym boisku.

Sprawdźmy jednak czy różnice te są statystycznie istotne. Największy spadek można zaobserwować w Bundeslidze, dlatego dla niej zbadanym istotność statystyczną. Do tego celu skorzystam z funkcji prop.test() . Wynik jest następujący:

2-sample test for equality of proportions with continuity correction
 data:  c(94, 51) out of c(216, 154)
 X-squared = 3.6568, df = 1, p-value = 0.02792
 alternative hypothesis: greater
 95 percent confidence interval:
  0.01496741 1.00000000
 sample estimates:
    prop 1    prop 2 
 0.4351852 0.3311688 

Teraz dłuższe zdanie 🙂 Nie zagłębiając się w szczegóły, przy poziomie istotności równym 0.95, możemy odrzucić hipotezę zerową o równości proporcji wygranych meczów u siebie przez gospodarza w próbkach przed i po zawieszeniu rozgrywek na rzecz hipotezy alternatywnej mówiącej, że procent wygranych meczów przez gospodarza u siebie był istotnie większy od zaobserwowanej tej samej wartości po wznowieniu rozgrywek. Uff. Mówiąc krótko, różnica w tym przypadku jest istotna statystycznie. Co ciekawe, dla pozostałych 3 przypadków (Serie A, Premier League oraz La Liga) różnica ta nie była istotna statystycznie przy poziomie ufności równym 95% (gdybyśmy „poluzowali” poziom ufności do 0.92 – różnica w lidze angielskiej okazałaby się istotna statystycznie).

W pozostałych ligach europejskich wyglądało to następująco (kliknij, żeby zbliżyć obrazek):

Wyłącznie w Holandii różnica okazała się być istotna statystycznie przy naszych założeniach. W Polsce, mimo dosyć znaczącego spadku, różnica nie okazała się statystycznie istotna. Według danych udział meczów wygranych u siebie spadł w Ekstraklasie o 8,4 pkt. procentowego.

Interesującym faktem okazał się brak zmiany w udziale wszystkich spotkań – meczów zremisowanych (oprócz Bundesligi oraz Eredivisie) co świadczyłoby o stosunkowej stabilności tej statystyki. Historyczne dane możecie zawsze obejrzeć np tu w pierwszej zakładce aplikacji shiny: https://mlfootballbet.link/football-statistic/.

Średnia liczba goli w meczu

Teraz przeanalizujemy jak zmieniała się statystka goli, które padały w meczach przed i po maju 2020. Do wszystkich pozostałych parametrów będę załączał po dwa wykresy, zasadniczo przedstawiające te same dane ale w inny sposób. Będzie to prosty wykres słupkowy oraz nieco inny wykres przedstawiający w sposób czelniejszy spadek/wzrost danej statystyki przed i po. Jako odnośnik dodana została zmienna „Average” charakteryzująca średnią dla wszystkich analizowanych lig.

Co ciekawe generalnie liczba goli w meczu spadała, nieznacznie ale jednak. Na to największy wpływ miała liga: Serie A oraz Ligue 1, w których to spadek średniej liczby golu był największy. Wzrosty można było zaobserwować wyłącznie w Bundeslidze, Championship oraz La Lidze. W Ekstraklasie (nie załączonej na wykresie) średnia liczba goli wzrosła z 2.52 do 2.76.

Średnia liczba goli w meczu gospodarzy i gości

Kiedy już wiemy jak przestawia się ogólna liczba goli w meczu, możemy zagłębić się w bardziej szczegółową analizę tej statystyki. Rozbijemy gole strzelone przez gospodarzy oraz gości.

No to zrobiło się ciekawie. Przyznam się szczerze, że nie spodziewałem się takiego wyniku, biorąc pod uwagę spadek meczów wygranych u siebie przez gospodarza. Z danych wynika jednak, że w większości liczba strzelonych goli przez gości spadła na przestrzeni ostatnich miesięcy. Z drugiej strony natomiast średnia liczba goli strzelonych przez gospodarzy – wzrosła w 4 z 8 analizowanych lig. Średnio jednak nieznacznie wzrosły, natomiast gole gości znacząco zmalały.

Przy badaniu istotności statystycznej wykorzystałem kolejno następujące funkcje w R: shapiro.test(), var.test() oraz t.test() (na podstawie http://www.sthda.com/english/wiki/unpaired-two-samples-t-test-in-r). I tak output dla średniej liczby goli gospodarzy w Serie A wygląda następująco:

Two Sample t-test
 data:  FTHG by COVID
 t = 2.4439, df = 427, p-value = 0.01493
 alternative hypothesis: true difference in means is not equal to 0
 95 percent confidence interval:
  0.06193707 0.57092059
 sample estimates:
  mean in group After mean in group Before 
             1.855491             1.539062 

Co w skrócie przy naszych założeniach świadczy o statystycznie istotnej różnicy w średniej liczbie goli w meczu strzelonych przez gospodarzy w Serie A przed i po wznowieniu rozgrywek w 2020.

Średnia liczba strzałów w meczu

Jako kolejne przeanalizujemy średnią liczbę strzałów w meczu, szukając interesujących różnic.

Wyłącznie w lidze portugalskiej oraz holenderskiej zaobserwować możemy spadek średniej liczby strzałów na mecz. Średnio w analizowanych ligach ten parametr wzrósł o prawie 1 strzał na mecz. W Bundeslidze natomiast statystka ta wzrosła o prawie 2.

Średnia liczba strzałów na mecz gospodarzy i gości

A jak wygląda ten parametr w rozbiciu na strzały gospodarzy oraz gości?

Ku sporemu zaskoczeniu zauważamy wzrost średniej liczby strzałów w meczu drużyny przyjezdnych we wszystkich analizowanych ligach!

Strzały celne

Strzały celne nie wymagają większego komentarza biorąc pod uwagę ich powiązanie z ogólną liczbą strzałów w meczu. Wszystkie wykresy załączam zatem poniżej.

Średnia liczba strzałów celnych gospodarzy wzrosła w każdej z analizowanych lig. Ogólna liczba celnych strzałów w dwóch analizowanych grupach wzrosła lub zmalała stosunkowo niewiele, więc tu ciężej o interesujące wnioski.

Faule i kartki

Popełnione faule – średnia liczba popełnionych fauli w meczu

Statystka ta w 6 na 8 analizowanych ligach zmalała po wznowieniu rozgrywek. Wyłącznie w La Lidze oraz Serie A – wzrosła. Średnio parametr ten zmalał o prawie 3 faule na mecz. Największy nominalny spadek średniej liczby fauli na mecz można było zaobserwować w Bundeslidze.

Przy analizie średniej liczby popełnionych fauli gospodarzy i gości nie znalazłem nic interesującego ponad to co widnieje powyżej. Niemniej, zamieszczę te wykresy poniżej.

Kartki w meczu

Przechodzimy płynnie do ostatniego tutaj elementu naszej analizy. Na tapet weźmiemy średnią liczbę kartek w meczu. Zaczniemy od żółtych kartek.

Średnia liczba żółtych kartek w meczu

Dzieje się sporo. Średnio liczba kartek w meczu wzrosła o około 0.2 na mecz. Bardzo duży skok kartek zaobserwować możemy w Serie A, gdzie nominalnie liczba ta wzrosła aż o 1.3 kartki na mecz! Dosyć spory spadek możemy zaobserwować w Ligue 1 (średnio jedna żółta kartka na mecz mniej). Obie te różnice są statystycznie istotne na poziomie ufności wynoszący według naszych założeń: 95%.

Żółte kratki gospodarzy i gości

Co ciekawe, jeśli chodzi o kartki gości, to wyłącznie w pierwszej lidze francuskiej można było zaobserwować spadek średniej liczby kartek gości. Wszystkie pozostałe ligi zanotowały wzrost tej statystyki.

Średnia liczba czerwonych kartek w meczu

Bardzo wiele interesujących faktów możemy wyciągnąć z powyższych wykresów. Zaskakujący jest tak diametralny spadek w Ligue 1. Taki wodospad musiałem sprawdzić pod względem statystycznym, jednak okazuje się, że różnica ta jest statystycznie istotna przy naszych założeniach. Poza Ligue 1 spory spadek zanotowała również liga holenderska. Z drugiej jednak strony Serie A może „pochwalić” się dosyć sporym nominalnym wzrostem średniej liczby czerwonych kartek w meczu po wznowieniu rozgrywek spowodowanej wirusem.

Czerwone kartki gospodarzy i gości

Wyłącznie liga włoska zanotowała wzrost średniej liczby czerwonych kartek popełnionych przez gospodarzy po przerwie. Cała reszta może pochwalić się spadkiem tej statystki. Jeśli chodzi o średnią liczbę kartek gości – wnioski analogicznej jak do ogólnej liczby czerwonych kartek w meczu.

Podsumowanie

Tym samym doszliśmy do końca materiału, który przygotowałem. Mam nadzieję, że znaleźliście interesujące informacje w nim. Wnioski dotyczące tej analizy mogą być dosyć subiektywne dlatego starałem się ich tu nie uwzględniać. Powodów do wzrostów lub spadków poszczególnych statystyk może być wiele, niekoniecznie też takich, o których sam pomyślałem Przedstawione zostały tu „suche fakty”, do których każdy może dorobić swoją historię :). Dajcie znać w komentarzach jak podobał się tekst ale również przedstawcie swoje pomysły na powodach takich a nie innych zmian parametrów.

Na koniec zapraszam oczywiście do śledzenia prognoz meczów piłkarskich w największych ligach europejski na podstawie uczenia maszynowego na stronę https://mlfootballbet.link/.