Jest początek listopada 2020. Cały sportowy świat wciąż mierzy się z ograniczeniami spowodowanymi COVID-19. Większość europejskich lig rozgrywa mecze przy pustych stadionach, chociaż to może i tak dobrze biorąc pod uwagę, że na wiosnę nie było tak kolorowo. Mimo tego całego zamieszania mecze są rozgrywane, ligi kontynuowane, większość meczów odbywa się po prostu w innej rzeczywistości. Dla fanów najważniejsze, że w ogóle się odbywają, więc nie powinniśmy narzekać widząc, że sama epidemia w dalszym ciągu nabiera tempa.
O ile, my kibice, mamy zapewnioną rozrywkę, o tyle piłkarze już dawno nie mieli tak ciasnego terminarza. Z racji na przesunięcie się całego sezonu w wielu ligach mamy do czynienia z bardzo gęstym rozplanowaniem meczów reprezentacji oraz klubów. Efekty takiego stanu rzeczy możemy zauważyć już teraz. W wielu ligach europejskich dosyć zaskakująco kształtował się układ górnej części tabeli. Oczywiście, jesteśmy na początku sezonu – to wszystko może jeszcze wiele razy ulec zmianie jednak sam fakt, takiego ułożenia mającego miejsce w topowych ligach w Europie jest interesujący.
W tym materiale chciałbym przyjrzeć się i przeanalizować pewne statystki piłkarskie w celu sprawdzenia, czy zmieniły się one znacząco na przestrzeni ostatnich miesięcy. Naszym celem będzie porównanie piłki nożnej do jakiej byliśmy przyzwyczajeni z meczami rozgrywanymi po wznowieniu rozgrywek w czerwcu przerwą spowodowaną COVID-19. Załęcze tutaj wiele wykresów, które pomogą w interpretacji i znalezieniu amonali. Większość statystyk, które będziemy tutaj analizować ciągle dostępna jest na stronie Statystyki piłkarskie oraz https://mlfootballbet.link/football-statistic/.
Po tym wstępie wypada mi tylko i wyłącznie zaprosić do lektury i do samodzielnego interpretowania rysunków przedstawionych niżej. Na koniec oczywiście podzielcie się również swoimi wrażeniami a może i ciekawymi wnioskami.
Założenia
Przed rozpoczęciem części obrazowej i statystycznej muszę przedstawić założenia, którymi kierowałem się przy budowie poniższych analiz.
- Porównujemy statystki piłkarskie otrzymane przed wprowadzonymi obostrzeniami w związku z COVID-19 z tymi po wznowieniu rozgrywek,
- Zbiór danych „przed-covidowych” zawiera sezon 2019/2020 do momentu zawieszenia rozgrywek (mniej więcej do maja 2020),
- Zbiór danych „po-covidowych” obejmuje cały aktualny sezon oraz tę cześć poprzedniego sezonu, która odbywała się po wznowieniu rozgrywek,
- Wyłącznie dla wybranych różnic i parametrów będę sprawdzał ich istotność statystyczną, zakładając poziom ufności równy 95%,
- Całość analizy została przeprowadzona w R generując wykresy, które są głównym źródłem interpretacji oraz analizy
Przewaga własnego boiska
Przy analizie wpływu kibiców podczas meczu, a raczej ich braku na nim, powinniśmy zacząć od parametru zwanego przewagą własnego boiska. Jaki więc wpływ na końcowy wynik mają fani na stadionie wspierający swoją drużynę? Na przewagę własnego boiska składa się również sam fakt rozgrywania meczu na własnym placu, co też w pewnych aspektach mogłoby mieć znaczenie. Rozgrywanie meczu poza własnym boiskiem wiąże się również z konieczności wyjazdu na spotkanie. Sprawdźmy zatem jak zmieniła się ta statystyka na przestrzeni ostatniego czasu. Mam dużą nadzieję na znalezienie interesujących faktów.
Procentowy rozkład końcowych wyników
Na pierwszy ogień – procent wygranych meczów u siebie przez gospodarza w czterech wybranych ligach europejskich
Przewaga własnego boiska – Premier League, Bundesliga, La Liga oraz Serie A
We wszystkich przedstawionych wyżej ligach mogliśmy zaobserwować spadek procentu wygranych meczów u siebie. Można było się tego spodziewać, biorąc pod uwagę utratę tzw. „12. zawodnika” podczas meczu na własnym boisku.
Sprawdźmy jednak czy różnice te są statystycznie istotne. Największy spadek można zaobserwować w Bundeslidze, dlatego dla niej zbadanym istotność statystyczną. Do tego celu skorzystam z funkcji prop.test() . Wynik jest następujący:
2-sample test for equality of proportions with continuity correction
data: c(94, 51) out of c(216, 154)
X-squared = 3.6568, df = 1, p-value = 0.02792
alternative hypothesis: greater
95 percent confidence interval:
0.01496741 1.00000000
sample estimates:
prop 1 prop 2
0.4351852 0.3311688
Teraz dłuższe zdanie 🙂 Nie zagłębiając się w szczegóły, przy poziomie istotności równym 0.95, możemy odrzucić hipotezę zerową o równości proporcji wygranych meczów u siebie przez gospodarza w próbkach przed i po zawieszeniu rozgrywek na rzecz hipotezy alternatywnej mówiącej, że procent wygranych meczów przez gospodarza u siebie był istotnie większy od zaobserwowanej tej samej wartości po wznowieniu rozgrywek. Uff. Mówiąc krótko, różnica w tym przypadku jest istotna statystycznie. Co ciekawe, dla pozostałych 3 przypadków (Serie A, Premier League oraz La Liga) różnica ta nie była istotna statystycznie przy poziomie ufności równym 95% (gdybyśmy „poluzowali” poziom ufności do 0.92 – różnica w lidze angielskiej okazałaby się istotna statystycznie).
W pozostałych ligach europejskich wyglądało to następująco (kliknij, żeby zbliżyć obrazek):
Wyłącznie w Holandii różnica okazała się być istotna statystycznie przy naszych założeniach. W Polsce, mimo dosyć znaczącego spadku, różnica nie okazała się statystycznie istotna. Według danych udział meczów wygranych u siebie spadł w Ekstraklasie o 8,4 pkt. procentowego.
Interesującym faktem okazał się brak zmiany w udziale wszystkich spotkań – meczów zremisowanych (oprócz Bundesligi oraz Eredivisie) co świadczyłoby o stosunkowej stabilności tej statystyki. Historyczne dane możecie zawsze obejrzeć np tu w pierwszej zakładce aplikacji shiny: https://mlfootballbet.link/football-statistic/.
Średnia liczba goli w meczu
Teraz przeanalizujemy jak zmieniała się statystka goli, które padały w meczach przed i po maju 2020. Do wszystkich pozostałych parametrów będę załączał po dwa wykresy, zasadniczo przedstawiające te same dane ale w inny sposób. Będzie to prosty wykres słupkowy oraz nieco inny wykres przedstawiający w sposób czelniejszy spadek/wzrost danej statystyki przed i po. Jako odnośnik dodana została zmienna „Average” charakteryzująca średnią dla wszystkich analizowanych lig.
Co ciekawe generalnie liczba goli w meczu spadała, nieznacznie ale jednak. Na to największy wpływ miała liga: Serie A oraz Ligue 1, w których to spadek średniej liczby golu był największy. Wzrosty można było zaobserwować wyłącznie w Bundeslidze, Championship oraz La Lidze. W Ekstraklasie (nie załączonej na wykresie) średnia liczba goli wzrosła z 2.52 do 2.76.
Średnia liczba goli w meczu gospodarzy i gości
Kiedy już wiemy jak przestawia się ogólna liczba goli w meczu, możemy zagłębić się w bardziej szczegółową analizę tej statystyki. Rozbijemy gole strzelone przez gospodarzy oraz gości.
Średnia liczba goli w meczu gospodarzy – bar plot Średnia liczba goli w meczu gospodarzy – slope plot Średnia liczba goli w meczu gości – slope plot Średnia liczba goli w meczu gości – bar plot
No to zrobiło się ciekawie. Przyznam się szczerze, że nie spodziewałem się takiego wyniku, biorąc pod uwagę spadek meczów wygranych u siebie przez gospodarza. Z danych wynika jednak, że w większości liczba strzelonych goli przez gości spadła na przestrzeni ostatnich miesięcy. Z drugiej strony natomiast średnia liczba goli strzelonych przez gospodarzy – wzrosła w 4 z 8 analizowanych lig. Średnio jednak nieznacznie wzrosły, natomiast gole gości znacząco zmalały.
Przy badaniu istotności statystycznej wykorzystałem kolejno następujące funkcje w R: shapiro.test(), var.test() oraz t.test() (na podstawie http://www.sthda.com/english/wiki/unpaired-two-samples-t-test-in-r). I tak output dla średniej liczby goli gospodarzy w Serie A wygląda następująco:
Two Sample t-test
data: FTHG by COVID
t = 2.4439, df = 427, p-value = 0.01493
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.06193707 0.57092059
sample estimates:
mean in group After mean in group Before
1.855491 1.539062
Co w skrócie przy naszych założeniach świadczy o statystycznie istotnej różnicy w średniej liczbie goli w meczu strzelonych przez gospodarzy w Serie A przed i po wznowieniu rozgrywek w 2020.
Średnia liczba strzałów w meczu
Jako kolejne przeanalizujemy średnią liczbę strzałów w meczu, szukając interesujących różnic.
Średnia liczba strzałów w meczu – bar plot Średnia liczba strzałów w meczu – slope plot
Wyłącznie w lidze portugalskiej oraz holenderskiej zaobserwować możemy spadek średniej liczby strzałów na mecz. Średnio w analizowanych ligach ten parametr wzrósł o prawie 1 strzał na mecz. W Bundeslidze natomiast statystka ta wzrosła o prawie 2.
Średnia liczba strzałów na mecz gospodarzy i gości
A jak wygląda ten parametr w rozbiciu na strzały gospodarzy oraz gości?
Średnia liczba strzałów na bramkę gospodarzy – bar plot Średnia liczba strzałów na bramkę gospodarzy – slope plot Średnia liczba strzałów na bramkę gości- bar plot Średnia liczba strzałów na bramkę gospodarzy – slope plot
Ku sporemu zaskoczeniu zauważamy wzrost średniej liczby strzałów w meczu drużyny przyjezdnych we wszystkich analizowanych ligach!
Strzały celne
Strzały celne nie wymagają większego komentarza biorąc pod uwagę ich powiązanie z ogólną liczbą strzałów w meczu. Wszystkie wykresy załączam zatem poniżej.
Średnia liczba celnych strzałów na bramkę w meczu – bar plot Średnia liczba celnych strzałów na bramkę w meczu – slope plot Średnia liczba celnych strzałów gospodarzy na bramkę – bar plot Średnia liczba celnych strzałów gospodarzy na bramkę – slope plot Średnia liczba celnych strzałów gości na bramkę – bar plot Średnia liczba celnych strzałów gości na bramkę – slope plot
Średnia liczba strzałów celnych gospodarzy wzrosła w każdej z analizowanych lig. Ogólna liczba celnych strzałów w dwóch analizowanych grupach wzrosła lub zmalała stosunkowo niewiele, więc tu ciężej o interesujące wnioski.
Faule i kartki
Popełnione faule – średnia liczba popełnionych fauli w meczu
Średnia liczba popełnionych fauli w meczu – bar plot Średnia liczba popełnionych fauli w meczu – slope plot
Statystka ta w 6 na 8 analizowanych ligach zmalała po wznowieniu rozgrywek. Wyłącznie w La Lidze oraz Serie A – wzrosła. Średnio parametr ten zmalał o prawie 3 faule na mecz. Największy nominalny spadek średniej liczby fauli na mecz można było zaobserwować w Bundeslidze.
Przy analizie średniej liczby popełnionych fauli gospodarzy i gości nie znalazłem nic interesującego ponad to co widnieje powyżej. Niemniej, zamieszczę te wykresy poniżej.
Średnia liczba fauli popełnionych przez gospodarzy – slope plot Średnia liczba fauli popełnionych przez gospodarzy – bar plot Średnia liczba fauli popełnionych przez gości – slope plot Średnia liczba fauli popełnionych przez gości – bar plot
Kartki w meczu
Przechodzimy płynnie do ostatniego tutaj elementu naszej analizy. Na tapet weźmiemy średnią liczbę kartek w meczu. Zaczniemy od żółtych kartek.
Średnia liczba żółtych kartek w meczu
Średnia liczba żółtych kartek w meczu – bar plot Średnia liczba żółtych kartek w meczu – slope plot
Dzieje się sporo. Średnio liczba kartek w meczu wzrosła o około 0.2 na mecz. Bardzo duży skok kartek zaobserwować możemy w Serie A, gdzie nominalnie liczba ta wzrosła aż o 1.3 kartki na mecz! Dosyć spory spadek możemy zaobserwować w Ligue 1 (średnio jedna żółta kartka na mecz mniej). Obie te różnice są statystycznie istotne na poziomie ufności wynoszący według naszych założeń: 95%.
Żółte kratki gospodarzy i gości
Średnia liczba żółtych kartek gospodarzy w meczu Średnia liczba żółtych kartek gości w meczu
Co ciekawe, jeśli chodzi o kartki gości, to wyłącznie w pierwszej lidze francuskiej można było zaobserwować spadek średniej liczby kartek gości. Wszystkie pozostałe ligi zanotowały wzrost tej statystyki.
Średnia liczba czerwonych kartek w meczu
Średnia liczba czerwonych kartek w meczu – bar plot Średnia liczba czerwonych kartek w meczu – slope plot
Bardzo wiele interesujących faktów możemy wyciągnąć z powyższych wykresów. Zaskakujący jest tak diametralny spadek w Ligue 1. Taki wodospad musiałem sprawdzić pod względem statystycznym, jednak okazuje się, że różnica ta jest statystycznie istotna przy naszych założeniach. Poza Ligue 1 spory spadek zanotowała również liga holenderska. Z drugiej jednak strony Serie A może „pochwalić” się dosyć sporym nominalnym wzrostem średniej liczby czerwonych kartek w meczu po wznowieniu rozgrywek spowodowanej wirusem.
Czerwone kartki gospodarzy i gości
Średnia liczba czerwonych kartek w meczu gospodarzy Średnia liczba czerwonych kartek w meczu gości
Wyłącznie liga włoska zanotowała wzrost średniej liczby czerwonych kartek popełnionych przez gospodarzy po przerwie. Cała reszta może pochwalić się spadkiem tej statystki. Jeśli chodzi o średnią liczbę kartek gości – wnioski analogicznej jak do ogólnej liczby czerwonych kartek w meczu.
Podsumowanie
Tym samym doszliśmy do końca materiału, który przygotowałem. Mam nadzieję, że znaleźliście interesujące informacje w nim. Wnioski dotyczące tej analizy mogą być dosyć subiektywne dlatego starałem się ich tu nie uwzględniać. Powodów do wzrostów lub spadków poszczególnych statystyk może być wiele, niekoniecznie też takich, o których sam pomyślałem Przedstawione zostały tu „suche fakty”, do których każdy może dorobić swoją historię :). Dajcie znać w komentarzach jak podobał się tekst ale również przedstawcie swoje pomysły na powodach takich a nie innych zmian parametrów.
Na koniec zapraszam oczywiście do śledzenia prognoz meczów piłkarskich w największych ligach europejski na podstawie uczenia maszynowego na stronę https://mlfootballbet.link/.
Dzięki za tekst. Trochę jestem zaskoczony, że mimo spadku zwycięstw gospodarzy o 7,4 pp. w Premier League z czego 6,2 pp. przeszło na stronę zwycięstw gości to różnica nie była istotna statystycznie. Nie pamiętam konstrukcji tych testów – czy jeśli ta dysproporcja utrzyma się w kolejnych meczach na dokładnie tym poziomie to będą podstawy do stwierdzenia istotności? Intuicja podpowiada, że tak…
PolubieniePolubienie
Tak, zgadza się. Jeśli tendencja się utrzyma już po najbliższej kolejce albo góra dwóch powinny wpaść w statystycznie istotną różnice. Kwestia wyłącznie wielkości próbki
PolubieniePolubienie
Bardzo fajny ten drugi typ wykresu, wg mnie o wiele lepszy od słupkowego:)
Mi najbardziej w oczy rzuciło się coś co akurat przez epidemię się nie zmieniło – w Seria A mają najmniej strzałów, ale najwięcej celnych, wychodzi ponad 50%! Ciekawe z czego to wynika – piłkarze mnie ryzykują ze strzałami? A może statystyki inaczej liczą :p
Fajnie by było mieć benchmark z poprzedniego sezonu (albo średnią z kilku).
PolubieniePolubienie
Dzięki z komentarz. Jeśli chodzi o benchmark, sam o tym myślałem podczas tworzenia tekstu ale sporo danych mogło zagłuszyć wydźwięk. Wrzucę średnie dla wszystkich statystyk jako oddzielny plik 🙂
PolubieniePolubienie