Uma breve história das estatísticas no futebol: por que os gols reais continuam sendo importantes para prever quem vai vencer
Em 2017, o Match of the Day da BBC introduziu uma nova estatística em seus resumos pós-jogo das partidas da Premier League. Os gols esperados, ou xG, são projetados para nos dizer quantos gols um time deveria ter marcado com base na...
Jogadores com pontuação alta como Mo Salah podem expor uma das principais fraquezas da métrica xG. Crédito: Review News/Shutterstock
Em 2017, o Match of the Day da BBC introduziu uma nova estatística em seus resumos pós-jogo das partidas da Premier League. Os gols esperados, ou xG, são projetados para nos dizer quantos gols um time deveria ter marcado com base na qualidade das chances criadas em um jogo. É amado por estatísticos amadores e profissionais que desejam usar dados para analisar o desempenho.
A BBC usa regularmente xG em sua cobertura da Premier League, mas essa métrica estava ausente na cobertura da BBC e da ITV na recente Copa do Mundo masculina. Uma breve olhada no que é o xG e no histórico de uso de dados para prever partidas de futebol pode nos dar algumas dicas sobre por que eles decidiram não usá-lo.
O conceito de gols esperados veio originalmente do hóquei no gelo , mas é facilmente aplicável ao futebol. O xG é calculado observando cada chute que um time deu em uma partida e atribuindo a ele uma probabilidade de ser marcado.
Essa probabilidade é calculada observando chutes de situações semelhantes em partidas históricas e calculando qual porcentagem deles resultou em um gol. Somando as probabilidades de todos os arremessos de um time, obtemos os gols esperados para todo o jogo.
Considere a partida da Premier League entre Tottenham e Liverpool em novembro de 2022, que o Liverpool venceu por 2–1. O Liverpool conseguiu apenas um xG de 1,18 em 13 finalizações na partida, enquanto o Tottenham conseguiu um xG de 1,21 em 14 finalizações.
Nas entrevistas pós-jogo , o técnico do Tottenham, Antonio Conte, afirmou que o Tottenham teve azar de perder devido ao seu desempenho. Uma linha de pontuação xG de 1,21 contra 1,18 sugere um jogo muito equilibrado e parece apoiar o ponto de Conte.
No entanto, o técnico do Liverpool, Jürgen Klopp, sugeriu que a qualidade de Mohamed Salah, que marcou dois gols em três finalizações com um xG combinado de 0,67, foi a diferença nesta partida. Isso expõe uma das principais fraquezas do xG. Não leva em consideração quem é o atacante ou o goleiro. Mas essa fraqueza é suficiente para tornar o xG não confiável como um recurso para prever jogos futuros?
Previsão de futebol antes do xG
O dado óbvio a ser usado ao analisar o futebol são os gols. De fato, esta foi a única informação utilizada no modelo de 1997 de Mark Dixon e Stuart Coles , que prevê futuras partidas de futebol, atribuindo a cada equipe uma classificação de ataque e defesa.
Os índices de Dixon-Coles são calculados com base no número de gols marcados e sofridos nas partidas anteriores, levando em consideração a qualidade do adversário. As classificações de duas equipes diferentes, juntamente com um aumento na vantagem de jogar em casa, podem ser combinadas para prever o placar de uma próxima partida entre elas.
Dada a quantidade de estatísticas disponíveis no futebol, um modelo que usa apenas gols para prever jogos futuros pode parecer extremamente simples, mas sua eficácia está em entender o que faz uma boa análise estatística: dados de alta qualidade, e muitos deles.
Os gols são os dados de maior qualidade disponíveis na previsão de futebol, pois são a única coisa que realmente afeta os resultados. Isso explica por que outras métricas tradicionais, como número de chutes ou porcentagem de posse de bola, não são usadas no modelo Dixon-Coles.
Um chute pode ser um pênalti, que os jogadores esperam marcar, ou um esforço especulativo de longe - mas ambos contam igualmente como chutes a gol. Da mesma forma, uma equipe pode ter muita posse de bola, mas não em uma área do campo que lhe dê chances de fazer gols.
Já em 1968, um estudo estatístico foi incapaz de encontrar qualquer ligação entre chutes, posse ou passes e os resultados das partidas de futebol. Isso apoia a ideia de que as metas são o único fator que vale a pena considerar.
Por que xG pode ser útil?
A fraqueza do Dixon-Coles está na quantidade de dados. Foram 1.071 gols marcados na temporada 2021/22 da Premier League, o que pode parecer muito. No entanto, são apenas 2,82 gols por jogo. Para compensar essa falta de informação por jogo, Dixon e Coles usaram dados de três anos para fazer suas previsões, apesar de a maioria dos times passar por grandes mudanças no jogo e na equipe de gerenciamento durante esse período.
Aumentar a quantidade de dados em uma escala de tempo mais curta é onde os dados xG têm uma vantagem sobre os objetivos sozinhos. Essencialmente, é uma tentativa de encontrar o equilíbrio entre a qualidade dos dados de gol e a quantidade de dados baseados em chutes. Este é um enigma clássico em estatísticas conhecido como trade-off viés-variância .
Veja o jogo Liverpool x Tottenham mencionado anteriormente. Os três gols marcados são as únicas informações que o modelo Dixon-Coles pode extrair dessa partida, enquanto um modelo baseado em xG obteria informações de todos os 27 chutes dados - com a qualidade adicional de ter alguma indicação da probabilidade desses chutes. resultaria em gol. No entanto, não levar em conta quem está envolvido em um tiro coloca um limite na qualidade desses dados xG.
Apesar de ter 25 anos, o modelo Dixon-Coles ainda é o padrão-ouro de previsão de futebol, conforme encontrado neste estudo de 2022 . Embora o xG forneça boas informações sobre o equilíbrio do jogo em uma única partida, nenhum modelo xG se mostrou superior ao Dixon-Coles na previsão do futuro.
Até que isso aconteça, as dúvidas sobre suas fraquezas permanecerão e os gols reais devem manter seu lugar como o único indicador verdadeiramente confiável de quão boa é uma equipe.