El modelo T-90
Una aproximación probabilística a la predicción de resultados futbolísticos.
Investigación cofinanciada por el F.D.I. (Fondo de Deseos Irrealizables) y la R.J.A. (Reserva para Juegos de Azar)
1. Introducción.
Desde los tiempos mas antiguos uno de los mayores deseos del hombre ( y de la mujer) ha sido la consecución de grandes fortunas (tierrascabezas de ganado, metales preciosos y su sucesor el dinero) con un mínimo de esfuerzo. Dado los riesgos que entrañaban para los aspirantes a ricos los métodos tradicionales (lanzas, hachas, espadas, pistolas y demás herramientas) dichos medios se dejaron para su utilización por "profesionales" de los mismos apareciendo sistemas mas inofensivos para ser usados por el resto de los mortales: los juegos de azar.
Estos juegos se caracterizan por la posibilidad de los jugadores de recibir un pago (no siempre dinerario) en función del resultado del juego ,resultado que viene determinado en proporciones variables por el azar y las estrategias utilizadas por los jugadores. Evidentemente, se cumple el principio de que el dinero ni se crea ni se destruye sino que solo cambia de manos por lo que la participación en estos juegos está basada en la asunción del riesgo de que el jugador reciba pagos negativos (no cobra, solo paga).
Si bien existen desde antiguo diversos juegos de azar (dados, naipes, etc) nosotros nos vamos a centrar en el conocido popularmente como la quiniela, basado en el acierto de una combinación de 15 resultados de partidos de fútbol . Como en muchos juegos la participación en el mismo requiere un desembolso previo por parte del jugador, desembolso que podrá ser recuperado o superado dependiendo del resultado del juego. Desde el punto de vista de la matriz de pagos existe un jugador privilegiado que nunca pierde: el organizador , ya que una parte de la recaudación del juego no se distribuye en premios para el resto de los jugadores.
Dado que las reglas del juego son suficientemente conocidas no vamos a entrar en su descripción si bien pueden consultarse en http://www.onlae.com/
2. Hipótesis de trabajo.
Ya que el resultado de cada partido está determinado por el número de goles marcados por cada equipo, será el cálculo de los mismos la base de nuestra investigación.
Partimos de la base de que el número de goles (G) marcados por cualquier equipo en sus partidos se ajusta a una distribución binomial que depende de dos parámetros : La frecuencia de muestreo N y la probabilidad de marcar un gol (p) durante cada periodo de tiempo definido por dicha frecuencia de muestreo, siendo evidente que esto implica que p permanece constante durante la totalidad del partido (independencia de los sucesos durante el muestreo), algo que no siempre es cierto en la realidad, pero como queremos realizar un pronostico antes de que comience el partido, que le vamos a hacer.
En estas condiciones tendríamos la conocida expresión :
Vamos a intentar estimar ambos parámetros basándonos en hipótesis mas o menos razonables.
Estimación de la frecuencia de muestreo N.
Todo partido de fútbol ( o al menos los que figuran en las quinielas) tienen una duración reglamentaria de 90 minutos repartidos en dos tiempos, mas el tiempo que considere adecuado añadir el arbitro al final de cada mitad, si bien esta cantidad , salvo graves incidentes, no suele ser muy elevada y además está destinada a compensar el tiempo que el juego estuvo detenido (y por tanto el muestreo), asi que vamos a considerar una duración de 90 minutos.
Por otra parte es preciso considerar que la consecución de un gol requiere al menos el recorrer parte del terreno de juego y una cierta organización, por lo que consideramos que una buena frecuencia de muestreo puede corresponder al valor 90 (1 suceso por minuto de juego) ya que son muy pocos los resultados documentados de resultados 90-0 o superiores.
En cualquier caso, la frecuencia de muestreo no aparenta ser un valor crítico según se muestra en el gráfico siguiente:
Si algún lector no se cree que las distribuciones son similares puede realizar por si mismo el test de Kolmogorov-Smirnov (para los profanos no tiene nada que ver con el vodka)y enviarme el resultado.
Estimación de la probabilidad de marcar gol p.
Tal y como demuestra la experiencia, no todos los equipos tienen el mismo talento goleador (que se lo pregunten a los entrenadores y aficionados) y, por tanto tampoco tendrán la misma probabilidad p de marcar gol. Dado que lo que intentamos es realizar un pronostico del resultado de una serie de encuentros entre equipos con distintas capacidades, el valor de p deberá ser estimado para cada uno de dichos equipos.
En tanto no se desarrolle una teoría que relacione la plantilla de los equipos con sus probabilidades de marcar goles tendremos que intentar estimar dichas probabilidades a partir del historial goleador (facilmente asequible) de los contendientes.
En base a las propiedades de la distribución binomial (de media y varianza conocidas) podemos estimar el valor de p a partir de la media de goles marcados por partido por cada equipo mediante la expresión:
Expresiones básicas:
A partir de lo expuesto en los párrafos anteriores podemos asumir que para cada equipo se cumplen las siguientes expresiones, que nos serán útiles en el desarrollo posterior:
Probabilidad de marcar exactamente x goles:
Probabilidad de marcar menos de x goles:
Probabilidad de marcar mas de x goles:
Distribución bivariada:
Hasta ahora hemos estado considerando el problema desde la perspectiva del comportamiento individual de cada equipo. Sin embargo, el objetivo de nuestro estudio implica resultados en los que en cada uno están implicados dos equipos, cada uno con su correspondiente valor de p, lo cual nos lleva a una distribución bivariante.
Para no complicar excesivamente la notación a partir de ahora utilizaremos A para designar el valor G referente al equipo que juega "en casa" y B para el mismo valor referido al equipo contrario.
También queremos señalar en este momento que el modelo presupone la independencia entre las distribuciones de A y B (nuevamente la experiencia demuestra que esto no es totalmente cierto ya que dependiendo del adversario un equipo puede "crecerse" o desinflarse, pero como estamos en un modelo teórico hacemos las suposiciones que nos da la gana, y si viene otro a mejorarlo que haga las suyas).
El presupuesto de independencia significa asumir se cumplen las siguientes igualdades:
Dado que lo que nos interesa es el resultado quinielístico de los distintos encuentros , no entraremos (aunque fue un paso previo en los cálculos) en los resultados particulares y nos centraremos en los tres casos básicos: p(1), p(X) y p(2), que podemos obtener sin ninguna dificultad a partir de las expresiones anteriormente desarrolladas:
Ya sé que las expresiones que vamos a manejar asustan un poco, pero las he visto peores. En cualquier caso los resultados están en la próxima sección.
3. Resultados.
Las siguientes tablas y gráficos muestran los resultados de calcular las expresiones del apartado anterior para distintos valores de las medias goleadoras de dos equipos.
Los cálculos unicamente se han realizado dentro de un intervalo razonable para las medias (en los encabezados indicadas simplemente por A y B sin la raya encima) y los resultados tabulados deben interpretarse como tantos por mil.
La perspectiva de los gráficos no siempre se corresponde con los ejes cartesianos (cosas de trabajar con hojas de cálculo EXCEL (TM)), si bien el eje vertical corresponde siempre al valor de la probabilidad.
Ya que los resultados para B>A son simétricos a A>B no se ha considerado conveniente incluirlos a fin de no alargar innecesariamente este trabajo.
P(A>B) | ||||||||||
B=0 | B=0,3 | B=0,7 | B=1,0 | B=1,3 | B=1,7 | B=2,0 | B=2,3 | B=2,7 | B=3,0 | |
A=0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
A=0,3 | 439 | 285 | 238 | 207 | 184 | 165 | 150 | 138 | 127 | 117 |
A=0,7 | 560 | 383 | 326 | 287 | 258 | 235 | 216 | 199 | 185 | 173 |
A=1,0 | 634 | 449 | 388 | 346 | 313 | 287 | 265 | 247 | 230 | 216 |
A=1,3 | 687 | 501 | 436 | 392 | 358 | 330 | 307 | 286 | 268 | 253 |
A=1,7 | 728 | 542 | 477 | 432 | 396 | 367 | 342 | 321 | 302 | 285 |
A=2,0 | 760 | 577 | 512 | 466 | 430 | 400 | 374 | 352 | 332 | 314 |
A=2,3 | 786 | 607 | 542 | 496 | 459 | 428 | 402 | 379 | 359 | 340 |
A=2,7 | 808 | 634 | 569 | 523 | 486 | 455 | 428 | 404 | 383 | 365 |
A=3,0 | 826 | 657 | 593 | 547 | 510 | 479 | 452 | 428 | 406 | 387 |
P(A=B) | ||||||||||
B=0 | B=0,3 | B=0,7 | B=1,0 | B=1,3 | B=1,7 | B=2,0 | B=2,3 | B=2,7 | B=3,0 | |
A=0 | 1000 | 561 | 440 | 366 | 313 | 272 | 240 | 214 | 192 | 174 |
A=0,3 | 561 | 429 | 379 | 344 | 316 | 292 | 272 | 255 | 239 | 225 |
A=0,7 | 440 | 379 | 349 | 325 | 305 | 288 | 272 | 258 | 246 | 234 |
A=1,0 | 366 | 344 | 325 | 309 | 294 | 281 | 269 | 258 | 247 | 237 |
A=1,3 | 313 | 316 | 305 | 294 | 284 | 273 | 264 | 255 | 246 | 238 |
A=1,7 | 272 | 292 | 288 | 281 | 273 | 266 | 258 | 251 | 243 | 236 |
A=2,0 | 240 | 272 | 272 | 269 | 264 | 258 | 252 | 246 | 240 | 234 |
A=2,3 | 214 | 255 | 258 | 258 | 255 | 251 | 246 | 242 | 237 | 232 |
A=2,7 | 192 | 239 | 246 | 247 | 246 | 243 | 240 | 237 | 233 | 229 |
A=3,0 | 174 | 225 | 234 | 237 | 238 | 236 | 234 | 232 | 229 | 225 |
A partir de los datos anteriores podemos establecer una superficie de máxima probabilidad con las siguientes características
:
MAX PROB | ||||||||||
B=0 | B=0,3 | B=0,7 | B=1,0 | B=1,3 | B=1,7 | B=2,0 | B=2,3 | B=2,7 | B=3,0 | |
A=0 | 1000 | 561 | 560 | 634 | 687 | 728 | 760 | 786 | 808 | 826 |
A=0,3 | 561 | 429 | 383 | 449 | 500 | 543 | 578 | 607 | 634 | 658 |
A=0,7 | 560 | 383 | 349 | 388 | 437 | 477 | 512 | 543 | 569 | 593 |
A=1,0 | 634 | 449 | 388 | 346 | 393 | 432 | 466 | 495 | 523 | 547 |
A=1,3 | 687 | 501 | 436 | 392 | 358 | 397 | 429 | 459 | 486 | 509 |
A=1,7 | 728 | 542 | 477 | 432 | 396 | 367 | 400 | 428 | 455 | 479 |
A=2,0 | 760 | 577 | 512 | 466 | 430 | 400 | 374 | 402 | 428 | 452 |
A=2,3 | 786 | 607 | 542 | 496 | 459 | 428 | 402 | 379 | 404 | 428 |
A=2,7 | 808 | 634 | 569 | 523 | 486 | 455 | 428 | 404 | 384 | 406 |
A=3,0 | 826 | 657 | 593 | 547 | 510 | 479 | 452 | 428 | 406 | 388 |
En el gráfico anterior debería estar claro que la "cabeza" de la aparente mariposa corresponde a los valores en los que el resultado mas probable es X, mientras que las "alas" corresponderían a los resultados 1 o 2.
La vista topográfica, nos muestra una clara disminución de la probabilidad de empates a medida que aumenta la capacidad goleadora de los contrincantes, frente a la situación contraria en el caso de equipos poco goleadores.
DIAGONAL PRINCIPAL | ||||
A=B | A<>B | MAX | ||
A=0 | 1000 | 0 | 1000 | |
A=0,3 | 429 | 285 | 429 | |
A=0,7 | 349 | 326 | 349 | |
A=1,0 | 309 | 346 | 346 | |
A=1,3 | 284 | 358 | 358 | |
A=1,7 | 266 | 367 | 367 | |
A=2,0 | 252 | 374 | 374 | |
A=2,3 | 242 | 379 | 379 | |
A=2,7 | 233 | 383 | 383 | |
A=3,0 | 225 | 387 | 387 |
Observamos que el punto de transición se encuentra aproximadamente en una capacidad goleadora de 0.85 goles por partido.
4. Aplicación práctica de los resultados.
Una vez expuestos los principios teóricos y los resultados numéricos del modelo T-90 vamos a intentar comprobar si su utilización mejora la esperanza matemática de obtener premios respecto a la utilización de otras dos estrategias alternativas: la correspondiente a la equiprobabilidad de cada resultado y la resultante de estimar las probabilidades de cada signo a partir de datos históricos, en nuestro caso los correspondientes a la temporada 2001-2002 actualizados a fecha 13 de mayo de 2002 y obtenidos de la ONLAE.
Dado que no vamos a entrar en cálculos individuales las estimaciones de las probabilidades corresponderán siempre al caso mas favorable y en el modelo T-90 a las correspondientes a los valores medios de A y B.
Para la estimación de las probabilidades correspondientes al modelo T-90 se han utilizado los resultados de los 546 partidos disputados tanto en primera como segunda división de la Liga española en el periodo del 18 de noviembre de 2001 al 12 de mayo de 2002 con valores medios de A y B de 1.36174 y 1.00005 respectivamente.
Los resultados de la tabla siguiente fueron obtenidos a partir de las siguientes expresiones cuya justificación no escapará al avispado lector:
MODELO | AZAR | HISTORIC. | T-90 |
PURO | |||
P(A>B) | 0,333 | 0,446 | 0,392 |
P(A=B) | 0,333 | 0,297 | 0,294 |
P(A | 0,333 | 0,256 | 0,314 |
P(PREMIO) | 6,84E-04 | 1,06E-02 | 3,24E-03 |
P(14) | 2,06E-07 | 1,23E-05 | 2,02E-06 |
E(ACIERT.) | 4,6620 | 6,2440 | 5,4880 |
5. Conclusiones.
El modelo T-90 representa una mejora en las posibilidades de pronosticar resultados de partidos de fútbol frente a los resultados atribuibles unicamente al azar, pero no llega a explicar la distribución observada de los distintos resultados.
A falta de comprobaciones mas detalladas, y de mejores métodos de calcular las eficiencias goleadoras, consideramos que el modelo T-90 representa un primer marco para el desarrollo de técnicas de pronostico aunque todavía está lejos de presentar aplicaciones prácticas.
Cualquier comentario o sugerencia sobre el presente articulo será agradecido por el autor.
En algún ignoto lugar, a 18 de mayo de 2002.