Anales del Instituto de Augurología Avanzada: mayo 2009

El modelo T-90

Una aproximación probabilística a la predicción de resultados futbolísticos.

Investigación cofinanciada por el F.D.I. (Fondo de Deseos Irrealizables) y la R.J.A. (Reserva para Juegos de Azar)

1. Introducción.

Desde los tiempos mas antiguos uno de los mayores deseos del hombre ( y de la mujer) ha sido la consecución de grandes fortunas (tierrascabezas de ganado, metales preciosos y su sucesor el dinero) con un mínimo de esfuerzo. Dado los riesgos que entrañaban para los aspirantes a ricos los métodos tradicionales (lanzas, hachas, espadas, pistolas y demás herramientas) dichos medios se dejaron para su utilización por "profesionales" de los mismos apareciendo sistemas mas inofensivos para ser usados por el resto de los mortales: los juegos de azar.

Estos juegos se caracterizan por la posibilidad de los jugadores de recibir un pago (no siempre dinerario) en función del resultado del juego ,resultado que viene determinado en proporciones variables por el azar y las estrategias utilizadas por los jugadores. Evidentemente, se cumple el principio de que el dinero ni se crea ni se destruye sino que solo cambia de manos por lo que la participación en estos juegos está basada en la asunción del riesgo de que el jugador reciba pagos negativos (no cobra, solo paga).

Si bien existen desde antiguo diversos juegos de azar (dados, naipes, etc) nosotros nos vamos a centrar en el conocido popularmente como la quiniela, basado en el acierto de una combinación de 15 resultados de partidos de fútbol . Como en muchos juegos la participación en el mismo requiere un desembolso previo por parte del jugador, desembolso que podrá ser recuperado o superado dependiendo del resultado del juego. Desde el punto de vista de la matriz de pagos existe un jugador privilegiado que nunca pierde: el organizador , ya que una parte de la recaudación del juego no se distribuye en premios para el resto de los jugadores.

Dado que las reglas del juego son suficientemente conocidas no vamos a entrar en su descripción si bien pueden consultarse en http://www.onlae.com/

2. Hipótesis de trabajo.

Ya que el resultado de cada partido está determinado por el número de goles marcados por cada equipo, será el cálculo de los mismos la base de nuestra investigación.

Partimos de la base de que el número de goles (G) marcados por cualquier equipo en sus partidos se ajusta a una distribución binomial que depende de dos parámetros : La frecuencia de muestreo N y la probabilidad de marcar un gol (p) durante cada periodo de tiempo definido por dicha frecuencia de muestreo, siendo evidente que esto implica que p permanece constante durante la totalidad del partido (independencia de los sucesos durante el muestreo), algo que no siempre es cierto en la realidad, pero como queremos realizar un pronostico antes de que comience el partido, que le vamos a hacer.

En estas condiciones tendríamos la conocida expresión :

Vamos a intentar estimar ambos parámetros basándonos en hipótesis mas o menos razonables.

Estimación de la frecuencia de muestreo N.

Todo partido de fútbol ( o al menos los que figuran en las quinielas) tienen una duración reglamentaria de 90 minutos repartidos en dos tiempos, mas el tiempo que considere adecuado añadir el arbitro al final de cada mitad, si bien esta cantidad , salvo graves incidentes, no suele ser muy elevada y además está destinada a compensar el tiempo que el juego estuvo detenido (y por tanto el muestreo), asi que vamos a considerar una duración de 90 minutos.

Por otra parte es preciso considerar que la consecución de un gol requiere al menos el recorrer parte del terreno de juego y una cierta organización, por lo que consideramos que una buena frecuencia de muestreo puede corresponder al valor 90 (1 suceso por minuto de juego) ya que son muy pocos los resultados documentados de resultados 90-0 o superiores.

En cualquier caso, la frecuencia de muestreo no aparenta ser un valor crítico según se muestra en el gráfico siguiente:

Si algún lector no se cree que las distribuciones son similares puede realizar por si mismo el test de Kolmogorov-Smirnov (para los profanos no tiene nada que ver con el vodka)y enviarme el resultado.

Estimación de la probabilidad de marcar gol p.

Tal y como demuestra la experiencia, no todos los equipos tienen el mismo talento goleador (que se lo pregunten a los entrenadores y aficionados) y, por tanto tampoco tendrán la misma probabilidad p de marcar gol. Dado que lo que intentamos es realizar un pronostico del resultado de una serie de encuentros entre equipos con distintas capacidades, el valor de p deberá ser estimado para cada uno de dichos equipos.

En tanto no se desarrolle una teoría que relacione la plantilla de los equipos con sus probabilidades de marcar goles tendremos que intentar estimar dichas probabilidades a partir del historial goleador (facilmente asequible) de los contendientes.

En base a las propiedades de la distribución binomial (de media y varianza conocidas) podemos estimar el valor de p a partir de la media de goles marcados por partido por cada equipo mediante la expresión:

Expresiones básicas:

A partir de lo expuesto en los párrafos anteriores podemos asumir que para cada equipo se cumplen las siguientes expresiones, que nos serán útiles en el desarrollo posterior:

Probabilidad de marcar exactamente x goles:

Probabilidad de marcar menos de x goles:

Probabilidad de marcar mas de x goles:

Distribución bivariada:

Hasta ahora hemos estado considerando el problema desde la perspectiva del comportamiento individual de cada equipo. Sin embargo, el objetivo de nuestro estudio implica resultados en los que en cada uno están implicados dos equipos, cada uno con su correspondiente valor de p, lo cual nos lleva a una distribución bivariante.

Para no complicar excesivamente la notación a partir de ahora utilizaremos A para designar el valor G referente al equipo que juega "en casa" y B para el mismo valor referido al equipo contrario.

También queremos señalar en este momento que el modelo presupone la independencia entre las distribuciones de A y B (nuevamente la experiencia demuestra que esto no es totalmente cierto ya que dependiendo del adversario un equipo puede "crecerse" o desinflarse, pero como estamos en un modelo teórico hacemos las suposiciones que nos da la gana, y si viene otro a mejorarlo que haga las suyas).

El presupuesto de independencia significa asumir se cumplen las siguientes igualdades:

Dado que lo que nos interesa es el resultado quinielístico de los distintos encuentros , no entraremos (aunque fue un paso previo en los cálculos) en los resultados particulares y nos centraremos en los tres casos básicos: p(1), p(X) y p(2), que podemos obtener sin ninguna dificultad a partir de las expresiones anteriormente desarrolladas:

Ya sé que las expresiones que vamos a manejar asustan un poco, pero las he visto peores. En cualquier caso los resultados están en la próxima sección.

3. Resultados.

Las siguientes tablas y gráficos muestran los resultados de calcular las expresiones del apartado anterior para distintos valores de las medias goleadoras de dos equipos.

Los cálculos unicamente se han realizado dentro de un intervalo razonable para las medias (en los encabezados indicadas simplemente por A y B sin la raya encima) y los resultados tabulados deben interpretarse como tantos por mil.

La perspectiva de los gráficos no siempre se corresponde con los ejes cartesianos (cosas de trabajar con hojas de cálculo EXCEL (TM)), si bien el eje vertical corresponde siempre al valor de la probabilidad.

Ya que los resultados para B>A son simétricos a A>B no se ha considerado conveniente incluirlos a fin de no alargar innecesariamente este trabajo.

P(A>B)
	B=0	B=0,3	B=0,7	B=1,0	B=1,3	B=1,7	B=2,0	B=2,3	B=2,7	B=3,0
A=0	0	0	0	0	0	0	0	0	0	0
A=0,3	439	285	238	207	184	165	150	138	127	117
A=0,7	560	383	326	287	258	235	216	199	185	173
A=1,0	634	449	388	346	313	287	265	247	230	216
A=1,3	687	501	436	392	358	330	307	286	268	253
A=1,7	728	542	477	432	396	367	342	321	302	285
A=2,0	760	577	512	466	430	400	374	352	332	314
A=2,3	786	607	542	496	459	428	402	379	359	340
A=2,7	808	634	569	523	486	455	428	404	383	365
A=3,0	826	657	593	547	510	479	452	428	406	387

P(A=B)
	B=0	B=0,3	B=0,7	B=1,0	B=1,3	B=1,7	B=2,0	B=2,3	B=2,7	B=3,0
A=0	1000	561	440	366	313	272	240	214	192	174
A=0,3	561	429	379	344	316	292	272	255	239	225
A=0,7	440	379	349	325	305	288	272	258	246	234
A=1,0	366	344	325	309	294	281	269	258	247	237
A=1,3	313	316	305	294	284	273	264	255	246	238
A=1,7	272	292	288	281	273	266	258	251	243	236
A=2,0	240	272	272	269	264	258	252	246	240	234
A=2,3	214	255	258	258	255	251	246	242	237	232
A=2,7	192	239	246	247	246	243	240	237	233	229
A=3,0	174	225	234	237	238	236	234	232	229	225

A partir de los datos anteriores podemos establecer una superficie de máxima probabilidad con las siguientes características

MAX PROB
	B=0	B=0,3	B=0,7	B=1,0	B=1,3	B=1,7	B=2,0	B=2,3	B=2,7	B=3,0
A=0	1000	561	560	634	687	728	760	786	808	826
A=0,3	561	429	383	449	500	543	578	607	634	658
A=0,7	560	383	349	388	437	477	512	543	569	593
A=1,0	634	449	388	346	393	432	466	495	523	547
A=1,3	687	501	436	392	358	397	429	459	486	509
A=1,7	728	542	477	432	396	367	400	428	455	479
A=2,0	760	577	512	466	430	400	374	402	428	452
A=2,3	786	607	542	496	459	428	402	379	404	428
A=2,7	808	634	569	523	486	455	428	404	384	406
A=3,0	826	657	593	547	510	479	452	428	406	388

En el gráfico anterior debería estar claro que la "cabeza" de la aparente mariposa corresponde a los valores en los que el resultado mas probable es X, mientras que las "alas" corresponderían a los resultados 1 o 2.

La vista topográfica, nos muestra una clara disminución de la probabilidad de empates a medida que aumenta la capacidad goleadora de los contrincantes, frente a la situación contraria en el caso de equipos poco goleadores.

DIAGONAL PRINCIPAL
		A=B	A<>B	MAX
	A=0	1000	0	1000
	A=0,3	429	285	429
	A=0,7	349	326	349
	A=1,0	309	346	346
	A=1,3	284	358	358
	A=1,7	266	367	367
	A=2,0	252	374	374
	A=2,3	242	379	379
	A=2,7	233	383	383
	A=3,0	225	387	387

Observamos que el punto de transición se encuentra aproximadamente en una capacidad goleadora de 0.85 goles por partido.

4. Aplicación práctica de los resultados.

Una vez expuestos los principios teóricos y los resultados numéricos del modelo T-90 vamos a intentar comprobar si su utilización mejora la esperanza matemática de obtener premios respecto a la utilización de otras dos estrategias alternativas: la correspondiente a la equiprobabilidad de cada resultado y la resultante de estimar las probabilidades de cada signo a partir de datos históricos, en nuestro caso los correspondientes a la temporada 2001-2002 actualizados a fecha 13 de mayo de 2002 y obtenidos de la ONLAE.

Dado que no vamos a entrar en cálculos individuales las estimaciones de las probabilidades corresponderán siempre al caso mas favorable y en el modelo T-90 a las correspondientes a los valores medios de A y B.

Para la estimación de las probabilidades correspondientes al modelo T-90 se han utilizado los resultados de los 546 partidos disputados tanto en primera como segunda división de la Liga española en el periodo del 18 de noviembre de 2001 al 12 de mayo de 2002 con valores medios de A y B de 1.36174 y 1.00005 respectivamente.

Los resultados de la tabla siguiente fueron obtenidos a partir de las siguientes expresiones cuya justificación no escapará al avispado lector:

MODELO	AZAR	HISTORIC.	T-90
	PURO
P(A>B)	0,333	0,446	0,392
P(A=B)	0,333	0,297	0,294
P(A	0,333	0,256	0,314
P(PREMIO)	6,84E-04	1,06E-02	3,24E-03
P(14)	2,06E-07	1,23E-05	2,02E-06
E(ACIERT.)	4,6620	6,2440	5,4880

5. Conclusiones.

El modelo T-90 representa una mejora en las posibilidades de pronosticar resultados de partidos de fútbol frente a los resultados atribuibles unicamente al azar, pero no llega a explicar la distribución observada de los distintos resultados.

A falta de comprobaciones mas detalladas, y de mejores métodos de calcular las eficiencias goleadoras, consideramos que el modelo T-90 representa un primer marco para el desarrollo de técnicas de pronostico aunque todavía está lejos de presentar aplicaciones prácticas.

Cualquier comentario o sugerencia sobre el presente articulo será agradecido por el autor.

En algún ignoto lugar, a 18 de mayo de 2002.

Anales del Instituto de Augurología Avanzada

viernes, 8 de mayo de 2009

Un artículo clásico: El modelo T-90

El Tiempo en León

Tiempo Previsto para las 12 UTC ( 1 de la tarde)

Archivo del blog

Twitter

Blogs de Curiosidades

Blogs de Meteorología.

Podcast Programas RTVE-Radio Clasica

Podcast y Videos de Musica Clasica

Consejo de Redacción

Seguidores

Tiempo previsto modelo WRF 0.1º resulución