viernes, 8 de mayo de 2009

Un artículo clásico: El modelo T-90


El modelo T-90

Una aproximación probabilística a la predicción de resultados futbolísticos.

Investigación cofinanciada por el F.D.I. (Fondo de Deseos Irrealizables) y la R.J.A. (Reserva para Juegos de Azar)

1. Introducción.

Desde los tiempos mas antiguos uno de los mayores deseos del hombre ( y de la mujer) ha sido la consecución de grandes fortunas (tierrascabezas de ganado, metales preciosos y su sucesor el dinero) con un mínimo de esfuerzo. Dado los riesgos que entrañaban para los aspirantes a ricos los métodos tradicionales (lanzas, hachas, espadas, pistolas y demás herramientas) dichos medios se dejaron para su utilización por "profesionales" de los mismos apareciendo sistemas mas inofensivos para ser usados por el resto de los mortales: los juegos de azar.

Estos juegos se caracterizan por la posibilidad de los jugadores de recibir un pago (no siempre dinerario) en función del resultado del juego ,resultado que viene determinado en proporciones variables por el azar y las estrategias utilizadas por los jugadores. Evidentemente, se cumple el principio de que el dinero ni se crea ni se destruye sino que solo cambia de manos por lo que la participación en estos juegos está basada en la asunción del riesgo de que el jugador reciba pagos negativos (no cobra, solo paga).

Si bien existen desde antiguo diversos juegos de azar (dados, naipes, etc) nosotros nos vamos a centrar en el conocido popularmente como la quiniela, basado en el acierto de una combinación de 15 resultados de partidos de fútbol . Como en muchos juegos la participación en el mismo requiere un desembolso previo por parte del jugador, desembolso que podrá ser recuperado o superado dependiendo del resultado del juego. Desde el punto de vista de la matriz de pagos existe un jugador privilegiado que nunca pierde: el organizador , ya que una parte de la recaudación del juego no se distribuye en premios para el resto de los jugadores.

Dado que las reglas del juego son suficientemente conocidas no vamos a entrar en su descripción si bien pueden consultarse en http://www.onlae.com/

2. Hipótesis de trabajo.

Ya que el resultado de cada partido está determinado por el número de goles marcados por cada equipo, será el cálculo de los mismos la base de nuestra investigación.

Partimos de la base de que el número de goles (G) marcados por cualquier equipo en sus partidos se ajusta a una distribución binomial que depende de dos parámetros : La frecuencia de muestreo N y la probabilidad de marcar un gol (p) durante cada periodo de tiempo definido por dicha frecuencia de muestreo, siendo evidente que esto implica que p permanece constante durante la totalidad del partido (independencia de los sucesos durante el muestreo), algo que no siempre es cierto en la realidad, pero como queremos realizar un pronostico antes de que comience el partido, que le vamos a hacer.

En estas condiciones tendríamos la conocida expresión :

Vamos a intentar estimar ambos parámetros basándonos en hipótesis mas o menos razonables.

Estimación de la frecuencia de muestreo N.

Todo partido de fútbol ( o al menos los que figuran en las quinielas) tienen una duración reglamentaria de 90 minutos repartidos en dos tiempos, mas el tiempo que considere adecuado añadir el arbitro al final de cada mitad, si bien esta cantidad , salvo graves incidentes, no suele ser muy elevada y además está destinada a compensar el tiempo que el juego estuvo detenido (y por tanto el muestreo), asi que vamos a considerar una duración de 90 minutos.

Por otra parte es preciso considerar que la consecución de un gol requiere al menos el recorrer parte del terreno de juego y una cierta organización, por lo que consideramos que una buena frecuencia de muestreo puede corresponder al valor 90 (1 suceso por minuto de juego) ya que son muy pocos los resultados documentados de resultados 90-0 o superiores.

En cualquier caso, la frecuencia de muestreo no aparenta ser un valor crítico según se muestra en el gráfico siguiente:



Si algún lector no se cree que las distribuciones son similares puede realizar por si mismo el test de Kolmogorov-Smirnov (para los profanos no tiene nada que ver con el vodka)y enviarme el resultado.

Estimación de la probabilidad de marcar gol p.

Tal y como demuestra la experiencia, no todos los equipos tienen el mismo talento goleador (que se lo pregunten a los entrenadores y aficionados) y, por tanto tampoco tendrán la misma probabilidad p de marcar gol. Dado que lo que intentamos es realizar un pronostico del resultado de una serie de encuentros entre equipos con distintas capacidades, el valor de p deberá ser estimado para cada uno de dichos equipos.

En tanto no se desarrolle una teoría que relacione la plantilla de los equipos con sus probabilidades de marcar goles tendremos que intentar estimar dichas probabilidades a partir del historial goleador (facilmente asequible) de los contendientes.

En base a las propiedades de la distribución binomial (de media y varianza conocidas) podemos estimar el valor de p a partir de la media de goles marcados por partido por cada equipo mediante la expresión:


Expresiones básicas:

A partir de lo expuesto en los párrafos anteriores podemos asumir que para cada equipo se cumplen las siguientes expresiones, que nos serán útiles en el desarrollo posterior:

Probabilidad de marcar exactamente x goles:

Probabilidad de marcar menos de x goles:

Probabilidad de marcar mas de x goles:


Distribución bivariada:

Hasta ahora hemos estado considerando el problema desde la perspectiva del comportamiento individual de cada equipo. Sin embargo, el objetivo de nuestro estudio implica resultados en los que en cada uno están implicados dos equipos, cada uno con su correspondiente valor de p, lo cual nos lleva a una distribución bivariante.

Para no complicar excesivamente la notación a partir de ahora utilizaremos A para designar el valor G referente al equipo que juega "en casa" y B para el mismo valor referido al equipo contrario.

También queremos señalar en este momento que el modelo presupone la independencia entre las distribuciones de A y B (nuevamente la experiencia demuestra que esto no es totalmente cierto ya que dependiendo del adversario un equipo puede "crecerse" o desinflarse, pero como estamos en un modelo teórico hacemos las suposiciones que nos da la gana, y si viene otro a mejorarlo que haga las suyas).

El presupuesto de independencia significa asumir se cumplen las siguientes igualdades:

Dado que lo que nos interesa es el resultado quinielístico de los distintos encuentros , no entraremos (aunque fue un paso previo en los cálculos) en los resultados particulares y nos centraremos en los tres casos básicos: p(1), p(X) y p(2), que podemos obtener sin ninguna dificultad a partir de las expresiones anteriormente desarrolladas:

Ya sé que las expresiones que vamos a manejar asustan un poco, pero las he visto peores. En cualquier caso los resultados están en la próxima sección.

3. Resultados.

Las siguientes tablas y gráficos muestran los resultados de calcular las expresiones del apartado anterior para distintos valores de las medias goleadoras de dos equipos.

Los cálculos unicamente se han realizado dentro de un intervalo razonable para las medias (en los encabezados indicadas simplemente por A y B sin la raya encima) y los resultados tabulados deben interpretarse como tantos por mil.

La perspectiva de los gráficos no siempre se corresponde con los ejes cartesianos (cosas de trabajar con hojas de cálculo EXCEL (TM)), si bien el eje vertical corresponde siempre al valor de la probabilidad.

Ya que los resultados para B>A son simétricos a A>B no se ha considerado conveniente incluirlos a fin de no alargar innecesariamente este trabajo.

P(A>B)










B=0 B=0,3 B=0,7 B=1,0 B=1,3 B=1,7 B=2,0 B=2,3 B=2,7 B=3,0
A=0

0

0

0

0

0

0

0

0

0

0

A=0,3

439

285

238

207

184

165

150

138

127

117

A=0,7

560

383

326

287

258

235

216

199

185

173

A=1,0

634

449

388

346

313

287

265

247

230

216

A=1,3

687

501

436

392

358

330

307

286

268

253

A=1,7

728

542

477

432

396

367

342

321

302

285

A=2,0

760

577

512

466

430

400

374

352

332

314

A=2,3

786

607

542

496

459

428

402

379

359

340

A=2,7

808

634

569

523

486

455

428

404

383

365

A=3,0

826

657

593

547

510

479

452

428

406

387


P(A=B)










B=0 B=0,3 B=0,7 B=1,0 B=1,3 B=1,7 B=2,0 B=2,3 B=2,7 B=3,0
A=0

1000

561

440

366

313

272

240

214

192

174

A=0,3

561

429

379

344

316

292

272

255

239

225

A=0,7

440

379

349

325

305

288

272

258

246

234

A=1,0

366

344

325

309

294

281

269

258

247

237

A=1,3

313

316

305

294

284

273

264

255

246

238

A=1,7

272

292

288

281

273

266

258

251

243

236

A=2,0

240

272

272

269

264

258

252

246

240

234

A=2,3

214

255

258

258

255

251

246

242

237

232

A=2,7

192

239

246

247

246

243

240

237

233

229

A=3,0

174

225

234

237

238

236

234

232

229

225


A partir de los datos anteriores podemos establecer una superficie de máxima probabilidad con las siguientes características

:

MAX PROB










B=0 B=0,3 B=0,7 B=1,0 B=1,3 B=1,7 B=2,0 B=2,3 B=2,7 B=3,0
A=0

1000

561

560

634

687

728

760

786

808

826

A=0,3

561

429

383

449

500

543

578

607

634

658

A=0,7

560

383

349

388

437

477

512

543

569

593

A=1,0

634

449

388

346

393

432

466

495

523

547

A=1,3

687

501

436

392

358

397

429

459

486

509

A=1,7

728

542

477

432

396

367

400

428

455

479

A=2,0

760

577

512

466

430

400

374

402

428

452

A=2,3

786

607

542

496

459

428

402

379

404

428

A=2,7

808

634

569

523

486

455

428

404

384

406

A=3,0

826

657

593

547

510

479

452

428

406

388


En el gráfico anterior debería estar claro que la "cabeza" de la aparente mariposa corresponde a los valores en los que el resultado mas probable es X, mientras que las "alas" corresponderían a los resultados 1 o 2.

La vista topográfica, nos muestra una clara disminución de la probabilidad de empates a medida que aumenta la capacidad goleadora de los contrincantes, frente a la situación contraria en el caso de equipos poco goleadores.

DIAGONAL PRINCIPAL



A=B A<>B MAX

A=0

1000

0

1000


A=0,3

429

285

429


A=0,7

349

326

349


A=1,0

309

346

346


A=1,3

284

358

358


A=1,7

266

367

367


A=2,0

252

374

374


A=2,3

242

379

379


A=2,7

233

383

383


A=3,0

225

387

387


Observamos que el punto de transición se encuentra aproximadamente en una capacidad goleadora de 0.85 goles por partido.

4. Aplicación práctica de los resultados.

Una vez expuestos los principios teóricos y los resultados numéricos del modelo T-90 vamos a intentar comprobar si su utilización mejora la esperanza matemática de obtener premios respecto a la utilización de otras dos estrategias alternativas: la correspondiente a la equiprobabilidad de cada resultado y la resultante de estimar las probabilidades de cada signo a partir de datos históricos, en nuestro caso los correspondientes a la temporada 2001-2002 actualizados a fecha 13 de mayo de 2002 y obtenidos de la ONLAE.

Dado que no vamos a entrar en cálculos individuales las estimaciones de las probabilidades corresponderán siempre al caso mas favorable y en el modelo T-90 a las correspondientes a los valores medios de A y B.

Para la estimación de las probabilidades correspondientes al modelo T-90 se han utilizado los resultados de los 546 partidos disputados tanto en primera como segunda división de la Liga española en el periodo del 18 de noviembre de 2001 al 12 de mayo de 2002 con valores medios de A y B de 1.36174 y 1.00005 respectivamente.

Los resultados de la tabla siguiente fueron obtenidos a partir de las siguientes expresiones cuya justificación no escapará al avispado lector:

MODELO AZAR HISTORIC.

T-90


PURO

P(A>B)

0,333

0,446

0,392

P(A=B)

0,333

0,297

0,294

P(A

0,333

0,256

0,314

P(PREMIO)

6,84E-04

1,06E-02

3,24E-03

P(14)

2,06E-07

1,23E-05

2,02E-06

E(ACIERT.)

4,6620

6,2440

5,4880

5. Conclusiones.

El modelo T-90 representa una mejora en las posibilidades de pronosticar resultados de partidos de fútbol frente a los resultados atribuibles unicamente al azar, pero no llega a explicar la distribución observada de los distintos resultados.

A falta de comprobaciones mas detalladas, y de mejores métodos de calcular las eficiencias goleadoras, consideramos que el modelo T-90 representa un primer marco para el desarrollo de técnicas de pronostico aunque todavía está lejos de presentar aplicaciones prácticas.

Cualquier comentario o sugerencia sobre el presente articulo será agradecido por el autor.

En algún ignoto lugar, a 18 de mayo de 2002.