¿De Qué Se Trata? 🤔
¡Bienvenidos a Predicciones de NFL, una serie donde exploramos lo necesario para hacer predicciones de NFL. En esta primera parte, El Récord, vamos a analizar cómo el récord de temporada de un equipo afecta las probabilidades de ganar.
A medida que avancemos en la serie, desarrollaremos herramientas y eventualmente construiremos modelos predictivos
Aclaración
Primero, soy relativamente nuevo en el fútbol americano, con solo tres años de experiencia viendo partidos. Aunque todavía tengo mucho por aprender, esta perspectiva fresca me permite enfocarme únicamente en los números, sin prejuicios.
Segundo, aunque menciono las apuestas, no apoyo jugar con fines de lucro. Apostar una pequeña cantidad por diversión o para seguir predicciones está bien, pero apostar para ganar dinero puede ser adictivo y dañino.
Resumen
En este artículo, exploramos si el récord de victorias y derrotas de una temporada puede predecir los resultados de los juegos. Al final, construimos un modelo de ML muy simple que predice ganadores con una precisión del 80%, cubriendo alrededor de 40 casos por año.
Los Datos
Para esta serie, usaremos los datos jugada por jugada proporcionados por nflfastR (Un gran saludo a nflverse). El conjunto de datos contiene 372 columnas de datos jugada por jugada, que abarcan desde el 09/12/1999 hasta el 29/11/2024, con un total de 26 temporadas, 6,886 juegos y 1,211,926 jugadas.
A continuación, un vistazo rápido a los datos.
Como puedes ver, hay mucha información que va desde yardas por pase por jugada hasta tacleadas con asistencia.
Para esta primera parte de la serie, nos enfocaremos únicamente en cómo los récords impactan los resultados actuales de los juegos. Para simplificar el conjunto de datos, lo reduciremos a la información de Las Vegas y el récord de la temporada actual.
A continuación, puedes ver una tabla más reducida que utilizaremos:
Probabilidades de Las Vegas
Cuando se trata de predicciones, la mayoría de los modelos de ML se construyen para competir contra las líneas de Las Vegas. ¿Pero por qué luchar contra esto cuando podemos aprovechar la riqueza de información que Las Vegas ofrece? Claro, hay muchas casas de apuestas ofreciendo diferentes probabilidades, y las apuestas públicas probablemente distorsionen las líneas. Pero para este análisis, la línea de spread de Pro-Football-Reference debería funcionar perfectamente. Nos proporciona una buena referencia de cuán precisa puede ser Las Vegas y prepara el escenario para algunas comparaciones emocionantes.
Como se muestra en Fig. 1, la precisión de Las Vegas al predecir ganadores utilizando la línea de spread fue un impresionante 66.3%.
Ahora, echemos un vistazo a cuán precisa es Las Vegas al proyectar al ganador según la línea de spread. Es importante notar que en esta parte de la serie, no nos estamos enfocando en el margen de puntos en sí. Esto significa que no estamos evaluando si el spread fue cubierto; solo estamos prediciendo ganadores sin importar la diferencia de puntos.
Como era de esperar en Fig.2, podemos ver que cuanto mayor es la diferencia proyectada de spread, más precisa es Las Vegas al predecir al ganador. Sin embargo, más del 50% de los juegos tienen una línea de spread inferior a 4 puntos, y para esos, la precisión está entre 50-60%, lo cual no es muy impresionante.
Un dato interesante: en 94 ocasiones donde Las Vegas ofreció un spread de 15 o más, solo 3 veces el equipo no favorito realmente ganó. Esos juegos fueron:
- Bills 27 vs 6 Vikings (23 de septiembre de 2018, Semana 3)
- Dolphins 27 vs 24 Patriots (29 de diciembre de 2019, Juego de Comodines)
- Jets 23 vs 20 Rams (20 de diciembre de 2020, Semana 16)
Otro juego que se destaca, y uno que recuerdo demasiado bien, fue la Semana 14 de la temporada 2023: mi equipo local, los Miami Dolphins, enfrentó a los Tennessee Titans. Miami tenía un buen récord de 9-3, mientras que los Titans estaban luchando con 4-8. Las Vegas le dio a Miami un spread de 14 puntos, pero terminamos perdiendo 28-27. Para colmo, tenía a Tyreek Hill en mi equipo de fantasía, y apenas jugó ese día 😩.
La última vez que los @Titans jugaron contra Miami en MNF, remontaron un déficit de 14 puntos en los últimos 3 minutos del partido 😳
— NFL (@NFL) 30 de septiembre de 2024
📺: #TENvsMIA – Hoy a las 7:30pm ET por ESPN
📱: En vivo en #NFLPlus pic.twitter.com/rBKrieWrzN
El Récord
Vamos a sumergirnos en el objetivo de este artículo y descubrir si el récord de un equipo influye en sus posibilidades de ganar.
Primero, calculemos el coeficiente de correlación de Pearson de victorias y margen de victoria contra:
- Total de Juegos (
record_total_games
) - Juegos Ganados en la Temporada (
season_winning_record
) - Juegos Perdidos en la Temporada (
season_losing_record
) - Porcentaje de Victorias en la Temporada (
season_winning_ratio
) - Juegos Ganados por el Oponente en la Temporada (
opponent_season_winning_record
) - Juegos Perdidos por el Oponente en la Temporada (
opponent_season_losing_record
) - Porcentaje de Victorias del Oponente en la Temporada (
opponent_season_winning_ratio
) - Diferencia en Porcentaje de Victorias (Porcentaje de Victorias - Porcentaje de Victorias del Oponente) (
winning_ratio_diff
) - Si el equipo está jugando en casa o no (
is_home
)
También incluiremos la Línea de Spread de Las Vegas para comparación.
Como era de esperar, Las Vegas sabe lo que hace: la línea de spread de Las Vegas está mucho más correlacionada con ganar y el margen de victoria que el porcentaje de victorias en juegos. Además, los porcentajes de victorias son más significativos que el récord en sí.
¿Pero qué pasa con las rachas de victorias? ¿Tienen algún impacto en la NFL?
Como se muestra en la tabla anterior, el porcentaje de victorias del oponente tiene una correlación mínima con las probabilidades de ganar. Sin embargo, las rachas largas, como 12, 13 o 14 juegos, parecen tener una influencia más significativa para determinar al ganador.
En otras palabras, tener un récord ganador o perdedor no afecta directamente el resultado de una manera notoria. Pero vamos a profundizar en los datos para ver si podemos descubrir algún patrón oculto.
¡Ahora sí estamos viendo algo interesante! Como podemos observar, cuando la diferencia de porcentaje de victorias es pequeña, cualquier cosa puede pasar. Pero a medida que nos movemos hacia los extremos—donde (>0.25) un gran equipo enfrenta a uno que está luchando—comenzamos a ver una tendencia clara.
Una observación interesante es que cuando la diff=1
, el patrón cambia. Después de inspeccionar los datos, esto ocurre temprano en la temporada, cuando hay muchos equipos invictos o sin victorias. Entonces, intentemos filtrar los datos para incluir solo juegos después de la Semana 3.
Bueno, esto es algo. Vamos a verificar las correlaciones después de la Semana 3 y cuando la diferencia de porcentaje de victorias sea mayor que 0.25 o menor que -0.25.
Ahora nuestros datos se alinean estrechamente con el spread de Las Vegas, lo cual es motivador para intentar construir un modelo de ML simple. Y sí, hemos reducido significativamente nuestro conjunto de datos—de 6,898 juegos a solo 2,254 juegos—pero bueno, no siempre se puede ganar, ¿verdad? 😅
Aprendizaje Automático
Ahora intentemos crear un modelo de ML simple. Usaremos un Algoritmo de Árbol de Decisión, principalmente porque es sencillo y muy ilustrativo, y también porque tenemos un conjunto de datos muy pequeño, con menos de 10,000 puntos de datos.
Los árboles de decisión son un tipo de algoritmo supervisado de aprendizaje automático utilizado tanto para tareas de clasificación como de regresión. Funcionan dividiendo recursivamente los datos en subconjuntos basados en las características que proporcionan la separación más significativa según una métrica elegida. Este método es interpretable, ya que podemos visualizar cómo el árbol divide los datos y el proceso de toma de decisiones que sigue. Sin embargo, los Árboles de Decisión pueden ser propensos a sobreajustarse, especialmente con conjuntos de datos complejos, por lo que utilizaremos técnicas como limitar la profundidad del árbol para garantizar una mejor generalización.
Primero, dividiremos los datos. Usaremos datos desde 1999 hasta 2022 para entrenar nuestro Árbol de Decisión, y luego probaremos el rendimiento con los datos de 2023 y 2024.
Fig. 5 muestra el árbol de decisión. Optimizamos los parámetros utilizando GridSearchCV, lo que significa que probamos varias configuraciones de árbol para encontrar la que mejor funcionó. Como se muestra, el árbol tiene 3 niveles de profundidad. Primero verifica si winning_ratio_diff > -0.029
, luego evalúa si winning_ratio_diff > 0.216
, y finalmente considera si el equipo está jugando en casa.
Desde 1999 hasta 2022, los equipos locales con un winning_ratio_diff
de 0.216 jugaron 990 juegos y ganaron 763 de ellos, logrando una impresionante tasa de victorias del 80%.
Ahora, probemos cómo habría funcionado esta regla simple en 2023 y 2024.
Como vemos arriba, de 64 casos donde se cumplió esta condición, se mantuvo la tasa de victorias del 80%. En 51 de esos casos, el equipo ganador celebró en casa 🎉🎉🎉🎉.
Ahora, pasemos a mostrar la tabla de predicciones.
De hecho, en la Semana 13 de 2024, podríamos haber ganado una apuesta combinada de 7 😂.
Conclusiones y Créditos
Hemos concluido la primera parte de Predicciones de NFL. Logramos un resultado sólido con un árbol de decisión simple que proporciona una tasa de éxito del 80% en los casos donde se aplicó—alrededor de 35-45 casos por año. En la siguiente parte, profundizaremos en Puntos, Spreads, y Totales.