Математичні ставки. Як твіттер допомагає робити прогнози на спорт

Рейтинг
Букмекерів

Чи може колективний розум бути хорошим порадником, якщо ви збираєтеся зробити ставку на спорт? Відповідь на це питання стало можливим завдяки усепроникним соціальним мережам, з яких найкращим джерелом всіляких прогнозів і прорікань є твіттер. Обмеження в 140 символів дозволило створити засоби автоматичної обробки мільйонів повідомлень, а успіхи сучасної науки та ІТ в області машинного навчання створили необхідний інструментарій для аналізу текстових даних. Раніше твіттер вже використовували для прогнозу і моделювання результату виборів в США, цін на акції, кінозборів і поширення епідемій. Так чому б не спробувати зробити те ж саме для спортивних змагань? Такі дослідження також проводилися – і результати були дуже обнадійливі. Про них і піде мова в цьому матеріалі.

Західні дослідники використовували твіттер для прогнозів на спорт

Дослідження #1

У першому випадку вчені з Carnegie Mellon University взяли дані спортивних змагань NFL за 2010-2012 роки, зібрали футбольні твіти за той же період, ретельно фільтруючи записи за хештегом на підтримку тієї чи іншої команди. Таким чином, кожен запис з хештегом команди трактувалася однозначно: перемога чи поразка в майбутній грі. Подальша класифікація твітів йшла за схемом нижче.

Класифікація післяматчевих твітів з американського футболу

Прогноз перемоги господарів
Прогноз перемоги гостів
home: win home: victory away: loss away: win away: congrats home: lost
home: won home: WIN away: lost away: won away: Go home: loss
home: Great away: lose away: refs away: Great away: proud home: bad

Зверніть увагу, як сторона, що програла звично нарікає на суддів (ключове слово refs). Масив післяматчевих твітів став полігоном, на якому дослідники навчилися отримувати цінні крупиці з усієї маси тексту, а потім стали обраховувати ключові слова в передматчевих твітах. За допомогою статистичних методів, використовуючи логістичну регресію, дослідники впродовж декількох місяців складали прогнози:

  • тільки на основі твіттера;
  • на основі твіттера І традиційних статистичних методів прогнозу.

Прогнози робилися на:

  • результат гри;
  • фору;
  • тотал.

Для американського футболу твіттер виявився досить хорошим індикатором. При використанні тільки твіттера, точність прогнозу на тотал склала 54,3%. З форою вийшло гірше – всього 47,6% вірних прогнозів. Змінюючи і підлаштовуючи різні коефіцієнти по ходу експерименту, навчаючи програму, вдалося досягти наступних результатів для 2012 року:

  • прогноз результату гри – 63,8%;
  • прогноз фори – 52%;
  • прогноз на тотал – 44,1%.

Дослідження #2

Тепер трохи про друге дослідження, в якому футбольні твіти служили індикатором результатів матчів АПЛ, зіграних навесні 2014 року. В комп’ютер завантажили близько 2 мільйонів твітів, футбольну статистику АПЛ – і стали рахувати. Так само, як і в попередньому експерименті, відбір твітів відбувався за хештегом футбольних клубів, які необхідно було відфільтрувати, відсіявши всі ті, що могли належати різним клубам. Наприклад, хештег #Saints може належати Southampton F.C. з АПЛ, але також і New Orleans американської NFL.

Мова йде поки лише про англомовний сегмент твіттера. Це обумовлено поширеністю англійської мови, її відносно простим словотвором і найбільш підходящою для машинної обробки.

Деякі труднощі в розрахунках виникли через те, що популярність команд в твіттері розподілена вкрай нерівномірно. Найпопулярніші команди, такі як Manchester United і Liverpool F.C. зібрали понад 400 тисяч твітів, в той час як Fulham і Swansea – лише 15,5 тисячі.

Одночасно йшла обробка футбольної статистики з урахуванням безлічі факторів: середня кількість забитих м’ячів, кутових, ударів по воротах, штрафів, жовтих і червоних карток і так далі.

За допомогою все тієї ж логістичної регресії, моделі Байєса і алгоритмів машинного навчання вдалося домогтися таких результатів.

  • тільки твіттер: в середньому точність прогнозу – 66%, мінімум – 56%, максимум – 75%;
  • тільки футбольна статистика: в середньому точність прогнозу – 59%, мінімум – 51%, максимум – 64%;
  • твіттер + футбольна статистика: в середньому точність прогнозу – 70%, мінімум – 64%, максимум – 75%.

Твіттер + ставки на спорт в Україні = ?

Як бачите, одного твіттера цілком вистачає для того, щоб, маючи навички статистичного аналізу, успішно прогнозувати результати матчу. Необов’язково для цього бути футбольним експертом. Тут, правда, необхідно зробити застереження. Багато хто вже здогадався, що мова йде поки лише про англомовний сегмент твіттера. Це обумовлено поширеністю англійської мови, її відносно простим словотвором і найбільш підходящою для машинної обробки. Україномовний твіттер чекає свого дослідника. Завдання важке, але цілком реальне.

Який практичний урок можна взяти з цього? Колективний розум цілком добре вміє передбачати спортивні змагання, треба лише вміти правильно поставити питання і прочитати відповідь. Якщо ви впевнені в перемозі вашої команди, але в підписці твіттер-новин з хештегом вашої команди миготять слова «продують», «травма», «не в формі», то, можливо, вам слід подумати ще раз, перш ніж ставити на перемогу улюбленців.

Залишились запитання? Спитайте у наших знавців!
Коментарі 0
Підписка на прогнозиста
Підписка на автора

Повідомлення про нові публікації цього автора будуть приходити на електронну адресу, вказану вами при реєстрації на «РБ»

Повідомлення про нові прогнози цього експерта будуть приходити на електронну адресу, вказану вами при реєстрації на «РБ»

Підписка на автора
Підписка на прогнозиста

Це означає, що ви більше не будете отримувати повідомлення про нові вебінари на вашу електронну адресу електронної пошти.

Це означає, що ви перестанете отримувати повідомлення про нові відповіді цього експерта на вашу електронну адресу

Реєстрація
Реєстрація
Вхід
Забули пароль?