Математические ставки. Как твиттер помогает делать прогнозы на спорт
Содержание
Исследование #1
В первом случае ученые из Carnegie Mellon University взяли данные спортивных соревнований NFL за 2010-2012 гг., собрали футбольные твиты за тот же период, тщательно фильтруя записи по хештегам в поддержку той или иной команды. Таким образом, каждая запись хештегом команды трактовалась однозначно: победа или поражение в предстоящей игре. Дальнейшая классификация твитов шла по схеме ниже.
Читайте также:
- Выбрать лучшего букмекера для ставок на спорт
- Прогнозы на сегодня от профессионалов
- Как выбрать букмекерскую контору – советы «РБ»
- Бездепозитные бонусы букмекерских контор
- Как не проиграть первую ставку – 6 советов новичку
Классификация послематчевых твитов по американскому футболу
Прогноз победы хозяев | Прогноз победы гостей | ||||
---|---|---|---|---|---|
home: win | home: victory | away: loss | away: win | away: congrats | home: lost |
home: won | home: WIN | away: lost | away: won | away: Go | home: loss |
home: Great | away: lose | away: refs | away: Great | away: proud | home: bad |
Обратите внимание, как проигравшая сторона привычно пеняет на судей (ключевое слово refs). Массив послематчевых твитов стал полигоном, на котором исследователи научились извлекать ценные крупицы из всей массы текста, а затем стали обсчитывать ключевые слова в предматчевых твитах. С помощью статистических методов, используя логистическую регрессию, исследователи в течении нескольких месяцев составляли прогнозы:
- только на основе твиттера;
- на основе твиттера И традиционных статистических способов прогноза.
Прогнозы делались на:
- исход игры;
- фору;
- тотал.
Для американского футбола твиттер оказался довольно хорошим индикатором. При использовании только твиттера, точность прогноза на тотал составила 54,3%. С форой получилось похуже – всего 47,6% верных прогнозов. Изменяя и подстраивая различные коэффициенты по ходу эксперимента, обучая программу, удалось достичь следующих результатов для 2012 года:
- прогноз исхода игры – 63,8%;
- прогноз форы – 52%;
- прогноз на тотал – 44,1%.
Исследование #2
Теперь немного о втором исследовании, в котором футбольные твиты служили индикатором результатов матчей АПЛ, сыгранных весной 2014 года. В компьютер загрузили около 2 миллионов твитов, футбольную статистику АПЛ – и стали считать. Так же как и в предыдущем эксперименте, отбор твитов происходил по хештегам футбольных клубов, которые необходимо было отфильтровать, отсеяв все те, что могли принадлежать разным клубам. Например, хештег #Saints может принадлежать Southampton F. C. из АПЛ, но также и New Orleans американской NFL.
…речь идет пока только лишь об англоязычном сегменте твиттера. Это обусловлено распространенностью английского языка, его относительно простым словообразованием, наиболее подходящим для машинной обработки.
Некоторые затруднения в расчетах возникли из-за того, что популярность команд в твиттере распределена крайне неравномерно. Самые популярные команды, такие как Манчестер Юнайтед и Liverpool F.C. собрали свыше 400 тысяч твитов, в то время как Fulham и Swansea – лишь 15,5 тысячи.
Одновременно шла обработка футбольной статистики с учетом множества факторов: среднее количество забитых мячей, угловых, ударов по воротам, штрафов, желтых и красных карточек и так далее.
С помощью все той же логистической регрессии, модели Байеса и алгоритмов машинного обучения удалось добиться следующих результатов.
- только твиттер: в среднем точность прогноза – 66%, минимум – 56%, максимум – 75%;
- только футбольная статистика: в среднем точность прогноза – 59%, минимум – 51%, максимум – 64%;
- твиттер + футбольная статистика: в среднем точность прогноза – 70%, минимум – 64%, максимум – 75%.
Твиттер + ставки на спорт в России = ?
Как видите, одного твиттера вполне хватает для того, чтобы, имея навыки статистического анализа, успешно предсказывать результаты матча. Необязательно для этого быть футбольным экспертом. Тут, правда, необходимо сделать оговорку. Многие уже догадались, что речь идет пока только об англоязычном сегменте твиттера. Это обусловлено распространенностью английского языка, его относительно простым словообразованием, наиболее подходящим для машинной обработки. Русскоязычный твиттер ждет своего исследователя. Задача трудная, но крупной IT-компании, вроде «Яндекса» или ABBYY, вполне по зубам.
Какой практический урок можно извлечь из этого? Коллективный разум вполне хорошо умеет предсказывать спортивные соревнования, надо лишь уметь правильно поставить вопрос и прочитать ответ. Если вы уверены в победе вашей команды, но в подписке твиттер-новостей с хештегом вашей команды мелькают слова «продуют», «травма», «не в форме», то, возможно, вам следует подумать еще раз, прежде чем ставить на победу любимцев.
Спасибо за Вашу помощь!
Мы ценим Вашу бдительность!
Уведомления о новых публикациях этого автора будут приходить на электронный адрес, указанный Вами при регистрации на "РБ"
Уведомления о новых прогнозах этого эксперта будут приходить на электронный адрес, указанный Вами при регистрации на "РБ"
Это значит что вы больше не будете получать уведомления о новых публикациях этого автора на ваш электронный адрес.
Это значит что вы больше не будете получать уведомления о новых прогнозах этого эксперта на ваш электронный адрес.
С языками я не очень. Любопытен механизм и фильтры.
Условно: в один день может быть: угадали 3 из 3 (топик/результат), в другой — 4 из 12. Как качественно определить объективность и результат? Чем больше фильтров, тем хлопотнее достижение результата, и искаженный конечный результат. Я вижу так.
Занимательная статья. Спасибо)
Интересно, а выкладывают ли в открытый доступ прогнозы исследователи? А то было бы интересно последить сейчас.
Такое случается, но редко кто делает это систематически из исследователей.