Чи може колективний розум бути хорошим порадником, якщо ви збираєтеся зробити ставку на спорт? Відповідь на це питання стало можливим завдяки усепроникним соціальним мережам, з яких найкращим джерелом всіляких прогнозів і прорікань є твіттер. Обмеження в 140 символів дозволило створити засоби автоматичної обробки мільйонів повідомлень, а успіхи сучасної науки та ІТ в області машинного навчання створили необхідний інструментарій для аналізу текстових даних. Раніше твіттер вже використовували для прогнозу і моделювання результату виборів в США, цін на акції, кінозборів і поширення епідемій. Так чому б не спробувати зробити те ж саме для спортивних змагань? Такі дослідження також проводилися – і результати були дуже обнадійливі. Про них і піде мова в цьому матеріалі.
У першому випадку вчені з Carnegie Mellon University взяли дані спортивних змагань NFL за 2010-2012 роки, зібрали футбольні твіти за той же період, ретельно фільтруючи записи за хештегом на підтримку тієї чи іншої команди. Таким чином, кожен запис з хештегом команди трактувалася однозначно: перемога чи поразка в майбутній грі. Подальша класифікація твітів йшла за схемом нижче.
Класифікація післяматчевих твітів з американського футболу
Прогноз перемоги господарів |
Прогноз перемоги гостів | ||||
---|---|---|---|---|---|
home: win | home: victory | away: loss | away: win | away: congrats | home: lost |
home: won | home: WIN | away: lost | away: won | away: Go | home: loss |
home: Great | away: lose | away: refs | away: Great | away: proud | home: bad |
Зверніть увагу, як сторона, що програла звично нарікає на суддів (ключове слово refs). Масив післяматчевих твітів став полігоном, на якому дослідники навчилися отримувати цінні крупиці з усієї маси тексту, а потім стали обраховувати ключові слова в передматчевих твітах. За допомогою статистичних методів, використовуючи логістичну регресію, дослідники впродовж декількох місяців складали прогнози:
Прогнози робилися на:
Для американського футболу твіттер виявився досить хорошим індикатором. При використанні тільки твіттера, точність прогнозу на тотал склала 54,3%. З форою вийшло гірше – всього 47,6% вірних прогнозів. Змінюючи і підлаштовуючи різні коефіцієнти по ходу експерименту, навчаючи програму, вдалося досягти наступних результатів для 2012 року:
Тепер трохи про друге дослідження, в якому футбольні твіти служили індикатором результатів матчів АПЛ, зіграних навесні 2014 року. В комп’ютер завантажили близько 2 мільйонів твітів, футбольну статистику АПЛ – і стали рахувати. Так само, як і в попередньому експерименті, відбір твітів відбувався за хештегом футбольних клубів, які необхідно було відфільтрувати, відсіявши всі ті, що могли належати різним клубам. Наприклад, хештег #Saints може належати Southampton F.C. з АПЛ, але також і New Orleans американської NFL.
… Мова йде поки лише про англомовний сегмент твіттера. Це обумовлено поширеністю англійської мови, її відносно простим словотвором і найбільш підходящою для машинної обробки.
Деякі труднощі в розрахунках виникли через те, що популярність команд в твіттері розподілена вкрай нерівномірно. Найпопулярніші команди, такі як Manchester United і Liverpool F.C. зібрали понад 400 тисяч твітів, в той час як Fulham і Swansea – лише 15,5 тисячі.
Одночасно йшла обробка футбольної статистики з урахуванням безлічі факторів: середня кількість забитих м’ячів, кутових, ударів по воротах, штрафів, жовтих і червоних карток і так далі.
За допомогою все тієї ж логістичної регресії, моделі Байєса і алгоритмів машинного навчання вдалося домогтися таких результатів.
Як бачите, одного твіттера цілком вистачає для того, щоб, маючи навички статистичного аналізу, успішно прогнозувати результати матчу. Необов’язково для цього бути футбольним експертом. Тут, правда, необхідно зробити застереження. Багато хто вже здогадався, що мова йде поки лише про англомовний сегмент твіттера. Це обумовлено поширеністю англійської мови, її відносно простим словотвором і найбільш підходящою для машинної обробки. Україномовний твіттер чекає свого дослідника. Завдання важке, але цілком реальне.
Який практичний урок можна взяти з цього? Колективний розум цілком добре вміє передбачати спортивні змагання, треба лише вміти правильно поставити питання і прочитати відповідь. Якщо ви впевнені в перемозі вашої команди, але в підписці твіттер-новин з хештегом вашої команди миготять слова «продують», «травма», «не в формі», то, можливо, вам слід подумати ще раз, перш ніж ставити на перемогу улюбленців.