Социальные сети – неотъемлемая часть жизни огромного количества людей: каждый день они делают публикации, делятся фотографиями и местоположением, участвуют в обсуждениях. Ученые НИТУ «МИСиС» нашли способ прогнозировать следующее местоположение пользователей соцсети Twitter на основании твиттов с «вшитой» геолокацией. Алгоритм основан на методах машинного обучения (ML) и анализе больших данных (Big Data)
«Мы использовали не только открытые данные о путешествиях, но и о личностях самих путешественников. Сначала мы извлекли из данных все геотегируемые твиты (твиты с информацией о местоположении) и категоризировали. Из случайного набора 5000 профилей пользователей разных европейских стран (Франция, Германия, Швеция, Испания, Италия, Швейцария, Польша, Греция и многие другие) было выложено более 800 тысяч твитов. При отборе данных наиболее посещаемыми в поездках категориями оказались «Еда», «Ночные клубы», «Вокзалы», «Церкви», «Морские пляжи». Для каждой категории мы подготовили отдельный набор данных», – комментирует руководитель исследования, директор Института информационных бизнес-систем НИТУ «МИСиС» Марина Нежурина.
При отборе данных категории сопоставлялись с характеристиками личности пользователя. Это обусловлено тем, что выбор слов в твитах пользователей в основном зависит от их личных ценностей. Для построения модели прогнозирования был использован метод ансамблевой классификации, объединяющей результаты всех базовых классификаторов. Предварительно аналогичный подход был апробирован при исследовании отзывов о сервисах в скоростных поездах Индии. Результаты опубликованы в журнале Advances in Intelligent Systems and Computing.
По словам ученых, прогноз можно конкретизировать: для этого требуется собрать такие параметры, как гражданство, возраст и пол пользователей. Следующий этап работы – анализ и построение моделей с помощью ансамбля методов машинного обучения.