Кубанский государственный технологический университет

Компьютер-провидец: предсказанные на основе новостей события подтвердились

07-01-2012
Анализируя общий тон и географические координаты большого количества сообщений глобальных СМИ, суперкомпьютер может помочь спрогнозировать поведение людей.

Ученые из Университета штата Иллинойс решили использовать современные компьютерные технологии для прогнозирования социального поведения.

Сначала для создания глобальной картины средств массовой информации исследователи объединили три огромных архива новостей со всего мира общим количеством более 100 миллионов статей. Для работы с таким объемом данных пришлось использовать суперкомпьютер Nautilus в Национальном институте вычислительных наук в штате Теннесси.

Ученым пришлось с помощью различных современных методов анализа обработать до 2,4 петабайт (более 2 млн гигабайт) информации, содержащей сведения о 10 млрд людей, мест, вещей и событий с более чем 100 триллионами связей. Даже Nautilus не смог бы изучить этот массив данных целиком и пришлось разделить данные на несколько частей.

Тем не менее, удалось выявить определенные закономерности, которые позволяют с уверенностью говорить о потенциальной возможности прогнозирования самых различных событий и процессов.

Для интеллектуального анализа использовались три ключевых метода: тональная посылка, полнотекстовое геокодирование и анализ сети.

Анализ тональной посылки создает числовую меру эмоциональной окраски документа. Алгоритм подсчитывает количество положительных и отрицательных слов и присваивает документу соответствующее значение, отмечая, что «ненавидеть» является более отрицательным, чем «не любить».

Геокодирование использует алгоритмы, которые проверяют текст новости на ссылки к определенным регионам.

Анализ сети группирует архивы новостей по принадлежности к «цивилизациям», т.е. группам стран, СМИ которых имеет тенденцию группироваться вокруг определенных событий.

Одним из самых неожиданных результатов работы суперкомпьютера стало обнаружение по новостям предполагаемого местонахождения Усамы Бен Ладена. Компьютер определил местоположение террориста №1 в круге диаметром 200 км в Северном Пакистане. В этот район попал Абботтабад, где Бен Ладен и был найден американским спецназом.

Компьютер так же смог без затруднений спрогнозировать революции в Египте, Тунисе и Ливии. Тунис сыграл большую роль в движении Египта к революции, но компьютер четко отследил тональность новостей о Египте и обнаружил, что она резко ушла в негативную сторону после взрыва Коптской церкви в январе. Конечно, исходя из условий и задач исследования, все эти открытия были сделаны задним числом.

Компьютерный анализ также обнаружил в глобальных СМИ семь «цивилизаций», в то время как, например, Times формирует пять групп новостей, связанных в основном с Америкой. Таким образом становится виден стандартный принцип журналистики: писать для своей аудитории. Каждая страна описывает мир по-своему и в американских СМИ также доминирует американо-ориентированный взгляд на мир.

Подобные мощные инструменты анализа огромного массива новостной информации являются чрезвычайно полезными для правительств стран, которые хотят повлиять на социальные процессы в других государствах или даже целых регионах. Зачастую даже национальные правительства не в состоянии адекватно оценить ситуацию в собственной стране, а применение мощных прогнозных инструментов позволяет выбрать тактику и извлечь пользу из происходящего еще до того, как события примут очевидный характер.

Читайте на CNews Эмоции по команде: как людей делают счастливыми Нужна ли сертификация ИТ-специалистов для СМБ? ИТ-услуги для малого бизнеса: цунами приближаетс