|  Базовый алгоритм для геоаналитических задачВходные данные:
 
 
            Записи о 2G и 3G транзакциях абонентов сотовых операторов;
 
Справочники базовых станций операторов сотовой связи;
 
 Алгоритм:
 
 
            Фильтрация строк с информацией о транзакциях за требуемый период;
 
Отбираются строки с информацией о транзакциях, где заполнены поля Идентификатора сим-карты (IMSI), Информация о локации (LAC), Идентификатор соты (Cell_ID);
 
Рассматриваются события входящие/исходящие сообщения, входящие/исходящие звонки, изменение локации (Location_Update), интернет-трафик;
 
Для каждого абонента формируются временные интервалы, в соответствии с транзакциями;
 
Объединяются последовательные временные интервалы, для которых событие зафиксировано на одной соте;
 
Данные уточняются при помощи справочника соседних базовых станций;
 
Для каждого временного интервала определяется, был ли абонент неподвижен или находился в движении;
 
 Выходные данные:
 
 
            Информация о местоположении абонентов в любой момент времени в виде: Идентификатор абонента; Время начала интервала; Время окончания интервала; Набор сот для абонента; Статус перемещения.
 
 
            
              
                 Базовый алгоритм для задач по машинному обучению Входные данные:
 
 
            Файлы в текстовом формате (*.csv);
 
 Алгоритм:
 
 
            Создание обучающей модели;
 
Реализация алгоритма взаимозависимых событий;
 
Нахождение полной вероятности наступления события в зависимости от априорной и апостериорной вероятности.
 
 
            
              
                 Реальная оценка посещаемости гражданами культурно-массовых мероприятий Расчёт количества посетителей мероприятияВходные данные:
 
 
            Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
 
Список мероприятий;
 
 Алгоритм:
 
 
            Для каждого абонента в любой момент времени известна локация;
 
Данные сопоставляются со справочником локаций проведения мероприятий/учреждений культуры;
 
Определяется суммарное количество абонентов, посетивших культурное учреждение хотя бы один раз за рассматриваемый период;
 
 Выходные данные:
 
 
            Идентификатор мероприятия;
 
Дата;
 
Количество посетителей.
 
 Район отправления посетителей (количество посетителей, которые прибыли из каждого района на мероприятие)Входные данные:
 
 
            Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);
 
Справочник территориального деления;
 
API сервиса Яндекс.Карты;
 
Список мероприятий;
 
 Алгоритм:
 
 
            По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.) определяется маршруты следования абонентов;
 
Определяется загруженность маршрутов следования для каждого учреждения культуры, как общее количество абонентов на маршруте в интервал времени;
 
Данные сопоставляются со справочником территориального деления;
 
Статистика дополняется информацией сервиса Яндекс.Карты;
 
Данные агрегируются по учреждениям культуры и временным интервалам;
 
 Выходные данные:
 
 
            Данные предоставляются в формате: Идентификатор района; Временной интервал; Количество абонентов; Количество абонентов проездом; Количество абонентов дома; Количество абонентов на работе.
 
 Время, за которое посетитель добрался от места отправления до места проведения мероприятия (агрегированные данные)Входные данные:
 
 
            Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
 
 Алгоритм:
 
 
            Для каждого абонента определяется время начала и время окончания поездки;
 
На основании алгоритма определения расстояния между точками на окружности;
 
Рассчитывается время поездки для каждого абонента;
 
 Выходные данные:
 
 
            Идентификатор локации отправления;
 
Идентификатор локации прибытия;
 
Временной срез;
 
Количество посетителей.
 
 Определение из дома или с работы отправился посетитель на мероприятие (агрегированные данные для каждого района)Входные данные:
 
 
            Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);
 
Справочник учреждений культуры (spape-файлы с граничными координатами) предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;
 
API сервиса Яндекс.Карты;
 
Список мероприятий;
 
Справочник территориального деления;
 
 Алгоритм:
 
 
            По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.) определяется маршруты следования абонентов;
 
Определяется загруженность маршрутов следования для каждого учреждения культуры, как общее количество абонентов на маршруте в интервал времени;
 
Данные сопоставляются со справочником территориального деления;
 
Определяется количество абонентов, прибывших в район расположения учреждения культуры из дома;
 
Определяется количество абонентов, прибывших в район расположения учреждения культуры с работы;
 
Статистика дополняется информацией сервиса Яндекс.Карты;
 
Данные агрегируются по учреждениям культуры и временным интервалам;
 
 Выходные данные:
 
 
            Данные предоставляются в формате: Идентификатор мероприятия; Временной интервал; Количество абонентов; Количество абонентов, прибывших из дома; Количество абонентов, прибывших с работы.
 
 Показатель доступности места проведения массового мероприятия в динамике в зависимости от времени.Входные данные:
 
 
            Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);
 
Справочник учреждений культуры (spape-файлы с граничными координатами) предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;
 
API сервиса Яндекс.Карты;
 
Список мероприятий;
 
 Алгоритм:
 
 
            По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.) определяется маршруты следования абонентов;
 
Определяется загруженность маршрутов следования для каждого учреждения культуры, как общее количество абонентов на маршруте в интервал времени;
 
Данные сопоставляются со справочником территориального деления;
 
Определяется количество абонентов, находящихся в районе учреждения культуры проездом;
 
Определяется количество абонентов, находящихся в районе учреждения культуры дома;
 
Определяется количество абонентов, находящихся в районе учреждения культуры на работе;
 
Статистика дополняется информацией сервиса Яндекс.Карты;
 
Данные агрегируются по учреждениям культуры и временным интервалам;
 
 Выходные данные:
 
 
            Данные предоставляются в формате: Идентификатор мероприятия; Временной интервал; Количество абонентов; Количество абонентов проездом; Количество абонентов дома; Количество абонентов на работе.
 
 Сегментация. Автомобилисты/Пассажиры метро.Входные данные:
 
 
            Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
 
 Алгоритм:
 
 
            Для каждого абонента определяется локация для заданного интервала времени по базовому алгоритму для геоаналитических задач (см. подраздел 3.5.1.);
 
Для локаций абонентов находятся соответствия по справочнику учреждений культуры;
 
Выделяются абоненты, транзакции которых отмечаются на базовых станциях, соответствующих метро;
 
Определяется скорость перемещения абонентов;
 
Выделяются маршруты следования абонентов;
 
Абоненты разделяются на группы: автомобилисты; пассажиры метро; передвигающиеся на маршрутном ТС; смешанный стиль;
 
Данные группируются по времени;
 
 Выходные данные:
 
 
            Абонент2 3;
 
Временной период;
 
Группа учреждений культуры;
 
Способ передвижения.
 
 Сегментация. Пол/Возраст абонентаВходные данные:
 
 
            Детальные данные о транзакциях сотовых операторов;
 
Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
 
Данные социальных сетей;
 
Справочник учреждений культуры (spape-файлы с граничными координатами) предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;
 
 Алгоритм:
 
 
            Обучение алгоритма для нахождения ключевых слов в тексте;
 
Классификация абонентов на группы по текстам сообщений;
 
Обогащение классификации данными из социальных сетей;
 
Определения количества транзакций абонентов, разделение на группы;
 
Определение количества и динамики перемещений;
 
Соотношение показателей, полученных в предыдущих пунктах со справочником учреждений культуры;
 
Выходные данные:
 
Учреждение культуры;
 
Данные о поле посетителей в процентах;
 
Данные о возрасте посетителей в процентах.
 
 
            
              
                 Реальная оценка полезности проводимых ведомством культурно-массовых мероприятий, анализ общественного мнения
                  Парсинг текстовых интернет-ресурсов (социальные сети, блоги, форумы). Разделение рейтинга по группам пользователей
 
 Входные данные:
 
 
            API или XML-шлюз интернет-ресурсов;
 
Список культурно-массовых мероприятий;
 
 Алгоритм:
 
 
            Формирование обучающей выборки;
 
Проставление признаков, основанное на экспертном мнении;
 
Обучение алгоритма путем определения относительных частот значений всех атрибутов входных данных при фиксированных значениях атрибутов класса;
 
Парсинг ресурса;
 
Обработка сообщений интернет-ресурса при помощи обученного алгоритма;
 
Составление рейтинга;
 
Разделение на группы;
 
 Выходные данные:
 
 
            Название культурно-массового мероприятия;
 
Ссылка на статью;
 
Категория пользователя;
 
Статус.
 
 
            
              Парсинг видео-/аудиоинтернет-ресурсов. Разделение рейтинга по группам пользователей
 
 Входные данные:
 
 
            Список ресурсов;
 
Список культурно-массовых мероприятий;
 
 Алгоритм:
 
 
            Формирование обучающей выборки;
 
Проставление признаков, основанное на экспертном мнении;
 
Обучение алгоритма путем определения относительных частот значений всех атрибутов входных данных при фиксированных значениях атрибутов класса;
 
Парсинг аудио-/видеозаписи;
 
Разбиение на фрагменты;
 
Обработка аудио-/видеозаписи интернет-ресурса при помощи обученного алгоритма;
 
Составление рейтинга;
 
Разделение на группы;
 
 Выходные данные:
 
 
            Название культурно-массового мероприятия;
 
Ссылка на запись;
 
Категория пользователя;
 
Статус.
 
 
            
              Парсинг СМИ. Разделение рейтинга по группам пользователей
 
 Входные данные:
 
 
            API или XML-шлюз интернет-ресурсов;
 
Список культурно-массовых мероприятий;
 
 Алгоритм:
 
 
            Формирование обучающей выборки;
 
Проставление признаков, основанное на экспертном мнении;
 
Обучение алгоритма путем определения относительных частот значений всех атрибутов входных данных при фиксированных значениях атрибутов класса;
 
Парсинг аудио-/видеозаписи;
 
Разбиение на фрагменты;
 
Обработка аудио-/видеозаписи интернет-ресурса при помощи обученного алгоритма;
 
Составление рейтинга;
 
Разделение на группы;
 
 Выходные данные:
 
 
            Название культурно-массового мероприятия;
 
Ссылка на статью;
 
Категория пользователя;
 
Статус.
 
 
            
              
                 Анализ зоны влияния учреждений культуры в зависимости от их расположения на популяризацию культуры
                  Транспортная доступность культурных учреждений
 
 Входные данные:
 
 
            Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);
 
Справочник учреждений культуры (spape-файлы с граничными координатами) предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;
 
API сервиса Яндекс.Карты;
 
Справочник территориального деления;
 
 Алгоритм:
 
 
            По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.) определяется маршруты следования абонентов;
 
Определяется загруженность маршрутов следования для каждого учреждения культуры, как общее количество абонентов на маршруте в интервал времени;
 
Данные сопоставляются со справочником территориального деления;
 
Определяется количество абонентов, находящихся в районе учреждения культуры проездом;
 
Определяется количество абонентов, находящихся в районе учреждения культуры дома;
 
Определяется количество абонентов, находящихся в районе учреждения культуры на работе;
 
Статистика дополняется информацией сервиса Яндекс.Карты;
 
Данные агрегируются по учреждениям культуры и временным интервалам;
 
 Выходные данные:
 
 
            Данные предоставляются в формате: Идентификатор культурного учреждения; Временной интервал; Количество абонентов; Количество абонентов проездом; Количество абонентов дома; Количество абонентов на работе.
 
 
            
              Выделение из посетителей Influence Agents (Влияющих на мнение окружающих). Выделение групп общения.
 
 Входные данные:
 
 
            Детальные данные сотовых операторов о транзакциях;
 
 Алгоритм:
 
 Определяются меры центральности для определения:
 
 
            Degree centrality колво абонентов, с которыми совершались транзакции за искомый период;
 
Betweenes centrality нахождение доли кратчайших путей, соединяющих все пары абонентов, звонки которых "проходят" через данного абонента. Находятся кратчайшие пути и их количество, а потом долю кратчайших путей относительно данного абонента;
 
Closeness centrality величина, обратная сумме длин кратчайших путей от данного абонента к остальным;
 
Eigenvalue centrality мера важности абонента в сети. Рассчитывается по принципу: соединение узла (абонента) с важными абонентами (у которых высокие показатели);
 
 Выходные данные:
 
 
            Абонент (Influence Agent);
 
Группа общения.
 
 
            
              Определение количества районов, из которых приезжают посетители в культурное учреждение
 
 Входные данные:
 
 
            Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);
 
Справочник территориального деления;
 
 Алгоритм:
 
 
            Для каждого абонента в любой момент времени известна локация;
 
Данные сопоставляются со справочником территориального деления;
 
Для каждого абонента, посетившего культурное учреждение хотя бы один раз за рассматриваемый период, определяется локация отправления;
 
Рассчитывается суммарное количество локаций отправления для каждого учреждения культуры;
 
 Выходные данные:
 
 
            Данные предоставляются в следующем формате: Идентификатор учреждения культуры; Количество районов отправления.
 
 
            
              
                 Помощь в принятии решения о месте проведения культурно-массовых мероприятий на основании анализа факторов, влияющих на его «удачность»
                  Выделение возраста абонентов в процентах для каждого района
 
 Входные данные:
 
 
            Детальные данные о транзакциях сотовых операторов;
 
Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
 
Данные социальных сетей;
 
Справочник территориального деления;
 
 Алгоритм:
 
 
            Обучение алгоритма для нахождения ключевых слов в тексте;
 
Классификация абонентов на группы по текстам сообщений;
 
Обогащение классификации данными из социальных сетей;
 
Определения количества транзакций абонентов, разделение на группы;
 
Определение количества и динамики перемещений;
 
Соотношение показателей, полученных в предыдущих пунктах со справочником территориального деления;
 
 Выходные данные:
 
 
            Идентификатор района;
 
Возрастная группа;
 
Процентное соотношение.
 
 
            
              Выделение пола абонентов в процентах для каждого района
 
 Входные данные:
 
 
            Детальные данные о транзакциях сотовых операторов;
 
Данные социальных сетей;
 
Справочник территориального деления;
 
Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
 
 Алгоритм:
 
 
            Обучение алгоритма для нахождения ключевых слов в тексте;
 
Классификация абонентов на группы по текстам сообщений;
 
Обогащение классификации данными из социальных сетей;
 
Соотношение показателей, полученных в предыдущих пунктах со справочником учреждений культуры;
 
 Выходные данные:
 
 
            Идентификатор района;
 
Пол;
 
Данные о поле посетителей в процентах.
 
 
            
              Транспортная доступность района проведения мероприятия
 
 Входные данные:
 
 
            Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);
 
Справочник локаций проведения мероприятий;
 
API сервиса Яндекс.Карты;
 
Справочник территориального деления;
 
 Алгоритм:
 
 
            По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.) определяется маршруты следования абонентов;
 
Определяется загруженность маршрутов следования для каждого учреждения культуры, как общее количество абонентов на маршруте в интервал времени;
 
Данные сопоставляются со справочником территориального деления;
 
Определяется количество абонентов, находящихся в районе локации проведения мероприятия проездом;
 
Определяется количество абонентов, находящихся в районе локации проведения мероприятия дома;
 
Определяется количество абонентов, находящихся в районе локации проведения мероприятия на работе;
 
Статистика дополняется информацией сервиса Яндекс.Карты;
 
Данные агрегируются по мероприятиям и временным интервалам;
 
 Выходные данные:
 
 
            Данные предоставляются в формате: Идентификатор мероприятия; Временной интервал; Количество абонентов; Количество абонентов проездом; Количество абонентов дома; Количество абонентов на работе.
 
 
            
              Показатели посещаемости района в зависимости от времени суток
 
 Входные данные:
 
 
            Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);
 
API сервиса Яндекс.Карты;
 
Справочник территориального деления;
 
 Алгоритм:
 
 
            По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.) определяется маршруты следования абонентов;
 
Определяется загруженность маршрутов следования для каждого района, как общее количество абонентов на маршруте в интервал времени;
 
Данные сопоставляются со справочником территориального деления;
 
Определяется количество абонентов, находящихся в районе проездом;
 
Определяется количество абонентов, находящихся в районе дома;
 
Определяется количество абонентов, находящихся в районе на работе;
 
Статистика дополняется информацией сервиса Яндекс.Карты;
 
Данные агрегируются по мероприятиям и временным интервалам;
 
 Выходные данные:
 
 
            Данные предоставляются в формате: Идентификатор района; Временной интервал; Количество абонентов; Количество абонентов проездом; Количество абонентов дома; Количество абонентов на работе.
 
 
            
              Количество посетителей из района, в котором находится культурное учреждение относительно общего количества жителей/работающего населения района
 
 Входные данные:
 
 
            Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);
 
API сервиса Яндекс.Карты;
 
Справочник территориального деления;
 
Справочник учреждений культуры;
 
 Алгоритм:
 
 
            По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.) определяется маршруты следования абонентов;
 
Определяется загруженность маршрутов следования для каждого района, как общее количество абонентов на маршруте в интервал времени;
 
Данные сопоставляются со справочником территориального деления;
 
Определяется количество абонентов, находящихся в районе дома;
 
Определяется количество абонентов, находящихся в районе на работе;
 
Определяется количество посетителей учреждения культуры;
 
Статистика дополняется информацией сервиса Яндекс.Карты;
 
Данные агрегируются по мероприятиям и временным интервалам;
 
 Выходные данные:
 
 
            Данные предоставляются в формате: Идентификатор района; Временной интервал; Количество абонентов; Количество абонентов дома; Количество абонентов на работе; Процентное соотношение по району.
 
 
            
              
                 Оценка эффективности использования денежных субсидий, выделяемых ведомством учреждениям культуры
                  Показатели динамики посещаемости культурных учреждений по месяцам
 
 Входные данные:
 
 
            Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
 
Справочник учреждений культуры (spape-файлы с граничными координатами) предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;
 
 Алгоритм:
 
 
            Определение локации абонента в любой момент времени по базовому алгоритму для геоаналитических задач (см. подраздел 3.5.1.);
 
Сопоставление локаций абонента со справочником учреждений культуры;
 
Определение количества посещений учреждения культуры за месяц;
 
Составление динамики посещений;
 
 Выходные данные:
 
 
            Учреждение культуры;
 
Количество посетителей за месяц n;
 
Количество посетителей за месяц n-1;
 
...;
 
Количество посетителей за месяц n-k.
 
 
            
              Парсинг отзывов из интернет-ресурсов об учреждениях культуры. Составление рейтингов в динамике
 
 Входные данные:
 
 
            Базовый алгоритм для задач по машинному обучению (см. подраздел 3.5.2.);
 
Список интернет-ресурсов;
 
Список учреждений культуры;
 
 Алгоритм:
 
 
            Парсинг интернет-ресурсов, поиск ключевых слов;
 
Создание обучающей выборки;
 
Проставление признаков в выборке;
 
Формирование обучающего словаря;
 
Обучение на основании базового алгоритма для задач по машинному обучению (см. подраздел 3.5.2.);
 
Для получения качественных результатов обучение производится итеративно;
 
Формирование сводного рейтинга;
 
 Выходные данные:
 
 
            Идентификатор учреждения;
 
Дата;
 
Ссылка на статью;
 
Статус;
 
Общий рейтинг, где в поле статус указывается отношение (негативное, нейтральное, позитивное).
 
 
            
              
                 Отслеживание динамики общественно мнения в отношении деятельности Министерства и его руководства
                  Парсинг отзывов о Министерстве и его руководстве из интернет-ресурсов (социальные сети, блоги, форумы)
 
 Входные данные:
 
 
            Базовый алгоритм для задач по машинному обучению (см. подраздел 3.5.2.);
 
Список интернет-ресурсов;
 
Список деятелей министерства;
 
 Алгоритм:
 
 
            Парсинг интернет-ресурсов, поиск ключевых слов;
 
Создание обучающей выборки;
 
Проставление признаков в выборке;
 
Формирование обучающего словаря;
 
Обучение на основании базового алгоритма для задач по машинному обучению (см. подраздел 3.5.2.);
 
Для получения качественных результатов обучение производится итеративно;
 
Формирование сводного рейтинга;
 
 Выходные данные:
 
 
            Деятель министерства;
 
Дата;
 
Ссылка на статью;
 
Статус;
 
Общий рейтинг, где в поле статус указывается отношение (негативное, нейтральное, позитивное).
 
 
            
              
                 Количество публикаций в СМИ о деятельности каждого Департамента
                  Создание алгоритма поиска сообщений на основании обучающей выборки
 
 Входные данные:
 
 
            Базовый алгоритм для задач по машинному обучению (см. подраздел 3.5.2.);
 
Список департаментов;
 
Алгоритм:
 
Парсинг интернет-ресурсов, поиск ключевых слов;
 
Создание обучающей выборки;
 
Подсчёт количества публикаций;
 
 Выходные данные:
 
 
            Идентификатор департамента;
 
Дата;
 
Количество публикаций.
 
 
            
              
                 Образ Министерства
                  Построение рейтинга отзывов по категориям (деятели культуры, журналисты, массовые потребители) на основании информации СМИ, социальных сетей, блогов, форумов
 
 Входные данные:
 
 
            Базовый алгоритм для задач по машинному обучению (см. подраздел 3.5.2.);
 
Список интернет-ресурсов;
 
Список деятелей Министерства;
 
 Алгоритм:
 
 
            Парсинг интернет-ресурсов, поиск ключевых слов;
 
Создание обучающей выборки;
 
Проставление признаков в выборке;
 
Формирование обучающего словаря;
 
Обучение на основании базового алгоритма для задач по машинному обучению (см. подраздел 3.5.2.);
 
Для получения качественных результатов обучение производится итеративно;
 
Классификация отзывов по группам пользователей;
 
Формирование сводного рейтинга;
 
 Выходные данные:
 
 
            Деятель министерства;
 
Дата;
 
Ссылка на статью;
 
Категория пользователей;
 
Статус;
 
Общий рейтинг, где в поле статус указывается отношение (негативное, нейтральное, позитивное), а в поле категория пользователей разделение по категориям (деятели культуры, журналисты, массовые потребители).
 
 
            
              
                 Профиль потребителя услуг учреждений культуры
                  Сегментация по возрастным категориям
 
 Входные данные:
 
 
            Детальные данные о транзакциях сотовых операторов;
 
Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
 
Данные социальных сетей;
 
Справочник учреждений культуры (spape-файлы с граничными координатами) предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;
 
 Алгоритм:
 
 
            Обучение алгоритма для нахождения ключевых слов в тексте;
 
Классификация абонентов на группы по текстам сообщений;
 
Обогащение классификации данными из социальных сетей;
 
Определения количества транзакций абонентов, разделение на группы;
 
Определение количества и динамики перемещений;
 
Соотношение показателей, полученных в предыдущих пунктах со справочником учреждений культуры;
 
 Выходные данные:
 
 
            Учреждение культуры;
 
Данные о возрасте посетителей в процентах.
 
 Входные данные:
 
 
            Детальные данные о транзакциях сотовых операторов;
 
Данные социальных сетей;
 
Справочник учреждений культуры (spape-файлы с граничными координатами) предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;
 
 Алгоритм:
 
 
            Обучение алгоритма для нахождения ключевых слов в тексте;
 
Классификация абонентов на группы по текстам сообщений;
 
Обогащение классификации данными из социальных сетей;
 
Соотношение показателей, полученных в предыдущих пунктах со справочником учреждений культуры;
 
 Выходные данные:
 
 
            Учреждение культуры;
 
Данные о поле посетителей в процентах.
 
 
            
              Сегментация по мобильности
 
 Входные данные:
 
 
            Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
 
Справочник территориального деления;
 
 Алгоритм:
 
 
            Для каждого абонента определяется локацию для заданного интервала времени по базовому алгоритму для геоаналитических задач (см. подраздел 3.5.1.);
 
Определяется для каждой локации территориального деления количество абонентов в интервал времени;
 
В соответствии с количеством изменений локаций абонента, определяется коэффициент мобильности;
 
Данные агрегируются по группам мобильности;
 
 Выходные данные:
 
 
            Идентификатор района;
 
Группа мобильности;
 
Количество человек.
 
 
            
              Сегментация по количеству посещений/динамике посещений учреждений культуры
 
 Входные данные:
 
 
            Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
 
Справочник учреждений культуры (spape-файлы с граничными координатами) предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;
 
 Алгоритм:
 
 
            Для каждого абонента определяется локацию для заданного интервала времени по базовому алгоритму для геоаналитических задач (см. подраздел 3.5.1.);
 
Определяется общее количество посещений абонентом локации учреждения культуры за заданный период;
 
Рассчитывается динамический показатель за длительный период по месяцам;
 
Данные агрегируются по учреждениям культуры;
 
 Выходные данные:
 
 
            Идентификатор учреждения культуры;
 
Количество посещений за текущий период;
 
Количество посещений в динамике.
 
 
            
              Сегментация по интересам (театр, музеи и т.д.)4 5
 
 Входные данные:
 
 
            Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
 
Справочник учреждений культуры (spape-файлы с граничными координатами) с разделением на группы. Предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;
 
 Алгоритм:
 
 
            Для каждого абонента определяется локацию для заданного интервала времени по базовому алгоритму для геоаналитических задач (см. подраздел 3.5.1.);
 
Для локаций абонентов находятся соответствия по справочнику учреждений культуры;
 
Данные группируются по учреждениям культуры;
 
 Выходные данные:
 
 
            Абонент;
 
Группа учреждений культуры;
 
Количество посещений.
 
 
            
              Сегментация по составу семьи/группам общения4 5
 
 Входные данные:
 
 
            Детальные данные о транзакциях абонентов сотовых операторов;
 
Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
 
 Алгоритм:
 
 
            Для каждого абонента выделяются группы телефонных номеров, с максимальным количеством транзакций;
 
Определяется локация абонентов в любой момент времени в соответствии с базовым алгоритмом для геоаналитических задач (см. подраздел 3.5.1.);
 
Определяется домашняя локация абонентов, как топовая за рассматриваемый период с 23.00 до 06.00;
 
Абоненты считаются принадлежащими одной семье, если они входят в группу общения и имеют одинаковую домашнюю локацию;
 
 Выходные данные:
 
 
            Абонент;
 
Группа общения;
 
Признак, где в поле группа общения записываются номера абонентов из группы общения, а в поле признак записывается является ли группа общения домашней или нет.
 
 
            
              Сегментация по способу передвижения6 7
 
 Входные данные:
 
 
            Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
 
 Алгоритм:
 
 
            Для каждого абонента определяется локацию для заданного интервала времени по базовому алгоритму для геоаналитических задач (см. подраздел 3.5.1.);
 
Для локаций абонентов находятся соответствия по справочнику учреждений культуры;
 
Выделяются абоненты, транзакции которых отмечаются на базовых станциях, соответствующих метро;
 
Определяется скорость перемещения абонентов;
 
Выделяются маршруты следования абонентов;
 
Абоненты разделяются на группы: автомобилисты; пассажиры метро; передвигающиеся на маршрутном ТС; смешанный стиль;
 
Данные группируются по времени;
 
 Выходные данные:
 
 
            Абонент;
 
Временной период;
 
Группа учреждений культуры;
 
Способ передвижения.
 
 
            
              Сегментация по интернет-активности8 9
 
 Входные данные:
 
 
            Детальные данные о транзакциях абонентов сотовых операторов;
 
 Алгоритм:
 
 
            Определение количества интернет-трафика;
 
Определение количества посещённых ресурсов;
 
 Выходные данные:
 
 
            Абонент;
 
Количество интернет-трафика;
 
Количество посещённых ресурсов.
 
 
            
              Сегментация по активности в мобильной сети8 9
 
 Входные данные:
 
 
            Детальные данные о транзакциях абонентов сотовых операторов;
 
 Алгоритм:
 
 
            Для каждого абонента находится количество входящих/исходящих звонков;
 
Определяется продолжительность звонков;
 
Для каждого абонента находится количество входящих/исходящих sms/mms;
 
Определяется количество уникальных абонентов с которыми совершались транзакции;
 
Строится сводная таблица по показателям;
 
 Выходные данные:
 
 
            Абонент;
 
Количество входящих звонков;
 
Количество исходящих звонков;
 
Количество входящих сообщений;
 
Количество исходящих сообщений;
 
Количество уникальных связей.
 
 
            
              
                 Пересечение аудитории (демографическое, географическое и т.п.)
                  Анализ направления движения (треков) посетителей
 
 Входные данные:
 
 
            Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);
 
API сервиса Яндекс.Карты;
 
Справочник территориального деления;
 
 Алгоритм:
 
 
            По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.) определяется маршруты следования абонентов;
 
Определяется загруженность маршрутов следования для каждого района, как общее количество абонентов на маршруте в интервал времени;
 
Данные сопоставляются со справочником территориального деления;
 
Определяется количество абонентов, находящихся в районе проездом;
 
Определяется количество абонентов, находящихся в районе дома;
 
Определяется количество абонентов, находящихся в районе на работе;
 
Статистика дополняется информацией сервиса Яндекс.Карты;
 
Данные агрегируются по мероприятиям и временным интервалам;
 
 Выходные данные:
 
 
            Данные предоставляются в формате: Идентификатор района; Временной интервал; Количество абонентов; Количество абонентов проездом; Количество абонентов дома; Количество абонентов на работе.
 
 
            
              Тепловая карта по количеству посетителей учреждений культуры в нескольких срезах (по количеству посещений за период, по времени посещения, по отзывам, по направлениям, по транспортной доступности)
 
 Предпочтительным решением для реализации является SAP BI (SAP Business Objects). Финансовая оценка в таблице (см. Таблица 7) указана без стоимости лицензии на продукт.
 
 Входные данные:
 
 
            Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
 
Отчёт 3.5.12.1. Анализ направления движения (треков) посетителей;
 
Отчёт 3.5.5.1. Транспортная доступность культурных учреждений;
 
Отчёт 3.5.7.2. Парсинг отзывов из интернет-ресурсов об учреждениях культуры. Составление рейтингов в динамике;
 
 Алгоритм:
 
 
            Построение тепловой карты по данным из отчётов.
 
 
            
              
                 Воспрепятствование продвижению на киноэкраны произведений, содержание которых выходит за рамки ограничений, предусмотренных действующими федеральными законами
                  Парсинг и обучение модели для сортировки фильмов по тексту сценария (разрешённых и запрещённых для массового показа)
 
 Входные данные:
 
 
            Базовый алгоритм для задач по машинному обучению (см. подраздел 3.5.2.);
 
Сценарии фильмов в текстовом формате;
 
 Алгоритм:
 
 
            Создание обучающей выборки;
 
Проставление признаков в выборке;
 
Формирование обучающего словаря;
 
Парсинг текста сценариев;
 
Обучение текстов сценариев на основании базового алгоритма для задач по машинному обучению (см. подраздел 3.5.2.);
 
Для получения качественных результатов обучение производится итеративно;
 
 Выходные данные:
 
 
            Название фильма;
 
Ключевые слова;
 
Вердикт, где в списке ключевых слов указаны все слова из сценария, влияющие на запрет для массового показа данного фильма, а в поле вердикт указано разрешён или запрещён фильм для показа по результатам обработки алгоритмом.
 
 
 
 
 
            
              Алгоритм автоматического определения возрастного ценза
 
 Входные данные:
 
 
            Базовый алгоритм для задач по машинному обучению (см. подраздел 3.5.2.);
 
Сценарии фильмов в текстовом формате;
 
 Алгоритм:
 
 
            Создание обучающей выборки;
 
Проставление признаков в выборке;
 
Формирование обучающего словаря;
 
Парсинг текста сценариев;
 
Обучение текстов сценариев на основании базового алгоритма для задач по машинному обучению (см. подраздел 3.5.2.);
 
Для получения качественных результатов обучение производится итеративно;
 
 Выходные данные:
 
 
            Название фильма;
 
Ключевые слова;
 
Возрастной ценз, где в списке ключевых слов указаны все слова из сценария, влияющие на запрет для массового показа данного фильма, а в поле возрастной ценз указан возраст аудитории, для которой разрешён просмотр данного фильма по результатам обработки алгоритмом.
 
 
            
           |