Мария Подлеснова

Чемпионат среди Data Scientists на BigData Conference 2015

В рамках международной конференции по Big Data (ICBDA 2015) при поддержке Сбербанка состоится Чемпионат по построению модели оттока клиентов банка с Призовым фондом 100 000 рублей. К участию приглашаются как физические лица, так и команды.

Прием заявок - до 23:59 (UTC+03:00) 4 сентября 2015 года. 

Финал Чемпионата, где будут презентованы модели, пройдет на конференции 18 сентября 2015 года


Сбербанк использует технологии Big Data для того, чтобы консолидировать большие объемы данных и проводить на них аналитические исследования. Целью исследований является нахождения способов сокращения расходов, расширения клиентской базы и предложение более персонализированных услуг клиентам. 

Поэтому в рамках International Conference on BigData and its Applications при поддержке Сбербанка пройдет  Чемпионат среди Data Scientists, задачей которого будет определение клиентов Банка, склонных к оттоку, по некоторым имеющимся признакам, характеризующих поведение клиентов. Решение данной задачи позволит Банку принять превентивные меры по удержанию клиентов, которые потенциально могут отказаться от услуг Банка в ближайшее время.  



1. ОПИСАНИЕ ЗАДАЧИ


Для каждого клиента рассчитать вероятность его ухода в отток в течение месяца, следующего за месяцем построения модели.


Пример: входные данные для построения модели – это 3 полных месяца: март, апрель, май. Анализ по данной модели строится в июне на данных за март, апрель, май. В результате работы модели должен быть получен бинарный прогноз (1 или 0)  того, что клиент  прекратит использование услуг банка в течение июля.  


2. ТРЕБОВАНИЯ К УЧАСТНИКАМ


Участвовать в Чемпионате могут любые физические лица, группы физических лиц или юридические лица при условии подписания ими специального Соглашения о неразглашении, которое нужно будет распечатать и прислать Почтой России по адресу: ПАО Сбербанк, 117997, г. Москва,  ул. Вавилова, д.19.  На конверте указывается полное ФИО Участника Чемпионата и наименование предмета: «Участие в чемпионате. Подписанное Соглашение о конфиденциальности». Текст Соглашения участники получают на электронную почту после оформления заявки на участие


При этом претендовать на Призовой фонд в 100 000 рублей смогут только те из них, кто наряду с прогнозом предоставит исходный код модели на языке Python на условиях, определяемых MIT License, и ссылки на внешние источники данных, и библиотеки, использованные при составлении модели. Остальные участники Чемпионата примут участие в общем рейтинге прогнозов, но без права претендовать на Призовой фонд.


3. ОПИСАНИЕ ДАННЫХ


Для решения данной задачи участникам Чемпионата после регистрации будет представлено 6 наборов данных.

1.     Общая информация

-   Общее количество файлов: 6

-    Наименование файлов:  train.csv; column_names_train.csv; target_train.csv; column_names_target_train.csv; target_test.csv; column_names_target_test.csv

2.     Детальное описание

1)     column_names_train.csv

Файл содержит название колонок файла train.csv

2)     train.csv

Файл содержит обезличенные данные о клиенте. Всего 58 показателей (Y1-Y58) и 4 ID (ID_1_1, ID_1_2, ID_2_1, ID_2_2). Каждая пара (ID_1_1 и ID_1_2) или (ID_2_1 и ID_2_2) характеризует только одного клиента

3)     column_names_target_train.csv

Файл содержит название колонок файла target_train.csv

4)     target_train.csv

Файл содержит информацию о целевом событии (поле target) для клиентов из файла train.csv. Отток клиентов определяется неким условием, назовем его условием А. Считается, что клиент ушел в отток в текущем месяце, если в каждом из последующих 3-х месяцев выполняется условие А.

Важно: существуют клиенты, для которых целевое событие из файла train.csv не определено.

Пара идентификаторов (ID_1 и ID_2) характеризует только одного клиента. Пара идентификаторов (ID_1 и ID_2) – это либо пара (ID_1_1 и ID_1_2), либо (ID_2_1 и ID_2_2)

5)     column_names_target_test.csv

Файл содержит название колонок файла target_test.csv

6)     target_test.csv

Файл содержит список клиентов, характеризующихся парой идентификаторов (ID_1 и ID_2). Для каждого из данных клиентов необходимо проставить значение в поле target о целевом событии: 1 – клиент ушел в отток, 0 – клиент не ушел в отток.

 

Описание цели: Для каждого клиента из файла target_test.csv проставить значение 0 или 1 в поле Target

Использование внешних источников данных (например, находящейся в свободном доступе информации об экономическом состоянии регионов) допустимо, но должно явно указываться в описании алгоритма и не должно нарушать ничьих авторских и других прав.


4. ОЦЕНКА РЕЗУЛЬТАТОВ И НАГРАЖДЕНИЕ ПОБЕДИТЕЛЕЙ


Оценка результатов работы модели будет производиться по нормализованному коэффициенту Gini 


Итоговый файл участников Чемпионата – это файл test.csv с заполненным полем target, в котором должна содержаться следующая информация: 1 – клиент уйдет в отток, 0 – клиент не уйдет в отток


Каждый участник до 23:59 (UTC+03:00) 16 сентября 2015 года должен предоставить итоговый файл test.csv с прогнозом. Кроме того, участники претендующие на Призовой фонд должны предоставить исходный код модели в соответствии с Пунктом 2 настоящих Правил и описание используемых внешних источников данных..


По прогнозу, построенному в файле test.csv, судьями будет рассчитан коэффициент Gini. Победителем будет признан участник с наибольшим Gini.


Объявление топ 5 финалистов и главного победителя состоится в 16:00 на площадке конференции ICBDA 18 сентября 2015 года. 


Участники Чемпионата, приславшие модель, отвечающую требованиям качества организаторов, получают один бесплатный билет на конференцию. Остальные участники команд и не прошедшие отбор могут зарегистрироваться с 20% скидкой. 


5. СРОКИ ПРОВЕДЕНИЯ И ЭТАПЫ ЧЕМПИОНАТА


Регистрация участников: до 23:59 (UTC+03:00) 4 сентября 2015 года

Анализ данных: 10:00 (UTC+03:00) 7 сентября 2015г. - 23:59 (UTC+03:00) 16 сентября 2015 г.

Подведение итогов: 16:00 (UTC+03:00) 18 сентября 2015 г.


Данные правила являются публичной офертой.


Для того, чтобы подать заявку от физического лица или команды, заполните специальную форму до 23:59 (UTC+03:00) 4 сентября.


comments powered by Disqus

Подпишитесь на рассылку RUSBASE

Мы будем вам писать только тогда, когда это действительно очень важно