Как оценить эффективность образования с помощью Big Data?

Колонки 13 сентября 2018

Артем Костырко

Руководитель продукта «Большие Данные» ДИТ города Москвы

Полина Константинова

Артем Костырко, руководитель продукта «Большие Данные» ДИТ города Москвы, рассказывает о том, как он и его команда создают прогнозные модели успеваемости столичных школьников с помощью технологии больших данных.

Подписаться на RB.RU в Telegram

В чем проблема?

Отсутствие единого инструмента поддержки принятия решения, в котором множество объединенных показателей служат индикаторами и подсказками для определения трендов и мер развития отрасли и отдельных ее частей. «Единого» – так как ответ на вопрос должен получать пользователь любого уровня – ученик, родитель, учитель, руководитель образовательного учреждения, сотрудники органов исполнительной власти.

Как оценить эффективность образования? Для этого необходима методология оценки качества, для которой требуется определение понятных и точных критериев – метрик оценки.

Но перед этим нужно учесть, что образование имеет несколько значений, ни одним из которых нельзя пренебрегать при оценивании текущего состояния и построения прогнозов:

образование – как отрасль, в целом;
образование – как программа обучений;
образование – как успешность учеников в дальнейшем, их трудоустройство и уровень жизни;
образование – как доступность инструмента, помогающего человеку развиваться и развивать;
образование – как обеспеченность необходимой инфраструктурой.

Задача

Для каждого – родителя, школьника, учителя, руководства учебного заведения – оценка эффективности образования складывается из разных факторов, с разным влиянием и значимостью.

Соответственно, наша задача – создать такой инструмент, который каждому из пользователей по отдельности и вместе будет давать показатель, достаточный и необходимый для дальнейшего принятия решения. А порой – и способствовать появлению импульса, инициативы, побуждать к изменениям, то есть привлекать внимание к проблемам, которые до этого могли оставаться незамеченными.

Решение

Определение триггеров – первый, базовый этап решения задачи. Это предоставление для пользователя кратких и понятных, то есть оцененных в конкретных величинах, коэффициентов, метрик-сигналов. Здесь стоит сложная, но важная задача, – найти усредненные показатели, которые окажутся важными для всех, например, родителей, несмотря на то, что у каждого свой подход к обучению, воспитанию, и, соответственно, свои критерии для оценки эффективности достижения того или иного результата.

Поэтому в первую очередь необходимо определить базовые, верхнеуровневые, показатели, на которых дальше необходимо выстраивать модели оценки текущего состояния и прогнозы дальнейшего развития. Так, это:

успеваемость – оценки;
успеваемость – прогулы;
успеваемость – доступность, то есть качество предоставляемых инструментов для достижения успехов (рейтинг учителей, школ, учебных материалов);
здоровье – физическое;
здоровье – эмоциональное, то есть оценка ближайшего окружения, в котором находится ребенок.

Основная сложность при реализации, с которой мы столкнулись, – количество систем, являющихся источниками данных, и объем событий и информации в них (мы брали информацию о 800 учебных заведениях). Здесь оказались как источники, условно говоря, структурированной информации (результаты ГИА/ ЕГЭ/ Олимпиад; прогулы; оценки), так и полу- и вовсе неструктурированной информации (программа обучения; интернет-события; наименования и структура кружков дополнительного образования; клики по электронной доске).

Поэтому только этап сбора данных по всем метрикам с учетом etl-процессов, интеграции сервисов (а зачастую – их разработка с нуля) и всех реляционных и нерялляционных баз данных требует большого количества времени и, более того, является непрерывным, так как при появлении одного результата сразу поступает запрос на новые метрики и разработки.

Так, например, сейчас уже реализованы:

мониторинг текущих академических успехов и выявление отклонений (получил плохую отметку; получил плохую отметку после болезни; получил плохую отметку, а весь класс получил хорошие отметки);
выявление особенностей обучения в школе (любимые предметы, которые хорошо получаются, которые не прогуливает);
выявление, какие виды активности получаются хорошо и плохо (письменные работы, ответ у доски);
выстраивание круга интересов, исходя из посещения кружков и дополнительных секций.

Разработка на этапе инициации:

мониторинг внеурочной, внеклассной деятельности;
определение дополнительных интересов, исходя из интересов ближайшего окружения;
определение психологических особенностей (экстраверт/ интроверт);
определение профессиональной ориентации.

Аналитика и выявление закономерностей с применением многомерного статистического анализа являются вторым этапом решения задачи. Это, по сути, создание «цифрового двойника» учащегося, то есть поиск похожих и их сравнение.

Здесь решаются такие кейсы, как:

построение зависимости успеваемости от заболеваний;
построение «портрета» ученика и класса, то есть сравнение с одноклассниками;
построение рейтинга учителя, школы, учебников.

Поиск зависимостей успеваемости от заболеваний ложится в основу прогноза эпидемий, но для начала мы изучили наличие корреляции между атрибутами погодных условий, посещаемости и получаемых оценок, а также скорость, с которой они изменяются. То есть анализируются не только натуральные величины, но и их производные.

Результат – проверенные гипотезы:

двоечники и отличники болеют меньше, чем троечники и хорошисты;
младшие классы болеют меньше, чем средние и старшие, но в сентябре старшие классы болеют чаще;
средняя продолжительность заболевания составляет две недели;
болеют в среднем два раза в год;
школы болеют по-разному;
температура – незначимый фактор (обусловлено особенностью анализируемых данных – за факт заболевания принимается дата постановки диагноза в поликлинике, а не момент реального заболевания школьника).

Для построения «портретов» применялся многомерный статистический анализ. В его рамках производится визуализация средних оценок ученика на фоне класса, параллели и школы в виде паутинки (по предметам); результат – анализ уровня ученика на фоне других:

сколько % учеников класса/параллели учится лучше тебя по топ-5 предметам;
сколько % учеников класса/параллели учится хуже тебя по топ-5 предметам;
процент учеников в классе/параллели с такой же долей плохих отметок по предмету.

Результат полезен тем, что дает возможность оперативно понять, на каком уровне учится ребенок, неявно сравнивая его результаты с обезличенным средним учеником класса или параллели.

Рейтинг учителей – создание витрины с различными показателями по учителю, рассчитанных на основе данных успеваемости учеников, данных по кружкам, статистик по школе и городу, часть из них:

количество школ, в которых работает учитель;
список школ, в которых работает учитель;
средняя оценка учеников у учителя;
количество школьников;
процент учителей, средний балл учеников у которых выше;
процент учителей тех же предметов, средний балл учеников у которых выше;
доля отличников;
процент учителей, доля отличников у которых выше;
процент учителей тех же предметов, доля отличников у которых ниже;
процент пропусков уроков.

С точки зрения работы с данными решались несколько подзадач. Выполнялась нормализация наименований предметов, поиск некорректных данных (учитель преподает физкультуру и математику), работа с дублями, работа с выбросами.

Построение скорингов, прогнозных моделей – третий этап решения задачи.

Чем дальше горизонт планирования, тем выше неопределенность. Как предугадать результат сдачи выпускных экзаменов, когда ребенок находится только в средних классах? Или средний балл? Или набор предметов, к которым у ребенка имеется склонность для выбора дальнейшей профессии? Как определить, какие факторы могут повлиять на заболеваемость класса, в котором учится ваш ребенок, получив прогноз роста эпидемий на следующий месяц?

Если мы можем предугадать, как наши действия и решения повлияют на развитие обстоятельств в последующий час и/или день, то в более долгосрочной перспективе это становится весьма затруднительной задачей.

Во-первых, становится все больше входящих потоков, экзогенных переменных, которыми мы просто пренебрегаем (погодные условия, удаленность образовательного учреждения от вашего места жительства и влияние способов передвижения на общий фон здоровья ребенка), в силу нехватки времени, их объема и неочевидности.
Во-вторых, в данном случае результирующей переменной в регрессионном уравнении являетесь не вы сами, а ваши дети и/или ученики, то есть третьи лица. А это значит, что для вас все больше становится неизвестных переменных.
В-третьих, вы не можете обладать всеми знаниями, исторически накопленными другими людьми в отрасли. Даже если вы тратите большое количество времени на изучение пользовательского опыта, то в большинстве случаев он представляет собой большой массив разрозненной неструктурированной информации субъективно-оценочных мнений. Соответственно, скоринговые модели и прогнозы дают возможность предоставить вам информацию о вероятности того или иного исхода с учетом именно ваших условий, но в агрегированном виде, не допускающем раскрытия персональной информации остальных участников процесса.

На этом этапе решаются такие кейсы:

прогноз успеваемости;
персональные рекомендации по образовательной траектории – корректировки, дополнения, необходимость уделить внимание «проседающим» факторам;
персональные рекомендации по профилактическим мерам в области здоровья ребенка, родителя и даже школы в целом.

***

Все разработки на этом этапе у нас пока в виде пилотных проектов. В прогнозе успеваемости выводится персональный прогноз в зависимости от найденной зависимости между средним баллом текущей успеваемости и результатом по ГИА/ ЕГЭ в городе.

Для персональных рекомендаций используются как лог регрессии и бустинг для классификации, так и алгоритмы и модели выделения смысла из текстовой информации – пока в тестовом режиме. Персональные рекомендации в первую очередь планируется использовать для рекомендации образовательных материалов из библиотеки Московской электронной школы (МЭШ).

Для прогноза эпидемий использовалась сезонная интегрированная модель авторегрессии скользящего среднего (SARIMA). Планируем добавить группу дополнительных факторов для построения новой модели таких, как расстояние от места жительства до учебного заведения, хобби во внеурочное время, распределение времени в сутки на обучение в школе/допобразование/отдых/прогулки, интересы и увлечения родителей (некоторые из параметров планируем собирать через обратную связь, то есть через обработку текстовых данных для дальнейшего учета в моделях).

Кейс был представлен на Big Data Conference. Ответы автора колонки на вопросы аудитории, которые были заданы в ходе его выступления на конференции, опубликованы ниже.

1. Как реализовать индивидуальную траекторию в школе? Ведь есть класс, и нельзя, чтобы на биологию, например, половина класса пошла к одному учителю, а половина к другому?

В условиях «жесткого» формата академического процесса индивидуальная траектория представляет собой рекомендации по корректировке текущей успеваемости («что подтянуть и какие инструменты для этого использовать»), по кружкам, которые могут заинтересовать ребенка (в том числе в своей школе). Также существуют школы с системой стратов (на урок биологии класс разбивается на две части: углубленная и обычная программа). В более масштабном виде индивидуальная траектория помогает подобрать профильную школу (класс) для старших классов с прицелом поступления в определенный вуз и/или на определенное направление.

2. Цифровой двойник каждый год один?

Нет, его можно перестраивать с любой периодичностью в зависимости от задач. Так, с каждым человеком происходит много различных событий ежесекундно, отчего и цифровой двойник может измениться. То есть, по сути, цифровой двойник — это слепок из наборов факторов, которые актуальны на необходимый временной отрезок для достижения определенного результата. Дальше надо смотреть время обновления/накопления данных, чтобы это было целесообразно.

3. Расскажите подробнее, какие параметры используются для создания двойника?

Используется несколько групп параметров: академические (номер школы и ее параметры, класс, отметки ребенка, баллы по ГИА, успехи на олимпиадах), социально-демографические (возраст, пол, состав семьи) и прочие характеристики (район проживания, посещаемые кружки, особенности здоровья и некоторые другие).

4. В ЭЖ не видны репетиторы и дополнительные платные занятия. Как можно сопоставлять профили с такими дырами в данных?

Репетиторы, действительно, не видны (при этом в общей массе это характерно для 11 классов). Дополнительные платные занятия на базе школ и других государственных учреждений мы видим. Очевидно, что при наличии всех данных поиск цифрового ученика будет точнее. Исключение таких «дыр» — является задачей на перспективу для нас. Сам проект в целом непрерывный — здесь никогда не будет логического окончания.

Сейчас для нас необходимый, но недоступный фактор — посещение репетиторов. В дальнейшем будет новый важный и трудноопределяемый фактор — например, наличие домашних животных (если вдруг найдется корреляция с успеваемостью). То есть мы всегда будем сталкиваться с «дырами», потому что система образования развивается вместе с обществом. Один из самых простых с точки зрения организации, но относительно сложный технически (из-за необходимости обработки большого массива неструктурированной информации) способ минимизации пробелов — это сбор обратной связи от непосредственных участников процессов. Социальные сети (в которых есть школьные группы)/ анкетные опросы/ форумы — все каналы сейчас в проработке.

5. Как вы анализируете активность ребенка в соцсетях?

Все дети сидят в социальных сетях — верно. И ведут себя примерно одинаковым образом — как и остальные пользователи. Под «активностью» в целом мы подразумеваем не столько количество опубликованных фото и их наличие, а, например, вовлеченность в жизнь класса — доля одноклассников, которые есть в друзьях, через граф связей (особенно, если это достаточно хорошо отражает процесс адаптации новых учеников в классе), публикации и их популярность в школьных группах, интересы класса по группам, в котором состоят одноклассники, то есть косвенные признаки наличия общих взглядов.

В целом мы сейчас на этапе исследования этого канала данных и различных гипотез. Но уже сейчас, безусловно, понимаем, что эти факторы не могут использоваться обособленно от остальных — социально-демографических, например. Они лишь дополняют основную картину, так как проникновение соцсетей в наши жизненные процессы с каждым годом только растет.

6. Если учебник официальный и по нему учатся дети, то почему его нет в МЭШ?

Права на учебники принадлежат издательствам, а не городу. Поэтому пополнение МЭШ новыми учебниками и информационными ресурсами — длительный процесс, находящийся в проработке Департамента образования города Москвы и Департамента информационных технологий города Москвы. Это как накопление выборки для обучения матмоделей —требуется время, чтобы данные и базы знаний накопились.

7. Не стимулирует ли такая ситуация учителей завышать оценки? Слайд 08

Есть программа, есть критерии оценивания работ (например, 2 ошибки — 4, 3 ошибки — 3). Кроме того, нет однозначного вывода о том, что если средний балл в классе 4,3 (против 4,1 в соседнем), то тут учитель лучше. Опять же, у учеников и их родителей может быть свой набор факторов, по которым для них лично учитель является хуже/лучше; и это не только средний балл учеников. Моделирование производится с целью выявления аномалий. Конечно, человеческий фактор исключить полностью невозможно. Но в таком случае если все будут завышать оценки всем — такой ровный высокий тренд тоже будет интерпретироваться как аномалия и обратит на себя внимание, спровоцировав необходимость изучения сложившейся ситуации.

8. Ребенок может перейти в другую школу или класс, и там может быть другой уровень и другие оценки. Как вы это учитывайте?

Доля детей, которые меняют школы, небольшая. Отдельную модель на них не построишь. Также мы пробовали по таким детям «нормировать» оценки, но столкнулись с множеством переменных, которые влияют на этот процесс, и недостатком данных. Текущая модель построена без учета таких учеников, но мы планируем вернуться к этому вопросу.

9. Проверяли ли результаты прогнозов не на исторических тестовых данных, а на текущих «боевых» данных?

Не совсем корректно говорить, что модель построена на «небоевых» данных. Если мы на данных 2015-2017 годов прогнозируем результат ЕГЭ 2017 года, а потом сверяем в реальными результатами, то это вполне «боевые» данные. В целом модель регулярно перестраивается с учетом постоянно поступающих данных.

10. А как учитываются индивидуальные особенности ребенка? Замкнутость, асоциальность, конфликтность. Это все в большей мере влияет на успеваемость.

В текущей модели психологические и поведенческие аспекты мы не учитываем, потому что нет таких данных. Но мы понимаем, что это значимые аспекты для моделирования индивидуальной траектории. Рассматриваем возможность дополнения модели данными о личностных особенностях учеников на основании тестирований, проводимых школьными психологами (также не исключаем возможность заполнения анкеты в личном кабинете ЭЖД, например, как в ответе на вопрос 5).

11. На какой платформе сделали?

Платформа не одна, так как если говорить о каждом этапе работы с данными по всему проекту — они находятся в зонах ответственности разных команд, соответственно, и выбор у каждого свой — в зависимости от решаемых задач.

Именно для машинного обучения и прогнозных кейсов — это набор из:

PostgreSQL, где хранятся основные сущности с атрибутами и справочники, а также агрегаты на событиях (получение отметок, вход в здание школы и тому подобное);
Hadoop в сборке Cloudera, где хранятся сырые неструктурированные данные и/или транзакционные (как посещения сайтов, активности в соцсетях, получение отметок, чтение электронных ресурсов), поступающие через Apache Kafka.

Моделирование и построение прогнозов строится на Python; в отдельных случаях, при необходимости постоянного пересчета на непрерывно поступающих данных, переписывается на Spark и запускается уже на Hadoop.

Более детально архитектура обозначена на слайде 15.

12. Учителя сами ставят оценки. Это не искажает их рейтинги?

Текущие отметки не влияют на рейтинг, его определяют такие параметры, как результаты ОГЭ и ЕГЭ в классе, количество участников и победителей олимпиад, интерес к проектной деятельности по предмету учителя и тому подобное, то есть те факторы, источником которых являются сами школьники, а учителя могут их регулировать только косвенно — через оптимизацию работы со своими учениками.

13. Вы же понимаете, что программа (материалы и прочее) и учитель, который по ней работает, это неразделимые параметры при оценке?

С точки зрения математики и матмоделирования — разделимые. Это такие же атрибуты, как и остальные. Мультиколлинеарность не была замечена.

В этом и суть в использовании машинного обучения — практически полностью исключается субъективное мнение. В любом случае это не единственные атрибуты, которые закладываются в модель.

14. Может ли издательство проплатить рейтинг в целях увеличения продаж учебников?

Проплатить — нет. Но, безусловно, может повышать клиентоориентированность с целью сбора обратной связи от основных потребителей и повышать уровень ответственности за достоверность и качество публикуемой информации, которая в дальнейшем предоставляется для изучения школьникам.

15. Ищите списывающих школьников?

А списывать — хорошо или плохо? А тот, кто дает списывать, — он настоящий друг или тешит свое самолюбие?

Опять же, аналогично ответу на вопрос 7, моделирование строится с целью выявления аномалий, на которые требуется обратить внимание, а не с целью создания «справочника» хороших и плохих событий, так как для каждого участника, класса, школы и для каждой ситуации они могут оцениваться по-разному.

16. Не возникает ли из-за этого рейтинга нездоровая конкуренция между детьми и родителями?

Все данные полностью деперсонализированы, что исключает конкуренцию с другими учениками. Вместе с тем инструмент дает возможность оперативно понять, на каком уровне учится ребенок по сравнению с неким обезличенным средним учеником класса или параллели, то есть конкуренция возможна только самого с собой.

17. При наличии анализа успешности ученика в зависимости от учебника почему продолжают учить по учебникам с низкими показателями?

Матмоделирование, по сути, является системой поддержки принятия решения. Есть еще большое количество факторов, оказывающих влияние на решение о качестве выбранных учебных пособий, например, проверка на соответствие их ФГОСам и прочее. Кроме того, проект — молодой. Результат от продуктовых кейсов внедрения Big Data на проектах такого масштаба не может быть заметен на столь коротком промежутке времени, как минимум, из-за сложной ролевой модели.

18. Как отслеживается правдивость анкетных данных? Например, живут ли вместе родители и тому подобное?

Нет смысла оценивать с 100% вероятностью данные. Все синтетические (фиктивные) переменные — вероятностные; ошибки, безусловно, есть, но это выбросы. Даже если сильно ошиблись в каком-то одном факторе — его влияние сгладится другим. Ведь если решили, что родители живут вместе, а на самом деле — нет, то в итоге это так или иначе сгладится, например, фактором того, что на родительские собрания ходит всегда только один из них. Если же мы будем добиваться 100% качества для каждой сущности, то только на этапе подготовки данных могут уйти десятилетия (как минимум, из-за скорости изменения этих данных), а модель так и не будет построена.

19. Вы не боитесь, что родители начнут принимать неверные воспитательные решения на основе ваших данных?

Аналитическая составляющая инструмента дает возможность удобнее представить и так понятные для родителя вещи. Рекомендательная составляющая ни к чему не обязывает отдельно взятого родителя. Просто мы говорим, что анализ большого массива данных выявил такие-то закономерности, а дальше предлагаем несколько сценариев развития события. Является ли прогнозируемый результат «хорошим» для его ребенка или нет — родитель решает самостоятельно, как и сейчас. Визуализация помогает только привлечь внимание и собрать все факторы в одну картину, то есть сокращает время, которое родители тратят на самостоятельный сбор, поиск и анализ информации.

20. Накладывается ли на рейтинг издательств число учеников, которые учатся по данному учебнику?

На текущий момент мы учитывали количество учеников только при расчете среднего балла ЕГЭ. Попробуем взять идею как гипотезу, но пока смущает неравномерное распределение данных из-за того, сколько в принципе учится детей в школе, выбравшей то или иное учебное пособие.

Материал обновлен 17.09.2018 (добавлены ответы на вопросы аудитории конференции).

Материалы по теме:

Девять лучших курсов по Big Data для дата-сайентистов и менеджеров

Нужно остановить big data: «темная сторона» больших данных, о которой вы, возможно, не задумывались

Что такое data science и как это работает?

Как используют IoT, Big Data, машинное обучение и блокчейн НЛМК, М.Видео, МегаФон и проекты Сколково

Как медиакорпорации используют Big data

Фото на обложке: Unsplash

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

ТЕГИ