Новости

Модель предсказания академического успеха студента

Работа добавлена:






Модель предсказания академического успеха студента на http://mirrorref.ru

Оглавление

  • Оглавление
  • Введение
  • Постановка проблемы
  • Актуальность
  • Цель и задачи исследования
  • Объект и предмет исследования
  • Структура работы
  • Глава 1. Машинное обучение
  • Понятие машинного обучения
  • Виды машинного обучения
  • Задачи машинного обучения
  • Алгоритмы машинного обучения
  • Сферы применение машинного обучения
  • Возможные проблемы и недостатки
  • Выводы
  • Глава 2. Применение машинного обучения в образовании
  • Где и как образуются данные
  • Традиционные формы образования
  • Системы смешанного обучения
  • Образовательные онлайн платформы
  • Применение методов машинного обучения
  • 2.2.1 Дистанционное обучение
  • Платформа Knewton
  • Школа AltSchool
  • Традиционные ВУЗы
  • Выводы
  • Глава 3. Модель предсказания академического успеха студента
  • Постановка задачи
  • Сбор данных
  • Инструментальные средства
  • Первичная обработка и анализ данных
  • Построение модели
  • Точность модели
  • Метрики в задачах классификации
  • Точность модели SVC
  • Точность модели Elastic Net
  • Перспективы развития
  • Выводы
  • Заключение
  • Список используемой литературы
  • Приложения
  • Приложение 1. Личные характеристики студента в исследовании С.Котсиантиса
  • Приложение 2. Академические характеристики студента в исследовании С.Котсиантиса
  • Приложение 3. Полное описание набора данных в исследовании E.Osmanbegović и M.Suljić
  • Приложение 4. Код модели SVC, реализованный на языке программирования Python
  • Приложение 5. Код модели Elastic Net, реализованный на языке программирования Python

Введение

Постановка проблемы

Конкурс на поступление в высшие учебные заведения в Москве растёт в течение последних нескольких лет, нередко достигая сотен претендентов на одно место. Требования к Единому Государственному Экзамену ужесточаются, а проходные баллы в университеты увеличиваются.  Абитуриенты при поступлении всё больше и больше начинают демонстрировать свои учебные и личные достижения: победы в олимпиадах, окончание школы с золотой медалью, сдача норм ГТО. Однако далеко не все студенты, показавшие такие высокие результаты в ходе приёмной кампании, доучиваются до конца. Процент отчислений за академическую неуспеваемость оказывается достаточно высоким, особенно на младших курсах. По данным НИУ ВШЭ, среди студентов, зачисленных в бакалавриат в 2012 году, менее 85% получили дипломы в 2016. На отдельных факультетах процент отчисленных студентов существенно выше, например, только 52% студентов факультета прикладной математики и информатики окончили бакалавриат в 2016 году.  Такие цифры заставляют задаться вопросом, из-за чего именно студенты, показавшие высокие результаты и достижения в школе, не показывают их в университете, и можно ли предсказать академический успех или неудачу конкретного студента, основываясь только на тех данных, которые он предоставил приёмной комиссии.

Актуальность

Образование является сферой, в которой производится и накапливается большое количество данных.

  • Традиционный образовательный процесс подразумевает тысячи часов, проведенных в учебном заведении и за выполнением различных заданий дома в течение многих лет. Такое взаимодействие студентов с учебными материалами генерирует множество информации.
  • В системах управления образованием (LMSLearningManagementSystem) и образовательных онлайн платформах собирается данные о взаимодействии студента с онлайн системой, о его прогрессе и результате выполнения заданий и упражнений, о вовлеченности в групповые проекты и обсуждения.

За годы работы университет накапливает данные о своих абитуриентах: их пол, возраст, баллы за ЕГЭ по различным предметам, выигранные олимпиады и внеучебные достижения. Позже собираются данные об этих же людях, но уже как о студентах: их посещаемость, оценки по различным предметам, успехи в научной деятельности, какие типы заданий давались лучше или хуже, какие преподаватели вели курс.

Правильный анализ такой информации может помочь составить более полную картину процесса обучения, выявить полезные и, возможно, неочевидные связи: как уровень первоначальной подготовки влияет на успеваемость по конкретному предмету, зависит ли успех в освоении дисциплины от пола, посещаемости или преподавателя, студенты каких преподавателей показывают лучшие результаты. Методы машинного обучения могут позволить предсказать исход какой-либо ситуации, основываясь на исторических данных. В отличие от традиционных мер измерения результатов учащихся, таких как оценки и накопленные баллы, которые помогают измерять только конечный результат студента, применение методов машинного обучения может помочь педагогам и исследователям получить ценную информацию о том, как улучшить и персонализировать обучение, составлять прогнозы и рекомендации, проводить изменения в режиме реального времени, когда это имеет смысл и необходимо.

Цель и задачи исследования

Цель данной работы – показать возможности применения машинного обучения в сфере образования на примере обзора существующего опыта, а также разработки модели предсказания успешности сдачи экзамена студентом на основе его предыдущих академических успехов.

Для достижения цели исследования были поставлены следующиезадачи:

  1. Изучить основы машинного обучения
  2. Провести обзор сфер применения машинного обучения
  3. Исследовать существующий опыт использования машинного обучения в сфере образования
  4. Разработать модель предсказания успешности прохождения студентом определённой дисциплины.

Объект и предмет исследования

Объектом данного исследования является применение методов машинного обучения в образовании.

Предметом исследования является разработка модели, позволяющей предсказывать успешность сдачи студентом экзамена на основании его предыдущих учебных успехов.

Структура работы

Данная работа состоит из введения, трёх глав и заключения.

В первой главе содержатся основы машинного обучения: понятие, его виды, задачи и алгоритмы. Также в этой главе описаны сферы применения машинного обучения и возможные проблемы и недостатки. Вторая глава посвящена обзору существующего опыта применения машинного обучения различными образовательными учреждениями. В третьей главе описана разработанная модель, предсказывающая успешность освоения студентом определённой дисциплины, а также возможные перспективы развития. В заключении содержатся выводы, сделанные в ходе данной работы.

Глава 1. Машинное обучение

  1. Понятие машинного обучения

Термин «машинное обучение» был впервые введён пионером в области компьютерных игр и искусственного интеллекта Артуром Самюэлем в 1952 году. Артур Сэмюель занимался созданием программы для игры в шашки, и в ходе этой работы была создана программа «Checkers-playing», которая смогла «научиться» играть в шашки лучше, чем её создатель. Таким образом, программа, продемонстрировавшая способность к самообучению на основе своего предыдущего опыта, опровергла суждение о том, что компьютеры способны выполнять только строго заданные для них алгоритмы. Артур Сэмюель определил машинное обучение, как «методы, позволяющие компьютерам учиться без непосредственного их программирования».

Более формальное определение машинного обучения дал американский учёный в области науки о данных Том Митчелл: «Говорят, что компьютерная программа обучается на основе опыта E по отношению к некоторому классу задач T и меры качества P, если качество решения задач из T, измеренное на основе P, улучшается с приобретением опыта E»

Таким образом, машинное обучение представляет собой подраздел искусственного интеллекта, стоящий на стыке таких дисциплин, как математика, статистика, теория вероятностей, теория графов и изучающий алгоритмы, способные самостоятельно обучаться на основе опыта.

  1. Виды машинного обучения

Существует несколько основных способов машинного обучения:

  1. Обучение с учителем
  2. Обучение без учителя
  3. Частичное обучение
  4. Обучение с подкреплением

Приобучении с учителем для каждого прецедента задана пара «ситуация, требуемое решение». Задача такого обучения состоит в поиске зависимости принятого решения от заданной ситуации и построении алгоритма, способного принять на вход описание ситуации, а на выходе предсказать для неё решение.

Приобучении без учителя на входе подаются только описания объектов без принятого решения по этой ситуации, а задача состоит в поиске зависимостей между представленными объектами.

Частичное обучениеявляется промежуточным звеном между обучением с учителем и без учителя, так как каждый прецедент задаётся парой «ситуация, требуемое решение», однако ответы известны лишь для части этих ситуаций.

Приобучении с подкреплением не существует «правильных ответов» для каждой ситуации, алгоритм ищет оптимальную стратегию поведения, опираясь на реакцию внешней среды.

  1. Задачи машинного обучения

Машинное обучения позволяет решать ряд задач, самыми распространёнными из которых являются:

  1. Классификация
  2. Регрессия
  3. Кластеризация
  4. Фильтрация выбросов

Задача классификации является задачей обучения с учителем. Все вводимые данные разделяются на два и более классов, а задача обучающегося алгоритма состоит в том, чтобы определять новые вводимые данные в один из этих классов.

Главным отличиемзадачи регрессии от задачи классификации является то, что при регрессии выходные данные являются непрерывными, а не дискретными.

При прогнозировании оценок студента перед алгоритмом стоят именно эти задачи, так как  на входе имеются данные о «ситуации», то есть наборе характеристик студента, и «решении», то есть оценке студента, при этом количество оценок может быть ограничено: например, разделение на два класса «зачёт» и «незачёт», 4 класса «отлично», «хорошо», «удовлетворительно» и «неудовлетворительно» или большее количество классов, а может быть и непрерывно для более глубокой детализации оценки.

Кластеризация является задачей обучения без учителя, целью которой является группировка объектов в кластеры на основании характеристик каждого объекта.

Задачафильтрации выбросов заключается в поиске аномальных измерений, выделяющихся на фоне всей выборки.

  1. Алгоритмы машинного обучения

Существуют различные алгоритмы машинного обучения, на основе которых строится модель. Во многом выбор подходящего алгоритма зависит от характеристик набора данных, таких как объем, структура и качество. Также на выбор алгоритма влияет желаемый результат (двухклассовая или многоклассовая классификация, регрессия или фильтрация выбросов), требуемая точность предсказания и время, необходимое для обучения модели. Пример того, как можно выбрать подходящий алгоритм машинного обучения представлен на рисунке 1.

Рисунок  Выбор алгоритма машинного обучения,MicrosoftAzure

Далее будут рассмотрены некоторые классы самых популярных и используемых алгоритмов.

Линейная регрессия.Модели линейной классификации основаны на предположении о том, что данные можно разделить на классы прямой линией или её многомерным аналогом. В некоторых случаях модели линейной регрессии могут существенно снизить точность модели.  На рисунке 2 зелёным цветом показана настоящая граница двух классов, а оранжевая прямая – линейная граница классов. На изображении отчётливо видно, что в данном примере линейная модель оказалось не очень точной.

Рисунок  Алгоритм линейной классификации,MicrosoftAzure

Логистическая регрессия– это также инструмент классификации, в котором вместо прямой используется S-образная кривая.  Пример логистической регрессии представлен на рисунке 3.

Рисунок  Логистическая регрессия,MicrosoftAzure

Деревья решений – это базовый алгоритм машинного обучения, который подразделяет все признаки на области с одинаковой меткой. Дерево решений может быть представлено в виде структуры «листьев» и «веток», где на «листьях» записаны значения атрибутов, по которым различаются случаи,  а на «ветках» дерева вариант решения для данного значения. Дерево решений позволяет показать процесс принятия алгоритмом решения в виде логической цепочки «если значение такое,торезультат такой». Пример дерева решений представлен на рисунке 4.

Рисунок  Дерево принятия решений,MicrosoftAzure

Методы опорных векторов позволяют найти границу, которая разделяет классы настолько широко, насколько это возможно. Такие границы могут как линейными, так и нелинейными.  Пример классификации данным методом продемонстрирован на рисунке 5.

Рисунок  Метод опорных векторов,MicrosoftAzure

  1. Сферы применение машинного обучения

Согласно циклу зрелости технологий, опубликованному консалтинговой компаниейGartner в июле 2016 года, машинное обучение находится на так называемом «пике завышенных ожиданий» (Peak of Inflated Expectation), что означает, что данная технология популярна, является предметом обсуждения в обществе и от неё ожидают революционного эффекта. ТакжеGartner прогнозирует, что в течение 2-5 ближайших лет машинное обучение выйдет на уровень массового применения (mainstreamadoption).Цикл зрелости технологий 2016 года представлен на рисунке 6.

Рисунок  Цикл зрелости технологий Gartner 2016 год

На данный момент технологии машинного обучения уже широко применяются в таких сферах, как:

  • Оптимизация поиска в интернете
  • Обнаружение спама
  • Распознавание речи, жестов и образов
  • Рекомендательные системы
  • Персонализированный маркетинг
  • Кредитный скоринг
  • Выявление мошенничества
  • Страхование
  • Медицинская диагностика

Сферой применения машинного обучения, с которой практически каждый современный человек сталкивается на ежедневной основе, являетсяоптимизация поиска в интернете. Пользователь заходит в поисковик и задаёт свой вопрос, задача же поисковой системы заключается в том, чтобы произвести ранжирование миллионов подходящих вариантов и выдать вначале те, которые наиболее актуальны для каждого конкретного человека.  Алгоритм отслеживает действия пользователя: перешёл ли он по первой ссылке, как долго он задержался на этом сайте, перешёл ли к следующей странице поиска или ввёл новый запрос. Алгоритм может отслеживать не только действия одного конкретного человека, но и учитывать поведение пользователей со схожими запросами. Таким образом, поисковый алгоритм может улучшать качество своей работы.

Классическим примером решения задачи классификации являетсяобнаружение спама в электронных письмах. Для каждого входящего письма алгоритм должен определить, является ли оно спамом или нет, то если отнести объект к одному из двух классов. Для обучения алгоритм может использовать различные характеристики письма: кем и откуда было отправлено письмо, длину письма, наличие в нём каких-либо специфических слов. При этом алгоритм может переобучаться с помощью человека, который отмечает спамом письма, пропущенные алгоритмом, или наоборот достаёт письма по ошибке попавшие в спам.

Распознавание речи уже давно широко используется в повседневной жизни: люди дают своим смартфонам различные голосовые команды, такие как создать напоминание, поставить будильник, написать сообщение или позвонить определённому человеку.

Одним из развивающихся трендов современного мира являются беспилотные автомобили – транспортные средства, оборудованные системой автоматического управления, которые могут передвигаться без помощи человека. Для того, чтобы автомобиль «видел», куда он едет, используются алгоритмыраспознавания образов.

Ещё один пример применения методов машинного обучения, с которым многие люди сталкиваются в повседневной жизни, этоперсонализированный маркетинг. Чем больше компания знает о своих клиентах, тем эффективнее она может нацеливать рекламу, обеспечивая лучший сервис клиентам и большие прибыли себе. Компании могут регулировать, какие рекламные письма, скидки и купоны должны быть показаны потенциальному клиенту, учитывая его предыдущее поведение в интернете.  На этих же принципах основываются ирекомендательные системы.  Эти системы могут определить, в какой ценовой категории необходимы товары, какие характеристики товара важны, а какие нет, покупает ли человек данную вещь для себя или в подарок. Некоторые системы будут обучаться только на информации, собранной с одного пользователя, другие же могут учитывать предпочтения людей со схожим поведением.

Банки начинают использовать методы машинного обучения длякредитного скоринга – оценки платежеспособности клиента банка. Опираясь на накопленный опыт, алгоритм может позволить банку оценить уровень кредитного риска заёмщика, выявить вероятность потенциального мошенничества, предсказать финансовое поведение (наличие или отсутствие отсрочек по платежам, заинтересованность в других услугах и продуктах банка), а также определить, какие действия более эффективно применять к каждому конкретному должнику.

Задачавыявления финансового мошенничества решается с помощью метода фильтрации выбросов. Практически невозможно предсказать, как в данных будет выглядеть финансовое мошенничество, потому что вариантов очень много, а выборка, на которой должен обучаться алгоритм мала. Для решения этой задачи следует изучать нормальную активность, на фоне которой будут выделяться транзакции со значительными отличиями.

Технологии анализа больших данных уже успешно используется в некоторых областяхстрахования, например, на рынке страхования автомобилей. Страховые компании просят водителя установить в своей машине электронное устройство, которое собирает все данные и все параметры автомобиля. Это позволяет определить структуру вождения водителя, например, скорость его вождения, осуществляет ли он опасные маневры, как резко он трогается с места, время суток, в которое он чаще всего водит.  Используя эти данные, компании могут назначать цену на страховое покрытие адекватную риску этого водителя. Страховые компании уже по-разному используют подобные данные, некоторые вводят систему скидок, если данные “говорят”, что в течение какого-то отрезка времени водитель “вел себя хорошо”. Другие компании определяют, будут ли они осуществлять страховую выплату в зависимости от того, нарушал ли водитель в момент аварии правила дорожного движения, например, превышал ли скорость. Очевидно, что с помощью такого устройства, факт превышения скорости устанавливается очень легко. Находя различные поведенческие паттерны, страховые компании смогут определять, если люди имеющие определенные привычки поведения в интернете, выходящие в социальные сети в определенное время дня или выкладывающие определенные типы фотографий, имеют тенденцию к тому, чтобы жить меньше, чаще терять работу или иметь проблемы с законом.

Очень быстро развивающейся сферой применения машинного обучения являетсясфера медицинской диагностики. Применение искусственного интеллекта может повысить скорость диагностирования заболевания, уменьшить количество ошибок при диагностировании, помочь назначить нужные анализы, тем самым оптимизировав расходы больницы. Применение машинного обучения также позволяет увеличить производительность диагностирования, так как компьютер может хранить и анализировать гораздо больше данных, чем любой врач в своей голове. Машинное обучение уже используется для диагностирования некоторых форм рака и различных редких заболеваний (болезнь Гоше, множественный склероз) и имеет высокий потенциал для использования в медицине.

  1. Возможные проблемы и недостатки

Несмотря на все преимущества и возможности использования таких методов анализа, существуют некоторые проблемы и опасения, касающиеся моральной, этической и правовой использования результатов.Например, при диагностике редких заболеваний выборка, на которой происходит обучение алгоритма, является несбалансированной. Это означает, что данных о людях, имеющих заболевание существенно меньше, чем о здоровых людях, что увеличивает вероятность неверного отнесения человека в класс «больных» или «здоровых».

Также алгоритмы могут выдавать неожиданные корреляции, которые повлияют на конечный результат. Например, машинное обучение используется для классификации людей по группам риска при страховании жизни. У различных национальностей и этнических групп есть свои отличительные особенности поведения в интернете: к примеру, евреи могут искать в интернете время захода солнца чаще, нежели другие группы людей. Поэтому страховые компании могут обнаружить корреляцию между поисковыми запросами о заходе солнца и болезнью Тея-Сакса, которая распространена практически только среди евреев. Поэтому корреляции связывающие различные запросы в интернете с риском заболевания какой-либо болезнью, могут поставить под угрозу некоторые группы населения, повысив им тем самым стоимость страхования. Также одной из проблем считается использование данных о желающих застраховаться агентах без их прямого разрешения, что может расцениваться как вторжение в личную жизнь.

Классификация риска путем использования методов машинного обучения может быть неэффективна еще и по той причине, что есть вероятность того, что определенные группы населения должны будут платить более высокие цены, когда есть сомнения, насколько это этично. Например, при медицинском страховании или страховании жизни должны учитываться такие факты, как то, что:

  • женщины сильнее подвержены затратам, связанным с рождением ребенка или возникновения рака груди;
  • ожидаемая продолжительность жизни мужчин меньше, чем у женщин;
  • афроамериканцы сильнее ассоциированы с затратами, связанными с лечением серповидно клеточной анемии.

Этот список можно продолжать довольно долго. Эти группы населения действительно сильнее подвержены риску по данным показателям, однако по социальным и этическим соображениям, а также потому, что, например, в США Конституция защищает различные группы граждан от дискриминации по половому, расовому, религиозному и прочим признакам, страховые компании предпочитают игнорировать эти факторы риска. Даже если выявится корреляция по поводу определенной группы людей, которая не защищается по своему отличительному признаку конституцией, отнесение людей из этой группы к какой-либо классификации риска может расцениваться как дискриминация, особенно, если у людей нет власти над этой характеристикой. Так, например, женщины, подвергавшиеся домашнему насилию, должны тратить больше денег на восстановление психического и физического здоровья. Поэтому встает вопрос, этично ли назначать такой категории людей высокую цену на медицинское страхование, ведь очевидно, что у женщин нет власти над этой характеристикой.

  1. Выводы

Машинное обучение является технологией, позволяющейстроить алгоритмы, способные самостоятельно обучаться на основе предыдущего опыта. В данной главе были описаны виды машинного обучения, какие задачи оно позволяет решать и с помощью каких алгоритмов. Также были описаны сферы, в которых машинное обучения уже активно применяется, и были даны примеры возможных недостатков и проблем, связанных с использованием машинного обучения.

Глава 2. Применение машинного обучения в образовании

Где и как образуются данные

Несмотря на то что использование методов машинного обучения во многих сферах уже укоренилось и считается общепринятым, в сфере образования данная технология ещё не нашла широкого применения.

Образование является одной из индустрий, в которой постоянно образуются новые данные. Данные накапливаются и в заведениях традиционного офлайн образования, таких как школы, колледжи, высшие учебные заведения, и в системах онлайн образования.

  1. Традиционные формы образования

В большинстве традиционных учебных заведений все еще отсутствуют специальные электронные образовательные системы, содержащие много онлайн-контента и позволяющие отслеживать взаимодействие обучающихся с этим контентом. Поэтому такие заведения в основном накапливают персональные данные учащихся, а также различные административные данные.

Кперсональным данным относится такая информация, как полное имя, дата рождения, паспортные данные, номера телефонов, адрес проживания, данные о социальных льготах. К персональным данным могут относиться и различные данные о родителях или законных представителях учащегося, если речь идет и школьнике.

Кадминистративным данным можно отнести успеваемость, посещаемость занятий, количество пропусков по болезни и количество прогулов, данные о предыдущих учебных заведениях и об основании поступления в нынешнее, данные о форме финансирования, если образования является платным.

Получать такие данные становится все проще с увеличением количества учебных заведений, внедряющих системы электронного журнала, электронного дневника и системы электронных пропусков.

Данные, создающиеся в электронной системе пропусков в учебное заведение, могут показать, например, как часто студент опаздывает, пропускает занятия, уходит пораньше или выходит покурить.

  1. Системы смешанного обучения

В последние четыре года все большую популярность набирает онлайн образование, но несмотря на то, что онлайн обучение становится все более востребованным, оно не сможет полностью заменить такие традиционные формы образования, как школы, колледжи, высшие учебные заведения. Многим учащимся необходимы личные советы и наставления преподавателей, возможность живой дискуссии по интересующему их вопросу.

В таких случаях лучшей моделью обучения является «смешанное образование». Смешанное обучение (англ. blended learning) подразумевает под собой комбинирование онлайн и очного обучения студентов. В системе смешанного обучения студенты могут посещать занятия, которые ведет учитель в традиционной обстановке классе, а также самостоятельно выполнять онлайн задания курса за пределами классной комнаты. Онлайн обучение может быть лишь малой частью процесса обучения – например, видео-лекции одного конкретного предмета, вебинары, онлайн тестирования и другие виды учебной деятельности могут только дополнять привычное учебное взаимодействие студента и преподавателя. В некоторых случаях учащиеся могут работать самостоятельно с онлайн лекциями, проектами и заданиями на дому или в другом месте, лишь периодически встречаясь с учителями, чтобы обсудить свои работы, задать вопросы или получить помощь в выполнении трудных заданий. В других случаях студенты могут проводить весь день в традиционном здании школы или университета, но они будут уделять больше времени, работая самостоятельно с различными электронными образовательными системами, нежели слушая лекции преподавателя. При переносе части учебной деятельности в цифровой формат образуются новые данные. Становится возможным контролировать каждый шаг учеников. Как много времени требуется студенту, чтобы ответить на вопрос, какие источники он использует, какие вопросы пропускает, какой тип информации усваивает лучше всего, а какой хуже.

В последние годы высшие учебные заведения начали внедрять системы управления образованием (англ. Learning Management System, LMS). Такие системы позволяют распространять учебные онлайн-материалы, обеспечивать совместный доступ к ним студентов и преподавателей. В таких системах учащиеся могут выполнять различные задания, индивидуальные и групповые проекты, проходить тесты, следить за своей успеваемостью.

С растущей популярностью LMS появляются возможности собирать данные о взаимодействии студентов с электронной системой и онлайн контентом. К таким данным относятся количество просмотров одним студентом страниц с материалами, скорость просмотра страниц, время, проведенное пользователем в электронной системе.

Также LMS позволяет собирать данные об эффективности учебных материалов, например, отслеживать, к каким типам материалов чаще всего обращаются студенты, сколько времени тратят на выполнение заданий, на каких вопросах задерживаются.

  1. Образовательные онлайн платформы

Онлайн образование становится все более распространено и доступно для широких масс. Особой популярностью пользуются Массовые Открытые Онлайн Курсы (сокр.: МООК; англ. Massive open online courses, MOOC) – форма дистанционного образования с открытым доступом через Интернет. Чаще всего онлайн курсы содержат в себе видео лекции, материалы для чтения, различные задания для усвоения пройденного материала. Также онлайн курсы дают возможность интерактивного взаимодействия студентов с другими студентами и преподавателями.

Самыми известными и популярными платформами являются:

  • Coursera
  • edX
  • Udacity
  • MIT OpenCourseWare
  • FutureLearn
  • Khanacademy

Такие крупные онлайн академии имеют очень широкий охват аудитории, который стремительно увеличивается с каждым годом. На данный момент Coursera является самой крупной онлайн системой образования и на ее долю приходится чуть менее 50% всех студентов МООК. На конец 2015 года общее количество студентов, подписавшихся по крайней мере на один онлайн курс, составило 35 миллионов человек, из них 17 миллионов являются пользователями Coursera.  Количество студентов, подписавшихся на одну сессию одного курса, исчисляется десятками, а иногда и сотнями тысяч. Например,однасессиякурса «Understanding IELTS: Techniques for English Language Tests»отакадемии FutureLearnсобрала 370 000студентов.

Таким образом, платформы МООК обладают большими возможностями для глубоко анализа данных о своих студентах, так как:

Во-первых, на онлайн платформах каждый курс имеет не одну сессию и запускается в среднем один раз в месяц, а на каждую сессию подписываются десятки тысяч человек со всего мира. Традиционные образовательные учреждения же располагают данными нескольких сотен студентов для каждого курса, а периодичность таких курсов чаще всего составляет один год.

Во-вторых, весь процесс прохождения МООК происходит онлайн, что дает возможность собирать данные о полном пути прохождения курса студентом, начиная от выбора конкретного курса среди схожих по тематике до момента сдачи финального проекта и получения диплома или сертификата.

В-третьих, данные, получаемые системами онлайн образования, могут дать более полное представление о том, почему студенты не проходят какие-либо курсы, прекращают свое обучение. Учеба в традиционных учебных заведениях обычно не дает возможность пройти курс с нескольких попыток.

В-четвертых, МООК способны получать более полную информацию о студентах со всего мира, так как студентами являются люди разных возрастов, разных профессий, проживающие в разных странах. А выборка данных, получаемая университетами, чаще всего однородна, так как большинство студентов одного возраста, проживают в одном городе и находятся в схожих социальных кругах.

  1. Применение методов машинного обучения

2.2.1 Дистанционное обучение

В основном методы машинного обучения используются образовательными платформами, которые позволяют автоматизировать процесс сбора, хранения и анализа данных.Первые исследования в этой области были проведены профессором математики Сотирисом Котсиантисом ещё в 2003 году. В своей статье об использовании техник машинного обучения для прогнозирования оценок студентов «Use of machine learning techniques for educational proposes: a decision support system for forecasting students’ grades» Котсиантис пишет, что использование машинного обучения в образовательных практиках это перспективное и развивающееся направление, направленное на разработку методов анализа данных и поиска значимых и полезных закономерностей. Автор отмечает, что огромное количество данных о студенте накапливается в процессе обучения. Котсиантис также делает акцент на онлайн обучении, так как там появляется возможность собирать не только персональные и демографические данные учащегося (пол, возраст, семейное положение, вид деятельности), но и информацию о его взаимодействии с системой: время, проведённое за просмотром обучающих материалов, скорость просмотра этих материалов, количество попыток прохождения теста, как много времени требуется студенту, чтобы ответить на вопрос, какие источники он использует, какие вопросы пропускает и на каких вопросах задерживается, какой тип информации усваивает лучше всего, а какой хуже. Хотя традиционные учебные заведения собирают информацию о нескольких потоках прохождения одного курса в течение нескольких лет, а образовательные онлайн платформы получают эту информацию за несколько сессий одного курса, подобные исторические данные будут полезны для анализа и построения алгоритмов машинного обучения.

В статье о предотвращении отсева студентов в дистанционном обучении с использованием технологии машинного «Preventing Student Dropout in Distance Learning Using Machine Learning Techniques» Котсиантис описывает, как он использовал существующие методы регрессионного анализа с целью прогнозирования отметок студентов в системе дистанционного обучения. Он сравнивает некоторые из современных регрессионных алгоритмов, чтобы выяснить, какой алгоритм является более целесообразным не только для точного прогнозирования успеваемости, но также для использования в качестве аналитического инструмента поддержки и принятия решений для преподавателей. Имея перед собой информацию о текущей и прогнозируемой успеваемости студентов, преподаватели смогут свести к минимуму количество не справляющихся с обучением студентов, оказывая им поддержку и предоставляя дополнительные обучающие материалы.

Для своего исследования Котсиантис использует данные о 354 студентах дистанционного курса «введение в информатику» Эллинского Открытого Университета (Hellenic Open University). Эллинский Открытый Университет предлагает образование университетского уровня, используя дистанционные методы обучения. Основной образовательной единицей курса «Введение в информатику», а также любого другого курса магистратуры или аспирантуры университета – это модуль, которому эквивалентны 3 или 4 семестра учебных занятий. Курс «Введение в информатику» состоит из 12 модулей и приводит к степени бакалавра. Студенты курса в течение учебного модуля должны сдать 4 письменных задания, а также принять участие в 4 дополнительных очных консультаций с преподавателями и сдать выпускные экзамены. Студент должен предоставить по крайней мере три из четырех заданий. Преподаватели должны оценивать эти задачи по 10-балльной системе оценивания греческих ВУЗов. В общей сложности студент должен набрать не менее 20 баллов за письменные задания, чтобы быть допущенным к итоговому экзамену. Для преподавателей же очень важно до середины учебного модуля определить студентов, которые имеют риск быть отчисленными, чтобы смочь оказать им дополнительную поддержку. Студенты редко сами заявляют о неспособности успешно закончить учебный модуль, однако есть некоторые индикаторы, способные указать на тех, кто вероятно может быть отчислен, до середины модуля. Все характеристики студента были разделены на две группы: личные и академические. Первая группа характеристик содержала только персональные данные студентов, во второй группе добавились данные об академической успеваемости за половину модуля. Полное описание всех характеристик можно посмотреть в таблицах 12 и 13 в приложениях.

Пять различных подходов машинного обучения были протестированы для того, чтобы построить алгоритм, который может наиболее точно предсказать будущие результаты студентов. К этим подходам относятся: дерево решений,  нейронные сети, байесовские сети, логистическая регрессия и метод опорных векторов. Все эти модели подробно описаны Котсиантисом в его статье.

Фаза обучения состояла из пяти последовательных шагов. На первом шаге для обучающей выборки были использованы только демографические данные студентов в качестве «ситуации» и успешное или неуспешное окончание курса в качестве «решения». На этом шаге алгоритм показал точность модели 63%. На втором шаге в модель были включены данные о первой встрече студента с преподавателем, на третьем шаге добавилась информация о первом письменном задании, на четвёртом и пятых шагах была включена информация о второй встрече и втором задании соответственно. В ходе последнего этапа эксперимента точность модели достигла почти 84%. По результатам этого исследования Котсиантис отметил, что наибольшую точность показала модель, основанная на наивном байесовском классификаторе, для которого и приведены значения точности в таблице 1.

Таблица  Точность модели в зависимости от входных данных

Данные

Точность модели

Только демографические данные

63,06%

Добавлены данные о первой встрече

62,65%

Добавлены данные о первом задании

71,04%

Добавлены данные о второй встрече

72,94%

Добавлены данные о втором задании

83,89%

Наивный байесовский классификатор – это один из самых простых из алгоритмов классификации, основанный на теореме Байеса для определения вероятности принадлежности наблюдения (элемента выборки) к одному из классов. Смысл теоремы на простом языке можно выразить следующим образом: теорема Байеса позволяет переставить местами причину и следствие. Зная с какой вероятностью причина приводит к некоему событию, с помощью теоремы можно рассчитать вероятность того, что именно эта причина привела к наблюдаемому событию. Наивный байесовский классификатор позволяет легко и быстро произвести многклассовую классификацию и хорошо обучается на сравнительно небольших выборках, что и можно было наблюдать в проведённом эксперименте.

Также в статье было отмечено, что самое сильное влияние на точность модели оказывали именно оценки за письменные задания, встречи с преподавателями и уровень компьютерной грамотности на момент старта курса. Демографические же показатели, такие как пол, возраст, семейное положение не добавляли существенную точность предсказательной модели.

ПлатформаKnewton

Одной из первых компаний, начавших активно применять технологии анализа больших объемов данных в сфере образовании, является компанияKnewton. Своей миссией компания считает персонализацию обучения в всем мире.

Компанией Knewton были разработаны универсальные алгоритмы сбора, анализа и использованию информации о прогрессе студентов. Knewton создала адаптивную образовательную платформу, которую можно подключить к любой современной системе управления учебным процессом (LMS).

Платформа включает в себя:

  • Систему сбора данных, собирающую информацию о знаниях студентов, уровне усвоения и понимания проходимых курсов.
  • Систему выводов, обобщающую информацию, основываясь на полученных данных об особенностях студента, его реакциях на изменение траектории обучения
  • Систему персонализации, которая на основе данных всей системы оценивает возможности студента, и с учётом этого корректирует цели и формирует оптимальную стратегию обучения каждого студента

Данные, используемые платформой для анализа собираются приложением внутри самого образовательного учреждения и передаются на сервер Knewton. Далее платформа анализирует полученные данные по сотням параметров (например, темп работы студента, его способность к обработке информации) и возвращает их в виде рекомендаций студенту или преподавателю, основанных на знаниях и потребностях учащихся. Система определяет пробелы в знаниях студентов и может порекомендовать конкретные действия для их устранения, например, обучающее видео, материалы для чтения или интерактивные упражнения. Технологии компании позволяют выполнять сложный анализ данных о показателях студентов в режиме реального времени, делать прогнозы относительно их успехов и неудач (например, скорость выполнения работы, вероятность достижения цели, вероятность выбытия из учебного процесса), определять сильные и слабые стороны каждого студента, вести личную статистику успеваемости студента на всех этапах обучения.

ШколаAltSchool

Среди обычных школ и университетов, которые собирают данные о своих учащихся, но практически не используют их для анализа, есть отдельные заведения, которые строят весь образовательный процесс вокруг технологий. Примером такого заведения являетсяAltSchool.

AltSchool, образовательный стартап из Силиконовой долины, – это сеть частных микро-школ, запущенная бывшим исполнительным директором Google Максом Вентилла в 2014 году для развития персонализированного образования в США.

AltSchool не похожа ни на одну из существующих в мире школ. Главной особенностью этой школы является то, что в ней используется разработанное специально для проекта программное обеспечение, позволяющее учителям персонализировать процесс образование для каждого ребенка, создавать индивидуальный план урока и всего курса для каждого конкретного ученика вместо единого для всех учебного плана. Родители в этой школе помогают преподавателям сформировать максимально полное представление о каждом конкретном ребенке и могут свободно участвовать в обсуждении индивидуальных планов, совместно с детьми и преподавателями решать, что именно они хотели бы изменить в учебном плане.

Для поступления в Altschool каждый ребенок проходит личное интервью, в ходе которого формируется Learner Profile, так называемый профиль ученика. В этом профиле максимально подробно описываются сильные и слабые стороны ребенка, его интересы, к чему он стремится и как лучше обучается. Это и является основной стартовой точкой для последующего создания индивидуальной программы обучения. Собеседование с каждым из учеников позволяет преподавателям определить, как следует выстроить взаимодействие в классе таким образом, чтобы сильные стороны одного ученика помогали развить слабые стороны другого.

Обычные классы в AltSchool заменены на микро-сообщества – группы до 20 человек, причем привычное всем разделение на классы по возрастному признаку отсутствует, группы формируются по уровню развития и способностей учеников.

В ходе занятий используются планшеты и различные другие цифровые устройства. Учебный день ребенка начинается просмотра своего индивидуального расписания занятий: для каждого составлен свой список заданий – как индивидуальных, так и групповых, причем каждое из заданий преследуют определённую конкретную цель. Приложение автоматически отслеживает посещаемость, успеваемость, следит за личными особенностями ребенка и вносит изменения в его персональный план обучения.

Индивидуальным программы основаны на потребностях и предпочтениях каждого ребенка, а задачи, которые в обычных школах отнимают время преподавателя, такие как, например, оценка успеваемости полностью автоматизированы. За счет того, что во всех учебных помещениях аудиовизуальные датчики, оценивающие грамотность речи учеников во время их разговора, необходимость в написании контрольных работ отпадает. Датчики также оценивают и внимательность детей – как часто они отвлекаются, одинаково ли мальчики и девочки участвуют в групповых обсуждениях. В это время учителя могут помогать детям реализовывать их потенциал и учить их.

Традиционные ВУЗы

Традиционные школы и высшие учебные заведения имеют меньше возможностей для сбора данных, чем образовательные онлайн платформы. Однако всё больше университетов начинают внедрять системы управления образованиемLMS, которые позволяют собирать и хранить данные автоматизировано. В высших учебных заведениях существует потенциал использования технологий машинного обучения для улучшения качества образования. Лекции в ВУЗах по своей природе менее интерактивные, чем школьные уроки – возможно, исходя из предположения, что старшие, более серьезные и ответственные студенты меньше нуждаются в индивидуальном подходе к каждому студенту, обратной связи от преподавателя и дополнительной мотивации к тому, чтобы оставаться сфокусированным на занятиях. Это означает, что студенты получают меньше отзывов о своей работе, а преподаватели меньше отзывов об эффективности их методов обучения, о которых часто судят только по финальным оценкам их студентов.

Одной из задач, стоящей первед университетами, является сокращение количества отчисляемых студентов по причине академический задолжностей, то есть несданных экзаменов.

В 2012 году было проведено исследование, целью которого являлось проверить, возможно ли прогнозировать успех студентов первокурсников только по тем данным,  которые были предоставлены ими при зачислении в университет. Успех студента измерялся по оценке, полученной на финальном экзамене по курсу «Бизнес-информатика» в конце первого курса.  Было рассмотрено влияние  на эту оценку различных социально-демографических факторов, предыдущих успехов в старшей школе и на вступительных экзаменах, а также отношение студента к учёбе.

Авторы исследования делают упор на том, что все участники образовательного процесса выигрывают от анализа  накопленных данных. В качестве иллюстрации авторы приводят цикл применения глубокого анализа данных в сфере образования. Цикл продемонстрирован на рисунке 7.

Рисунок  Цикл взаимодействия с образовательной системой,Romero,Ventura 2007

Студенты и преподаватели взаимодействуют с образовательными системами, тем самым накапливая данные об учебных планах и участии студентов в процессе обучения. После применения методов анализа данных, например, классификации или кластеризации, и студенты и преподаватели могут получить рекомендации по улучшению своей деятельности.

В ходе исследования были собраны данные студентов первого курса факультета экономики университеты Тузлы. Данные собирались путём проведения опроса студентов после окончания первого курса и после удаления выбросов содержали информацию о 257 студентах. Данные содержали такую информацию как:

  • Пол
  • Количество членов семьи
  • Дальность проживания от корпуса
  • Уровень образования
  • Средний балл
  • Оценка за вступительный экзамен
  • Получает ли студент стипендию
  • Количество часов в неделю, уделяемых учёбе
  • Материалы, которые используются для подготовки
  • Использование интернета в образовательных целях
  • Важность оценки для студента
  • Доход студента

Полную информацию о всех собранных данных можно посмотреть в таблице 14 в приложениях.

В ходе эксперименты было построено три предсказательных модели, на основе таких алгоритмов, как наивный байесовский классификатор (NB – naïve Bayes), дерево решений (decision tree)  и многослойный перцептрон (MLP – multilayer perception). В таблице 2 приведён сравнительный анализ выбранных подходов по трём заданным критериям.

Таблица  Сравнительный анализ различных классификаторов

Критерий оценки

Классификатор

NB

MLP

Decision tree

Время на построение модели (в секундах)

0

4.13

0

Количество верно классифицированных

197

183

190

Количество неверно классифицированных

60

74

67

Можно заметить, что наивный байесовский алгоритм и дерево решений практически не требуют время на анализ данных, при этом наибольшую точность показала модель, основанная на именно наивном байесовскм алгоритме, что продемонстрировано на диаграмме 1. Аналогичный результат был получен и С. Котсиантисом.

Диаграмма   Точность модели

Однако авторы статьи также обращают внимание на то, что для построения системы принятия решений, основанной на использовании методов машинного обучения, алгоритм принятия решений должен быть максимально прозрачен и понятен пользователям системы. Среди рассмотренных алгоритмов самым понятным для неподготовленного человека является дерево решений, так как оно может быть преобразовано в набор правил «Если – то», а это самая простая форма представления модели, которую легко понять и интерпретировать.

  1. Выводы

В данной главе было рассказано, как именно и какие данные образуются в сфере образования, а также приведены примеры того, как различные образовательные учреждения применяют машинное обучение для анализа этой информации.

Глава 3. Модель предсказания академического успеха студента

    1. Постановка задачи

    В качестве практической части данного исследования была поставлена задача разработки модели машинного обучения, которая могла бы предсказывать сдаст ли тот или иной студент определённую дисциплину, основываясь на данных о его предыдущих академических успехах. Такое предсказание должно осуществляться за какое-то время до экзамена, например, 2-4 месяца, чтобы эта информация могла быть использована: студенты успели бы приложить больше усилий к освоению этой дисциплины, а преподаватель имел бы возможность уделить этим студентам больше внимания. В терминах машинного обучения стоит задача обучения с учителем, а именно задача классификации.

    1. Сбор данных

    Для построения предсказательной модели были использованы данные студентов Национального Исследовательского Университета Высшей Школы Экономики факультета Экономики образовательных программ «Экономика» и «Экономика и статистика». Были взяты данные абитуриентов и студентов первого курса набора 2014 и 2015 годов. В первую очередь были собраныданные абитуриентов, для которых известны следующие характеристики:

    • Фамилия, имя и отчество абитуриента
    • Баллы за ЕГЭ по предметам Математика, Русский язык, Обществознание и Иностранный язык
    • Был ли получен этот балл именно за ЕГЭ или по результатам выигранной олимпиады абитуриенту были присуждены 100 баллов за этот предмет.

    После были взяты данные об успеваемости студентов в течение первого курса: рейтинги студентов за первый и второй семестр до пересдач.  Были выбраны именно рейтинги до пересдач, так как они наиболее точно отражают уровень знаний студента на момент сдачи экзамена, и показывают больший разброс полученных оценок.  В Высшей Школе Экономики принята десятибалльная система оценивания, для которой существует следующая шкала перевода количественной оценки в качественную, представленная в таблице 3:

    Таблица  Перевод оценки из 10-балльной шкалы в 5-балльную

    10-бальная шкала

    5- балльная шкала

    8,9,10

    Отлично (5)

    6,7

    Хорошо (4)

    4,5

    Удовлетворительно (3)

    0,1,2,3

    Плохо (1,2)

    Для каждого студента в рейтинге содержалась информация о его имени, месте в рейтинге, группе, оценке за экзамен или зачёт по каждому предмету данного семестра по десятибалльной шкале, средний балл, минимальный балл, а также наличие неудовлетворительных оценок.

    Было решено анализировать данные для студентов образовательных программ «Экономика» и «Экономика и статистика» вместе, так как:

    • на оба направления принимаются одинаковые вступительные экзамены (ЕГЭ по математике, русскому языку, иностранному языку и обществознанию)
    • программы первого курса по основным предметам совпадают (совпадают учебные дисциплины, темы, которые должны быть освоены, часы, выделенные на лекционную, семинарскую и самостоятельную работу)

    Все данные были взяты с сайта НИУ ВШЭ в момент, когда они были доступны.

    1. Инструментальные средства

    Для предварительной обработки данных была выбрана программа для работы с электронными таблицамиMicrosoftExcel, с помощью которой можно объединить данные из нескольких источников и провести их первичный анализ.

    Для построения машинного обучения был выбран высокоуровневый язык программированияpython. Разработка проходила вJupyterNotebook, веб-оболочке программеAnaconda, которая является дистрибутивом языка программированияpython, включающим в себя набор библиотек для крупномасштабной обработки данных, научных вычислений и прогнозной аналитики.

    Для загрузки данных и проведения вычислений были подключены следующие библиотеки:

    • NumPy – базовая библиотека для научных вычислений в средеPython, позволяющая поддержку массивов, матриц и функций для работы с этими типами данных.
    • Pandas – библиотека, позволяющая загрузку данных из текстовых файлов,Excel таблиц и баз данных.
    • Scikit-learn – библиотека, представляющая реализацию ряда алгоритмов для задач обучения с учителем и обучения без учителя, то есть позволяет решать задачу классификации.

    1. Первичная обработка и анализ данных

    В первую очередь в единые списки были соединены данные абитуриентов и рейтинги студентов с обоих направлений. После был произведён маппинг данных студентов с абитуриентами по полному совпадению ФИО, то есть для каждого студента из рейтинга до пересдач за второй семестр были подтянуты данные о нём, как об абитуриенте. Мэппинг производился вMicrosoftExcel с помощью формулы вертикального подтягиванияVLOOKUP. Всего в выборке оказалось 583 студента.

    На следующем шаге были определены предметы, по которым студенты получали больше всего незачётов. Такими предметами в первом семестре оказались математический анализ, линейная алгебра и экономическая история. Эти дисциплины изучаются как на направлении «Экономика», так и на направлении «Экономика и статистика» и имеют одинаковые учебные планы.

    Именно предметы с самым высоким процентом неудовлетворительных оценок были выбраны по двум причинам:

    • Эти дисциплины являются самыми сложными для освоения, поэтому важно заранее знать, кто из студентов находится в группе риска не сдать предмет, чтобы преподаватели могли своевременно оказать дополнительную помощь, а сами студенты имели время на то, чтобы более серьезно заняться предметом.
    • При высоком проценте незачётов исчезает проблема несбалансированной выборки. Несбалансированная выборка означает, что объектов одного класса (получил зачёт) в выборке сильно больше, чем объектов другого класса (получил незачёт), вследствие чего алгоритму сложнее на этих данных верно обучиться.

    Далее приведены диаграммы, иллюстрирующие процент распределения оценок по линейной алгебре, математическому анализу и экономической истории в первом семестре в порядке убывания доли незачётов.

    Самый высокий процент неудовлетворительных оценок в первом семестре оказался за линейную алгебру и составил 24%, что можно увидеть на диаграмме 2.

    Диаграмма   Распределение оценок по линейной алгебре

    Следующим предметом по уровню незачётов оказался математический анализ. Количество неудовлетворительных оценок по нему составило 20%, что продемонстрирована на диаграмме 3.

    Диаграмма   Распределение оценок по математическому анализу

    Количество незачётов по экономической истории составило 14%, что видно их диаграммы 4.

    Диаграмма   Распределение оценок по экономической истории

    Несмотря на то что большее количество незачётов было по линейной алгебре, в качестве целевой переменной, то есть переменной, которая будет предсказываться, была выбрана оценка по математическому анализу в конце второго семестра, так как этот предмет продолжался до конца года, а линейная алгебра и экономическая история закончились в первом семестре.

    На диаграмме 5 представлено распределение оценок по математическому анализу во втором семестре. Процент неудовлетворительных оценок составил 26%, что превысило количество незачётов в первом полугодии.

    Диаграмма   Распределение оценок по математическому анализу во втором семестре

    На следующем шаге было необходимо выявить, по каким переменным следует предсказывать оценку по математическому анализу. Так как данные абитуриентов, такие как баллы за ЕГЭ и как они были получены, доступны для каждого студента с обеих образовательных программ и обоих годов набора, то они были включены в выборку. Однако при анализе рейтингов студентов было обнаружено, что не все предметы одинаковы для программы «Экономика» и программы «Экономика и статистика», к тому же внутри каждой образовательной программы были представлены предметы по выбору, которые проходила только часть студентов с курса. Поэтому в итоговую выборку были включены баллы за обязательные предметы одинаковые для обеих образовательных программ, а также средний балл студента за все предметы.

    Таким образом, в итоговом наборе данных присутствовали записи о 583 студентах, содержащие поля, представленные в таблице 4:

    Таблица  Поля итогового набора данных

    Студент

    ФИО студента

    Матем

    Балл за ЕГЭ по математике, от 0 до 100

    Общество

    Балл за ЕГЭ по обществознанию, от 0 до 100

    РуссЯз

    Балл за ЕГЭ по русскому языку, от 0 до 100

    ИнЯз

    Балл за ЕГЭ по иностранному языку, от 0 до 100

    Мат_ЕГЭ

    Как был получен балл по математике:

    1 – балл был получен за ЕГЭ

    0 – 100 баллов были присуждены за олимпиаду

    Общ_ЕГЭ

    Как был получен балл по обществознанию:

    1 – балл был получен за ЕГЭ

    0 – 100 баллов были присуждены за олимпиаду

    Рус_ЕГЭ

    Как был получен балл по русскому языку:

    1 – балл был получен за ЕГЭ

    0 – 100 баллов были присуждены за олимпиаду

    Ин_ЕГЭ

    Как был получен балл по иностранному языку:

    1 – балл был получен за ЕГЭ

    0 – 100 баллов были присуждены за олимпиаду

    ЛинАл

    Оценка за линейную алгебру в 1-ом семестре, от 0 до 10

    МатАн

    Оценка за математический анализ в 1-ом семестре, от 0 до 10

    ЭкономИст

    Оценка за экономическую историю в 1-ом семестре, от 0 до 10

    Ср.балл_1сем

    Средний балл по всем предметам за 1-ый семестр

    МатАн2

    Оценка за математический анализ в 2-ом семестре, от 0 до 10

    Построение модели

    Для построения модели классификации итоговый набор данных был загружен и обрабатывался при помощи модуляpandas. Для построения машинного обучения набор данных должен быть представлен в виде матрицы, в которой каждой строке соответствует запись об одном студенте, переменныеX1,X2, …,Xnявляются характеристиками, а переменнаяY является целевой, то есть той, которую необходимо предсказать. Пример матрица проиллюстрирован в таблице 5.

    Таблица  Матрица в общем виде

    X1

    X2

    Xn

    Y

    X1,1

    X1,2

    X1,n

    Y1

    ….

    Xm,1

    Xm,2

    ….

    Xm,n

    Ym

    В данной модели характеристиками студента являются его баллы ЕГЭ и оценки в университете, а целевая переменная – оценка за математический анализ во втором семестре. Соответственно, описательные характеристики были выбраны в массивX, а целевая переменная была записана вY. То, как характеристики попадают в переменнуюX и целевую переменнуюY приведено в следующей части кода:

    X =file[['Матем','Мат_ЕГЭ','ЛинАл','МатАн','ЭкономИст','ср балл 1 сем.'  ]]​

    y =file['МатАн2']

    Далее выборка была псевдо рандомным образом разделена на две части: обучающую и тестовую выборки. Обучающая выборка составила 80%, а тестовая 20%. Для обучающей выборки известны, как переменнаяX, так и целевая переменнаяY. Обучающую выборку алгоритм использует для того, чтобы определить, как входные характеристики влияют на значение целевой переменной. В тестовой выборке алгоритму известны только характеристики каждого студента. Уже обученный на 80% данных алгоритм предсказывает значение целевой переменной. После этого можно проверить верность такого предсказания, так как для этих 20% выборки известен «правильный ответ». Псевдо рандомное разделение выборки на обучающую и тестовую части заключается в том, что разделение происходит рандомно, но оно фиксируется для того, чтобы при выборе различных алгоритмов машинного обучения можно было отследить, какой алгоритм показывает большую точность предсказания на одних и тех же данных.

    X_scaled = preprocessing.scale(X)

    y_scaled = y

    X_train, X_test, y_train, y_test = train_test_split(X_scaled, y_scaled, test_size=0.2 random_state=42)

    Задача десяти классовой классификации, то есть предсказания оценки студента с точностью до балла, не может быть очень точной. Если алгоритм предсказал, что студент получит на экзамене 8, а он получил 7 или 9, нельзя сказать, что это является сильной ошибкой. К тому же задача предсказать точную оценку не имеет смысла. Важно не узнать заранее, какую именно оценку получит студент: 8 или 9, 2 или 3, важно разделить студентов на группы риска: кто скорее всего сдаст, а кто не сдаст. Например, между оценками 8 и 9 практически нет разницы, так как в обоих случаях студент сдал, а между оценками 2 и 3 её нет, так студент не сдал. Однако существует важная грань между оценок 3 и 4, так как они разделяют меду собой зачёт и незачёт. Поэтому было решено ввести три класса:

    • Студент с большой вероятностью сдаст
    • Студент с большой вероятностью не сдаст
    • Группа неопределённости

    Границы групп были определены следующим образом:

    Таблица  Распределение оценок по классам

    Предсказанная оценка

    Класс

    Описание класса

    5, 6, 7, 8, 9, 10

    2

    Студент сдаст

    0, 1, 2, 3

    0

    Студент не сдаст

    4

    1

    Неопределённость

    Если алгоритм предсказывает студенту оценку от 5 и выше, он попадает в группу тех, кто с большой вероятностью получит зачёт. Если предсказанная оценка студента ниже 4, то он попадает в группу тех, у кого высокий риск не сдать экзамен. Однако если предсказанная оценка студента равна 4, то он попадает в группу неопределённости, так как ошибка в один балл будет вызывать ошибку классификации. При этом не так страшно классифицировать студента в группу риска, если он сдаст экзамен, чем предсказать, что с большой вероятностью он сдаст, и ошибиться. Также нельзя исключать и человеческий фактор, так оценка за экзамен во многом зависит от студента. Студент с низким уровнем начальных знаний мог хорошо подготовиться в последний момент или списать, а хорошо подготовленный студент мог разволноваться на экзамене и забыть базовые вещи.

    Описанная система разделения на классы реализована следующим образом:

    defmark_scale(mark):

    return {

                 mark<4 :0,

    4<=mark<=4 :1,

    mark>4 :2

    }[True]

    Далее был протестирован ряд моделей машинного обучения, который включал различные реализации линейной регрессии, метода опорных векторов, наивного байесовского классификатора.

    Самую высокую точность показали две модели:

    • SVCSupportVectorClassification, линейный алгоритм классификации, основанный на методе опорных векторов.
    • ElasticNet – разновидность линейного алгоритма классификации

    Ниже представлен код для реализации моделиSVC:

    clf = svm.SVC()

    clf.fit(X_train, y_train)

    SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,

     decision_function_shape=None, degree=3, gamma='auto', kernel='rbf',

     max_iter=-1, probability=False, random_state=None, shrinking=True,

     tol=0.001, verbose=False)

    y_predict = np.array(np.round(clf.predict(X_test)))

    А также моделиElasticNet:

    clf = sklearn.linear_model.ElasticNet()

    clf.fit(X_train, y_train)

    ElasticNet(alpha=1.0, copy_X=True, fit_intercept=True, l1_ratio=0.5,

         max_iter=1000, normalize=False, positive=False, precompute=False,

         random_state=None, selection='cyclic', tol=0.0001, warm_start=False)

    y_predict = np.array(np.round(clf.predict(X_test)))

    Полностью программные коды для моделейSVC иElasticNet можно посмотреть в приложениях 4 и 5.

    Точность модели

        1. Метрики в задачах классификации

        Для того чтобы оценить точность предсказания необходимо ввести понятия базовых метрик в задачах классификации. Технически в данном исследовании строится модель классификации с тремя классами. Однако одним из этих классов является класс неопределённости, для которого считается, что оценка зависит от самого студента. Поэтому для определения точности модели будем считать, что существуют два класса «студент сдаст» и «студент не сдаст», а группа неопределённости должна быть насколько это возможно маленькой.

        Таким образом, для предсказания попадания объекта в один из двух классов можно построить следующую матрицу ошибок, где Ŷ – это класс, предсказанный алгоритмом, аY – класс, к которому в действительности принадлежит объект.

        Таблица  Матрица ошибок

        Y = 1

        Y = 0

        Ŷ = 1

        TP (True Positive)

        FP (False Positive)

        Ŷ = 0

        FN (False Negative)

        TN (True Negative)

        Соответственно значенияTruePositive иTrueNegative это верно классифицированные объекты, аFalsePositive иFalseNegative это два различных типа ошибок.

        Самой очевидной метрикой правильности работы классификатора являетсяAccuracy – доля правильно определённых объектов среди всех предсказаний.

        Однако эта метрика не всегда эффективна.

        Пусть класс 1 = студент сдаст, а класс 0 = студент не сдаст.

        Допустим, что есть 100 студентов, которые сдали экзамен, и 90 из этих 100 студентов мы определили в верный класс, для 10 студентов, получивших незачёт, верно определены были 5.

        Тоесть:

        True Positive = 90, False Positive = 5

        False Negative =10, True Negative = 5

        Втакомслучае:

        При этом, если классификатор будет просто говорить, что все студенты сдадут экзамен, то точность будет такая:

        Получается, что данная модель показывает более высокую точность, но не несёт в себе никакой смысловой нагрузки, так как не обладает предсказательной силой.

        Чтобы избежать этой ситуации следует оценивать качество работы классификатора для каждой группы отдельно и использовать такие понятия, какPrecision иRecall.

        Precision – это доля объектов, правильно отнесённых к классу 1, среди всех объектов, классифицированных положительно.

        МетрикаRecall же демонстрирует, какую часть объектов положительного класса обнаружил алгоритм среди всех объектов положительно класса.

        То есть метрика Recall показывает умение алгоритма обнаруживать конкретный класс, а метрикаPrecision демонстрирует его умение отличать этот класс от других.

        1. Точность моделиSVC

        Для модели, построенной с помощью метода опорных векторов, были продемонстрированы следующие показатели:

        Общий объём выборки 583 студента, тестовая выборка составила 20%, что означает, что предсказания были сделаны для 117 студентов. 23% студентов были отнесены в класс неопределённости, для 68% было предсказано, что они сдадут экзамен, для 9%, что не сдадут.

        Диаграмма   Распределение предсказаний по классам в моделиSVC

        Таким образом, из 117 человек для 27 предсказание невозможно, 80 попали в класс тех, кто получит зачёт, а для 10 был предсказан незачёт.

        Таблица  Распределение студентов по классам в моделиSVC

        Зачёт

        80

        Незачёт

        10

        Группа неопределённости

        27

        Для классов «сдаст» и «не сдаст» матрица ошибок выглядит следующим образом:

        Таблица  Матрица ошибок для моделиSVC

        Класс 1 (Сдал)

        Класс 0 (не сдал)

        Предсказан класс 1

        TP =78

        FP =2

        Предсказан класс 0

        FN =1

        TN =9

        Таким образом, метрики классификатора имеют такие значения:

        Модель предсказания академического успеха студента на http://mirrorref.ru


        Похожие рефераты, которые будут Вам интерестны.

        1. Реферат Понятия «модель» и «лингвистическая модель». Алгоритм, задача и модель

        2. Реферат Сравнение предсказательной силы моделей предсказания банкротства на основе логистической регрессии и искусственных нейронных сетей для крупных российских акционерных компаний

        3. Реферат Модель хищник-жертва; модель Вольтера-Лоттки

        4. Реферат Модель Харрисона-Руззо-Ульмана (матричная модель)

        5. Реферат Здоровье – залог Успеха

        6. Реферат Управленческие решения. Секреты успеха

        7. Реферат ФОРМУЛА УСПЕХА ДЕЯТЕЛЬНОСТИ РУКОВОДИТЕЛЯ И СПЕЦИАЛИСТА

        8. Реферат ЛОЯЛЬНОСТЬ ПОТРЕБИТЕЛЕЙ КАК ФАКТОР УСПЕХА ВЕДЕНИЯ БИЗНЕСА

        9. Реферат Разработка стратегии развития предприятия на примере ООО Ключ Успеха

        10. Реферат ПАБЛИК РИЛЕЙШНЗ КАК СРЕДСТВО ОБЕСПЕЧЕНИЯ КОММЕРЧЕСКОГО УСПЕХА ФИРМЫ