Код уникальной десятичной классификации: УДК 373.4

Аннотация. Результаты обучения учащихся являются одним из важнейших показателей эффективности работы учителя. Информация о результатах обучения учеников является индикатором того, насколько текущая система обучения обеспечивает хорошую производительность, и обеспечение обратной связи является каналом, через который эта производительность может быть улучшена. Поэтому важно с ответственностью относиться к подбору и разработке инструментов, с помощью которых осуществляется оценивание учащихся. Сегодня существует много способов проверки качества тестов и тестовых заданий. Есть специально разработанное программное обеспечение, при помощи которого педагог-предметник, не имея специальной подготовки, может самостоятельно проделать анализ качества тестовых заданий. Разработка качественного тестового инструментария — это длительный, трудоемкий и дорогостоящий процесс. Стандартизированные тесты для большинства дисциплин ещё не разработаны, а разработанные обычно имеют очень низкое качество.

Ключевые слова: тест, тестовые задания, теории тестирования, инструменты оценивания, качество обучения

Измерение результатов обучения учащихся необходимо не только с целью контроля и диагностики, но и для повышения качества обучения учащихся. Таким образом, оценивание рассматривается, как инструмент, ориентированный на оказание помощи учителям для улучшения качества обучения учащихся.
Результаты оцениваний дают широкий спектр ценной информации о том: (а) какой уровень знаний и навыков обучающихся; (б) каковы сильные и слабые стороны в знаниях и навыках школьников; (в) есть ли конкретные слабые подгруппы, (г), какие факторы связанны с успеваемостью учащихся; (д) соблюдаются ли минимальные требования и стандарты, и (е) меняются ли достижения учащихся с течением времени [1, с. 80].

Таким образом, оценивание можно рассматривать, как инструмент ориентированный на оказание помощи и для улучшения качества образования.

К сожалению, сейчас разработано недостаточное количество стандартизированных тестов, которые можно использовать для оценки уровня подготовленности учащихся. В последствии результаты обучения учащихся оцениваются тестами, не имеющими надлежащего качества. При этом решения, выносимые по результатам этих тестов, иногда бывают судьбоносными.
Разработка тестовых материалов требует от специалистов не только отличных содержательных знаний в предметной области, но и специальной подготовки в области методов разработки оценочных материалов и оценки их качества. Специалисту-предметнику необходимо не только определить уровень овладения учащимся конкретной частью предметной области, но также сделать это максимально быстро и с минимальным количеством заданий.

В конструировании теста окончательный набор заданий обычно определяется на основе анализа заданий. В заданиях может анализироваться как их качественная сторона, т. е. их содержание и форма, так и количественная, т.е. их статистические свойства. Качественный анализ включает рассмотрение содержательной валидности и оцениванию заданий с точки зрения эффективных методов их составления. Количественный анализ предполагает главным образом измерение трудности и различительной способности заданий.

  • Разработка теста требует выполнения некоторых важнейших шагов [2].
  • составление общего плана теста (определяется содержание и составляется спецификация)
  • разработка вопросов
  • выпускается сам тест
  • апробация теста (когда тест составлен, проводится на маленькой репрезентативной выборке)
  • проверка качества теста и тестовых заданий (на полученных данных).
  • Цель апробационного тестирования – проверка функционирования заданий и всего теста в целом, оценивание его надежности и валидности.

В тесте должны быть собраны такие задания, которые обладают системообразующими свойствами. Это в первую очередь общая принадлежность заданий к одной и той же учебной дисциплине, одному разделу или теме.

Трудность теста в целом, разумеется, непосредственно зависит от трудности заданий, из которых он состоит [3, с. 418].

При конструировании теста общая цель состоит в том, чтобы достичь той минимальной его длины, которая приведет к оценкам необходимой степенью надежности и валидности для намеченного использования [3, с. 420]. Анализ заданий позволяет сократить тест, одновременно повысить его валидность и надежность [4, с. 228].

Для характеристики качества заданий в количественных значениях оцениваются параметры заданий. Это обычно трудность задания и различительная способность задания (дискриминативность).
Чаще всего трудность задания определяется процентом испытуемых, давших правильный ответ. Чем легче задание, тем выше этот процент. Обычно задания располагаются в порядке нарастания трудности, так, чтобы учащийся начинал с легких заданий и затем переходил ко все более сложным. Задания, с которыми не справился не один ученик, или, наоборот, на которые все ответили правильно не влияют на вариативность тестовых результатов, они не дают какой-либо информации и ничего не прибавляют к надежности или валидности теста. Но даже такие задания, иногда, включают в тест, в зависимости от целей оценки.

Другим не мало важным параметром задания является дискриминативность задания. Его также называют дифференцирующей способностью задания. Это показатель того насколько эффективно задание различает испытуемых, которые имеют относительно высокие достижения по критерию, интересующему разработчиков или пользователей теста, и тех, чьи достижения относительно низкие. Задача состоит в том, чтобы отобрать те задания, которые будут хорошо дискриминировать испытуемых, то есть задания, на которые у испытуемых с высокими баллами есть высокая вероятность правильного ответа, а у испытуемых с низкими баллами, наоборот, эта вероятность будет низкой [5, с. 310].

Для оценки выше представленных параметров заданий существуют две теории тестирования – классическая теория тестирования (КТТ) и современная теория тестирования (IRT). КТТ позволяет оценить истинный балл, IRT – уровень подготовленности.

В результате анализа тестовых заданий в КТТ получают статистические характеристики заданий, оценивается качество заданий с целью дальнейшего использования. Такой анализ позволяет идентифицировать некачественные задания (например, задания с низкой дискриминативностью, или задания с неработающими дистракторами).

В классической теории тестирования трудность задания определяется просто как коэффициент решаемости задания. Рекомендуется оставлять задания с коэффициентом трудности от 0,2 до 0,8. Очень трудные (меньше 0,2) и очень лёгкие (больше 0,8) задания нужно пересмотреть. В зависимости от цели оценивания очень трудные и очень легкие задания могут не только не мешать, но иногда повышать уровень инструмента в целом. Например, если нужно выделить из большой выборки несколько учащихся с наивысшим уровнем подготовленности, очень сложные задания в этом помогут. А очень лёгкие задания, хотя и не дают никакой ценной информации, их иногда оставляют для мотивирования учащихся с низким уровнем подготовленности на дальнейшее выполнение теста.

Тестовые задания закрытого типа сопровождаются несколькими вариантами ответов, из которых верным, как правило, является только один. Неверные варианты ответов – дистракторы – должны выглядеть вполне правдоподобными и быть одинаково привлекательными для незнающих учеников.  Анализ функционирования дистракторов довольно подробно предоставляют такие программные обеспечения, как IATA, winsteps, Iteman и др.

Цель тестирования в современной теории тестирования состоит в получении объективных оценок уровня подготовленности испытуемых и трудностей заданий теста. Объективность оценок подразумевает выполнение условий инвариантность оценок испытуемых относительно тестовых заданий, по результатам выполнения которых эти оценки получены, и инвариантность характеристик тестовых заданий относительно контингента испытуемых, по результатам тестирования которых эти характеристики получены [3, с. 422].

Основная цель теории современной теории тестирования состоит в разработке математической модели процесса тестирования, параметрами которой, служат характеристики участников тестирования и самого теста. В основе всех моделей лежит функция успеха, определяющая зависимость вероятности правильного выполнения задания от уровня подготовленности участника тестирования и параметров задания [4, с. 350].

Современная теория тестирования дает возможность сравнить уровни способностей учащихся с трудностью заданий теста на одной общей шкале. Это дает возможность понять насколько соответствуют уровни подготовленности учащихся и трудности заданий, содержащихся в тесте.

Часто бывает потребность в изучении функционирования заданий по отношению к различным группам. Основаниями для выделения различных групп участников тестирования могут быть пол участника, регион проживания, страна проживания, язык тестирования, форма тестирования (бланковая или компьютерная). Для выявления такого рода проблемных заданий существует DIF анализ (Differential Item Functioning) [6, с. 295]. Задание демонстрирует DIF, если участники тестирования с одинаковым уровнем подготовленности, принадлежащие к различным группам, имеют различные шансы выполнить задание правильно. Другими словами, задание по-разному функционирует для различных групп тестируемых, и представители одной из групп могут быть несправедливо оценены. Например, мальчики и девочки с одинаковым уровнем подготовленности могут иметь разную вероятность правильного ответа на задание. Причиной этому может быть, например, некорректная формулировка задания, которое более привлекательна для одной группы учащихся, чем для другой.

Глубинное изучение выше описанных показателей могут существенно облегчить работу учителя и улучшить процесс обучения в целом.

В последние годы психометрия довольно глубоко изучается не только за рубежом, но и у нас в России. Создается специальное программное обеспечение, с помощью которого анализ заданий и создание качественных измерителей становится все доступнее для всех разработчиков, независимо от предметной области. При помощи специальных компьютерных программ оценки качества тестов и тестовых заданий работать с психометрическими моделями стало возможно не только для специалистов экспертов, но и для специалистов-предметников. Например, для обработки и анализа качества заданий разработана программа IATA. В программе есть возможность получить параметры заданий и по классической теории тестирования, и по современной теории тестирования. Разработчик может манипулировать заданиями, добавлять и удалять задания. При этом каждый раз рассчитывать параметры и надежность показателей заново [6, с. 260]. Это дает возможность оптимизировать количество заданий в тесте, при этом получая максимально высокий показатель надежности.

Все понимают, что управленческие решения в образовании могут быть приняты только основываясь на эмпирических данных результатов надежных образовательных измерений. Обратная связь по результатам образовательных оцениваний необходима для улучшения качества образования. Хотим или не хотим переход к более качественной и более квалифицированной системе должен быть осуществлен. Другой вопрос уже какими шагами этот процесс будет осуществляться: медленно, по нескольким этапам или сразу. Но одно ясно, что продвижение должно быть с обратной стороны: от оценивания к качеству, а не наоборот.

Quality of instruments of estimation of results of training of pupils

V.A. Mkrtchyan,
the graduate student, the junior researcher of laboratory of professional development in formation of institute of the GAOU VO MGPU system projects

Abstract. Student learning outcomes are one of the most important indicators of the effectiveness of teacher’s work. Information about the learning outcomes of students is an indicator of how the current education system provides good performance and providing feedback is the channel through which the productivity can be improved. Therefore, it is important to take responsibility for the selection and development of assessment tools. Today there are many ways of checking the quality of tests and test items. There is a specially designed software through which teachers, without special training, can do the quality analysis of test items. The development of high quality test instrumentation is a time-consuming and expensive process. Standardized tests for most disciplines has not yet been developed and designed typically have very low quality.

Key words: test, assessment tools, quality of education tests, test theory, test items, assessment system, quality of education, special software for analyzing test items.