Методика разработки критериально-ориентированных тестов по русскому языку и культуре речи для

студентов технического университета

При разработке методики будем исходить из того, что под критериально-ориентированным педагогическим тестом следует понимать систему заданий, позволяющую измерить уровень учебных достижений относительно полного объема знаний, умений и навыков, которые должны быть усвоены студентами.

Полный объем знаний, умений и навыков, которые должны быть усвоены в результате изучения курса обучения и овладение которыми измеряется тестом, называется областью содержания теста. С ней необходимо соотнести учебные достижения отдельных студентов, чтобы определить, какую долю учебного материала они усвоили. Выполнение критериально-ориентированного теста описывается в терминах содержания учебной дисциплины”.

Методика предполагает разработку критериально-ориентированных педагогических тестов (mastery tests) используемых для классификации студентов, разделения их на группы на основании заранее выбранного критерия. В качестве таких критериев рассматривается возможность выделения четырех групп студентов – не усвоивших, слабо усвоивших, хорошо усвоивших и полностью на отлично усвоивших содержание учебной дисциплины. Для отнесения к определенной группе студент должен достичь необходимого минимального для этой группы уровня овладения учебным материалом. Этот уровень устанавливается разработчиками теста и является критерием, на основании которого принимается решение относительно испытуемого. В тесте критерий выражается определенным количеством заданий, выполнение которых позволяет отнести его в одну из указанных групп.

1. Целеполагание и планирование при разработке

критериально-ориентированного теста

Разработка теста начинается с формулирования его цели, то есть определения того, что тест должен измерять. В случае создания теста по русскому языку и культуре речи измерению подлежат учебные достижения студентов технического университета по итогам изучения как отдельных разделов, так и всего курса названной дисциплины.

Первоначально цель тестирования формулируется в общем виде. Для того чтобы приступить к разработке тестовых заданий, необходимо ее конкретизировать. Должны быть четко и однозначно описаны все знания, умения и навыки, владение которыми проверяется с помощью теста, т.е. необходимо четкое описание области содержания теста. Если измеряется владение каким-либо одним видом знаний или умений, то такой тест называется гомогенным. Если измеряется владение разнородными знаниями, умениями, навыками, то такой тест называется гетерогенным. Описание области содержания гетерогенного теста обычно бывает намного объемнее, чем описание области содержания гомогенного теста. В любом случае требуется максимально четкое описание того, что должен знать и или уметь студент.

При разработке гомогенного теста легче добиться адекватной репрезентации области содержания. Поэтому удобнее разрабатывать тесты для проверки элементарных знаний, умений и навыков. Однако такие тесты имеют узкую сферу применение, когда необходимо оценить степень усвоения небольших разделов учебной дисциплины. Для того чтобы в гетерогенном тесте адекватно отразить область содержания, существуют два способа.

НА ГЛАВНУЮ

Первый способ состоит в том, что в тест включаются разнородные по содержанию задания и выполняются следующие требования.

Во-первых, в тесте пройденный учебный материал представляется в полном объеме, включаются все разделы изученной дисциплины, проверяются все знания, умения и навыки, которые должны быть приобретены студентами.

Во-вторых, разделы изученной дисциплины представляются в тесте пропорционально их удельному весу в учебном курсе: наиболее важные и объемные разделы представляются большим количеством заданий и наоборот.

В-третьих, тестовые задания должны однозначно относиться к области содержания теста так, чтобы для правильного ответа на задание было достаточно владения только тем материалом, который изучался.

Второй способ заключается в том, что гетерогенный тест составляется из гомогенных субтестов, каждый из которых измеряет владение только отдельным видом знаний или умений. При этом необходимо, чтобы набор cvб-тестов и тестовых заданий удовлетворял тем же требованиям, которые были перечислены выше в первом способе. Суммарный балл получается путем сложения баллов, полученных за выполнение каждого субтеста. Преимущество второго способа состоит в том, что баллы по субтестам позволяют проводить диагностику трудностей в обучении, выявляя разделы, хуже усвоенные студентами.

После формулирования цели теста и ее конкретизации в виде отдельных знаний, умений и навыков, переходят к разработке спецификации теста.

Спецификация теста представляет собой набор описательных схем, которые позволяют установить соответствие между тестовыми заданиями и областью содержания теста. Она обеспечивает репрезентативность заданий по отношению к области содержания. Спецификация пишется на предельно операциональном языке и представляет собой, по сути, правила, по которым могут разрабатываться задания. При разработке спецификации необходимо стремиться сделать эти привила настолько четкими, чтобы их можно было использовать как алгоритмы.

Спецификация является основным нормативным документом теста и выполняет следующие основные функции:

– дает разработчикам заданий правила, по которым можно конструировать задания;

– позволяет экспертам оценивать имеющиеся задания на предмет их соответствия области содержания теста и выбраковывать неудачные задания;

– помогает интерпретировать результаты тестирования, так как в ней ясно и конкретно объясняется, что измеряет тест;

– дает студенту (пользователю теста) четкое представление об измеряемых знаниях, умениях и навыках.

Основная проблема при написании спецификации состоит в обратном соотношении между широтой области содержания теста и четкостью спецификации. Если выбирается очень узкая область содержания, то довольно просто создать спецификацию, которая была бы краткой и в то же время четко задавала бы правила для написания заданий. Однако тесты с узкой областью содержания имеют ограниченное применение.

Предлагаемая ниже схема составления спецификации может включать пять (иногда шесть) разделов.

НА ГЛАВНУЮ

1. Общее описание. Оно состоит из одного-двух предложений, описывающих, что измеряет тест. Более детальное представление о предмете измерения можно получить, ознакомившись со всей спецификацией.

2. Пример инструкции и тестового задания. Здесь дается представление о том, как выглядит тест, и какая форма заданий в нем используется.

3. Характеристика формы заданий. В этом разделе указывается какие формы заданий используются в тесте.

4. Характеристика содержания заданий. Указывается содержание, которое может и должно входить в тестовые задания. Подробно описываются все аспекты содержания, представляющиеся существенными при разработке заданий, в том числе обычно указывается, какое смежное содержание не должно входить в тест.

5. Характеристика ответов. Содержание этого раздела зависит от выбора формы задания. Для заданий закрытой формы даются правила, по которым формулируются правильные ответы и варианты неправильных ответов. Для заданий открытой формы даются, если это необходимо, критерии для оценки ответа испытуемого как правильного. Для заданий на установление соответствия и на установление правильной последовательности данный раздел может не заполняться. Если выполнение заданий оценивается более сложным способом, чем присвоение баллов 0 или 1, то этот способ также указывается в данном разделе.

6. Дополнительный раздел. Он используется в тех случаях, когда в тест входит достаточно большой объем однородного материала, например, грамматических правил и т.п. Перечень однородных элементов содержания выносится в данный раздел, чтобы не загромождать другие разделы спецификации.

После составления спецификации разрабатывается план теста. Если, например тест состоит из четырех разделов, то вначале делается примерная раскладка необходимого числа заданий на каждый раздел, исходя из общего предельного числа, обычно не превышающий 30-60 коротких заданий разного уровня сложности. Число заданий, выделяемых на каждый раздел, зависит от его важности в изучении дисциплины (см. пример табл. 1).

Таблица 1.

Пример раскладки заданий

Разделы учебной дисциплины	Количество заданий	% к общему числу заданий
I	12	20
II	18	30
III	24	40
IV	6	10
Итого	60	100%

НА ГЛАВНУЮ

После разбивки заданий разрабатывается перечень задач, которые ставятся перед тестированием, например: А – умение давать определения; Б – знание законов, принципов, правил; В – умение применять их для решения предложенных примеров; Г – умение находить сходство и различия; Д – умение представлять материал в различных презентабельных формах. Если на проверку умения А отвести, к примеру 10% всех заданий, Б и В – 30%, г – 20% и Д – 10%, то общая раскладка числа заданий для рассмотренного примера принимает вид, представленный в таблице 2.

Таблица 2

Общая раскладка числа заданий

Умения и % заданий по их проверке	Номера разделов, процент и число заданий				Всего для проверки каждого умения
Умения и % заданий по их проверке	I–20%	II-30%	III-40%	IV-10%	Всего для проверки каждого умения
А-19%	1	2	2	1	6
Б-30%	4	5	7	1	17
В-30%	4	5	7	2	18
Г-20%	2	4	5	1	12
Д-29%	1	2	3	1	7
Итого заданий	12	18	24	6	60

НА ГЛАВНУЮ

2. Разработка тестовых заданий

После формулирования цели теста, составления спецификации и плана теста переходят к разработке тестовых заданий. При составлении заданий теста следует соблюдать ряд правил, необходимых для создания надежного, сбалансированного инструмента оценки успешности овладения определенными учебными дисциплинами или их разделами.

Правила для разработки тестовых заданий:

– необходимо проанализировать содержание заданий с позиции равной представленности в тесте разных учебных тем, понятий, правил, действий и т.д. Тест не должен быть перегружен второстепенными терминами, несущественными деталями с акцентом на механическую память, которая может быть задействована, если в тест включает точные формулировки из учебника или фрагменты из него;

– задания теста должны быть сформулированы четко, кратко и недвусмысленно, чтобы все студенты однозначно понимали смысл того, что у них спрашивается. Важно проследить, чтобы ни одно задание теста не могло служить подсказкой для ответа на другое;

– варианты ответов на каждое задание должны подбираться таким образом, чтобы исключались возможности простой догадки. или отбрасывания заведомо неподходящего ответа. Важно выбирать и наиболее приемлемую форму ответов на задания;

– учитывая, что задаваемый вопрос должен быть сформулирован коротко, желательно также кратко и однозначно формулировать ответы. Например, удобна альтернативная форма ответов, когда студент должен подчеркнуть одно из перечисленных решений "да - нет", "верно - неверно". Часто в задании делаются пропуски, которые должен заполнить испытуемый, или же выбирать из представленного набора ответов верный. Обычно на выбор предлагаются 4-5 вариантов ответа.

Вместе с этим педагогический тест должен удовлетворять всем необходимым критериям, обладать высокой надежностью и удовлетворительной валидностью. Описываемый этап разработки теста включает в себя как само написание заданий, так и их анализ экспертными методами для выявления наилучших и выбраковки неудачных.

Выделяют две группы методов анализа заданий: экспертные и математические. Математические методы применяются после проведения тестирования на основании полученного эмпирического материала, поэтому о них речь пойдет ниже. Сразу же после написания заданий их анализ проводится экспертными методами, которые позволяют оценить, в какой степени задания соответствуют по содержанию предмету измерения, т.е. действительно ли задания позволяют измерить именно те знания, умения и навыки, для которых разрабатывается тест. С другой стороны, экспертные методы анализа позволяют оценить задания с точки зрения их формы. В основе экспертных методов лежит соотнесение содержания и формы заданий с требованиями, изложенными в спецификации.

Приведем наиболее простую и в то же время достаточно эффективную процедуру анализа заданий с помощью экспертных методов. Как следует из названия, оценка заданий проводится экспертами. Чем больше количество экспертов, тем точнее оценка. На практике, если не предполагается очень широкое использование теста, вполне достаточно 4-5, в крайнем случае, 2-3 экспертов. В качестве экспертов должны выступать опытные преподаватели дисциплины, для которой разрабатывается тест. В предлагаемой процедуре в работе экспертов слиты воедино разработка заданий и их анализ.

Работа экспертов начинается с внимательного ознакомления со спецификацией теста. После этого эксперты приступают к разработке заданий на основе спецификации. Каждый должен написать столько заданий, сколько предполагается включить в тест. Таким образом, исходное количество заданий оказывается как минимум на 30% больше нужного, что дает возможность выбраковывать неудачные задания или создавать несколько вариантов теста, называемых тестовыми формами. При этом каждый эксперт отбирает задания по степени их трудности и различающей способности для включения в один из трех разделов теста – задания для слабых, хороших и сильных студентов. После этого каждому эксперту даются задания, разработанные другими экспертами. Он их оценивает на предмет соответствия требованиям спецификации, ГОС ВПО и программе изучения курса, а также включения в один из трех разделов теста. Задания, к которым не высказал замечаний ни один из экспертов, могут включаться в тест. Остальные задания нужно или улучшить путем переформулирования, или совсем исключить из дальнейшей работы.

После разработки и проведения экспертного анализа заданий получается первый вариант теста. Как правило, этот вариант бывает еще очень несовершенным. Чтобы повысить его качество, используются математические метода Для применения этих методов нужен эмпирический материал – результаты реальной проверки (апробации) теста в студенческих группах, которое называют пилотажным тестированием. После пилотажного тестирования осуществляется анализ тестовых заданий с использованием математических методов. Только после этого окончательно решается вопрос о включении того или иного задания в состав теста.

3. Оценка качества тестовых заданий с использованием

НА ГЛАВНУЮ

математических методов

Анализ заданий математическими методами позволяет получить информацию об их скрытых дефектах, которые не удается выявить с помощью экспертных методов. Сведения о характеристиках заданий, получаемые с помощью математического анализа, позволяют конструировать тесты с желаемыми статистическими свойствами. Особенно важна информация о характеристиках заданий при конструировании параллельных или эквивалентных форм теста, которые используются для оценки надежности теста и в практическом тестировании.

Среди многих характеристик, получаемых в результате математического анализа заданий наиболее важными являются две – трудность задания и различающая способность задания.

Трудность задания U является традиционным показателем при анализе задания. Трудность заданий теста – это характеристика задачи (пункта) теста, отражающая статистический уровень ее решаемости в данной выборке стандартизации. Обычно она рассчитывается как отношение числа испытуемых, правильно выполнивших задание, к общему числу испытуемых. Этот показатель меняется в пределах от 0 до 1. Его значения тем больше, чем ниже трудность задания. При разработке критериально-ориентированных тестов показатель трудности используется с целью конструирования тестов с желаемым уровнем трудности. Для повышения трудности теста в него включают больше заданий высокой трудности, а для понижения трудности – больше заданий низкой трудности.

Принято выделять субъективную и статистическую (объективную) трудности. Субъективная трудность задания связана с индивидуальным барьером, величина которого определяется как обстоятельствами (лимитом времени, доступностью инструкции и т. д.), так и уровнем сформированности необходимых для решения знаний, умений и навыков, психическим состоянием испытуемого и рядом других факторов. Воздействие комплекса этих факторов на результат выполнения теста снижает надежность и достоверность данных, поэтому важно принимать меры для выравнивания их воздействия с помощью направленного комплектования выборки и стандартной процедуры проведения тестирования.

Показателем трудности заданий как статистической трудности является доля лиц выборки, решивших и не решивших задание. Например, если только 15% студентов решили задачу, ее можно оценить как трудную для данной группы, если 85% - как легкую. Трудность заданий теста является относительной характеристикой, поскольку, зависит от особенностей выборки (возрастные, профессиональные, социально-культурные различия).

Подбор заданий по показателю трудности важен для успешного применения диагностической методики. Так, при выборе слишком трудных заданий валидность и надежность теста резко снизятся (ухудшение статистических характеристик оценивания из-за небольшого числа правильных решений, вероятность случайной оценки, влияние неудач на работу испытуемых). Слишком простые задания приведут к однообразию результатов (большинство справляется со всем набором пунктов теста), их незначительной вариативности, затрудняющей оценивание, могут вызвать негативное отношение к тесту.

Основная задача анализа трудности заданий теста сводится к выбору оптимальных по сложности пунктов теста, а значит, и упорядочиванию, отдельных заданий в нем. Обычно, если задачу решает большинство студентов, ее (как легкую) помещают в начале теста, если задачу решает незначительный процент испытуемых, то ее (как трудную) помещают в конце теста. Одну-две самых легких задач ставят перед основными задачами теста и используют в качестве примера. Расположение заданий по возрастанию ступеней трудности, выраженных долей или процентом лиц данной выборки, решивших соответствующую задачу, позволяет примерно определить порог трудности для индивидуального испытуемого, характеризующий его место в группе.

Основным показателем трудности заданий теста является индекс трудности (Ui,), вычисляемый по формуле:

НА ГЛАВНУЮ

;

где Ui - индекс трудности задания в процентах; Np - число студентов, правильно решивших задачу; N - общее число студентов.

При учете случайного успеха путем угадывания для задачи с предписанным ответом трудность заданий теста рассчитывается по формуле:

;

где Ui - индекс трудности задания в процентах; Nn- число студентов, не решивших задачу; Np - число студентов, правильно решивших задачу; N -общее число студентов; m- число вариантов ответов.

Практика педагогического тестирования свидетельствует, что максимум информации об индивидуальном уровне знаний, навыков и умений курсантов обеспечивают задания средней трудности (50%).

Различающая способность задания при разработке педагогических критериально-ориентированных тестов является особенно важной характеристикой, так как от нее в значительной степени зависит валидность теста. Эта характеристика показывает, насколько эффективно тестовое задание различает студентов, овладевших и не овладевших учебным материалом.

Показатели различающей способности задания также вычисляются на основании проведения пилотажного тестирования. Эти показатели требуют для расчета проведения двух серий измерений: повторного тестирования одной группы студентов или проведения теста на двух разных группах. При разработке теста для одной или небольшого количества групп студентов удобнее всего получить две серии измерений путем формирования контрастных групп. Эксперт выбирает из группы студентов только тех учащихся, про которых он может определенно утверждать, что они овладели или не овладели учебным материалом. Овладевшие материалом составляют "высокую" контрастную группу, а не овладевшие - "низкую" контрастную группу. Студенты, находящиеся в промежуточной стадии, не включаются в контрастные группы. Важно, чтобы контрастные группы были, no-возможности, эквивалентны по составу. Это значит, что в них в одинаковой пропорции должны быть представлены студенты разных возрастов, оба пола, с разным уровнем одаренности, представители разных социальных групп населения и т.д.

К сожалению, метод контрастных групп не может использоваться, если подавляющее большинство студентов твердо овладели или совсем не овладели учебным материалом. Тогда для получения двух серий измерений приходится прибегать к методам, более сложным организационно. Во-первых, можно протестировать одну и ту же группу учащихся до и после обучения. Во-вторых, можно протестировать две группы (эквивалентные по составу подобно контрастным группам), одна из которых прошла курс обучения, а вторая – нет.

Самый простой и известный показатель различающей способности задания по отношению к обучению Rp вычисляется как разность между долей испытуемых из "высокой" группы, правильно выполнивших задание и долей испытуемых из "низкой" группы, тоже правильно выполнивших задание. Данный показатель высчитывается по следующей формуле

;

НА ГЛАВНУЮ

где Rp – показатель различающей способности; N₁ N₂ – количество испытуемых, попавших соответственно в "высокую" и "низкую" контрастные группы; n₁ и n₂ – количество испытуемых, правильно выполнивших задание, соответственно из "высокой" и "низкой" групп.

Показатель может принимать значения от -1 до +1. Rp равный «+1» означает, что задание обладает максимальной различающей способностью. Rp равный – «0» означает, что задание совершенно не различает испытуемых, овладевших и не овладевших учебным материалом. Если Rp равный «–1», что встречается очень редко, то задание различает испытуемых, но инверсированно: правильно отвечают не овладевшие материалом, а овладевшие материалом отвечают неправильно. Существование таких заданий может свидетельствовать о своеобразной неадекватной структуре знаний у студентов.

Наряду с показателем Rp может быть использован показатель различающей способности задания Р_x, который считается более надежным. Он может рассматриваться как вероятность согласованности между результатом выполнения испытуемым задания и отнесением испытуемого к "высокой" или "низкой" контрастной группе. Показатель рассчитывается по формуле

где N₁ и N₂ – количество студентов, попавших соответственно в "высокую" и "низкую" контрастные группы; n₁ – количество испытуемых из "высокой" группы, правильно выполнивших задание; n₃ - количество испытуемых из "низкой" группы, неправильно выполнивших задание.

Наилучшие задания будут иметь значения Р_x равные единице. Минимальное значение показателя достигается в том случае, если между отнесением испытуемого к одной из групп и выполнением им задания не существует никакой связи.

4. Оценка валидности и надежности теста

В тестологии существуют две категории, связанные с качеством теста как инструмента измерения. Это валидность и надежность. Обычно валидность и надежность оцениваются с помощью математических методов и выражаются в специальных показателях.

Валидность теста выражает степень, в которой тест измеряет именно то, что он должен измерять. Разработчики не могут быть a priori уверены, что тест измеряет именно то, что должен. Намного проще формулировать цель, предмет измерения теста, чем подобрать тестовые задания таким образом, чтобы тест действительно измерял именно то, что необходимо разработчикам. Валидность теста – понятие, указывающее, что измеряет тест и насколько хорошо он это делает. Валидность по содержанию в сущности означает систематическую проверку содержания теста с тем, чтобы установить, соответствует ли оно репрезентативной выборке измеряемой области знаний, навыков или умений.

НА ГЛАВНУЮ

Процедура валидизации обычно применяется при оценке педагогических тестов, предназначенных для измерения того, насколько индивид овладел конкретными навыками или учебным предметом. В этом случае возникает проблема адекватности выборки всего множества заданий, поэтому тестируемая область знаний навыков или умений должна систематически проверяться с тем, чтобы существовала уверенность, что задания теста охватывают все ее главные аспекты и в правильной пропорции. Тест легко перенасытить теми аспектами исследуемой области, по которым легче составить объективные задания. Поэтому рассматриваемое содержание следует фиксировать заранее, а не после того, как тест уже составлен. Правильно составленные педагогические тесты должны соответствовать не только предмет обучения, но и его задачам. Содержание, следовательно, необходимо определять достаточно широко, включая в него помимо знания фактического материала такие важнейшие цели обучения, как применение изученных принципов и интерпретацию данных. Кроме того, валидность содержания больше зависит от релевантности тестовых ответов индивида, рассматриваемой в сфере обучения, чем от очевидной релевантности содержания тестовых заданий. Простая проверка теста может и не выявить те процессы, которые действительно обеспечивают выполнение теста студентом. Важно также избежать неоправданного обобщения выбранной темы тестирования. Если, например, орфографический тест с множественным выбором ответов измеряет способность распознавать правильно и неправильно написанные слова, то из этого не следует, что он также измеряет способность правильно написать диктант, количество орфографических ошибок в сочинении и другие аспекты грамотности письма.

В самом общем понимании валидность характеризует сам измерительный инструмент, и проверка этого аспекта валидности называется теоретической валидизацией. Проверка эффективности и точности этого инструмента есть второй аспект валидности и называется прагматической (или практической) валидизацией. При подборе внешнего критерия необходимо соблюдать принцип его релевантности изучаемому признаку, т.е. между диагностируемым свойством и жизненно важным критерием должно быть смысловое соответствие. Если, например, разрабатывается тест для измерения особенностей развития личностных качеств, то для критерия необходимо найти такую деятельность или отдельные операции, где именно эти качества реализуются.

Прогностическая валидность теста зависит не только от надежности теста, но и от надежности критерия. В практике не всегда удается подобрать высоконадежный критерий, а так как тесты подбираются по критерию, то часто возникает вопрос – какой валидностью обладал бы тест, если бы надежность критерия была максимальной, равной единице?

НА ГЛАВНУЮ

В критериально-ориентированном педагогическом измерении проблема обеспечения достаточной валидности стоит не очень остро. Валидность теста обуславливается валидностью отдельных заданий. Если составление спецификации, разработка и экспертный анализ тестовых заданий были проведены достаточно качественно, то это уже обеспечивает высокий уровень валидности. Для педагогического тестирования, различающая способность заданий практически тождественна их валидности. Поэтому отбор заданий с высокой различающей способностью также способствует повышению валидности теста.

В критериально-ориентированных тестах критерием их валидности является собственное содержание теста, одобренное опытными экспертами. При этом у эксперта должна быть уверенность в том, что:

– задания теста находятся в соответствии с ГОС ВПО и программой учебной дисциплины;

– задания теста охватывают не один какой-либо раздел, а всю программу курса;

– высока вероятность того, что студент, успешно ответивший на определенные задания теста, знает учебный предмет в соответствии с установленным стандартом.

Перечисленные пункты объединяются общей идеей - содержит ли тест задания, пригодные для оценки знаний по конкретной учебной дисциплине? Если в результате статистической проверки выявляется, что ответы на задания теста позволяют обоснованно судить о знаниях студентов, то считается, что тест валиден по содержанию.

При оценке теста на валидность необходимо выбрать контрольную группу студентов и провести оценку их знаний, навыков и умений по дисциплине как с использованием разработанного теста, так и с помощью экспертных оценок, выставленных преподавателем-экспертом традиционным образом без использования теста. После чего результаты студентов по вопросам теста и по оценкам экспертов оценивают с точки зрения их корреляции. Мера согласованности оценок по тесту и по экспертным суждениям указывает на меру валидности.

Что касается величины коэффициентов валидности. то она по разным причинам всегда ниже, чем коэффициент надежности. По мнению ведущих диагностов, низким признается коэффициент валидности порядка 0.20 – 0.30, средним - 0.30 – 0.50, высоким - выше 0.60.

В дальнейшем, когда отобраны валидные задания, в качестве критерия можно брать суммарный индивидуальный балл испытуемых по всем заданиям. Вновь вводимое в тест задание должно коррелировать с этим критерием.

Надежность теста. Под надежностью понимают согласованность результатов проведения теста на одной и той же группе испытуемых при разных условиях. Согласованность результатов нескольких тестирований – это их идентичность. Категория надежности тесно связана с точностью измерения: чём выше надежность теста, тем точнее результаты измерения.

Существует несколько типов надежности и, соответственно, несколько методов ее определения. Степень надежности теста выражается в специально разработанных показателях надежности.

Следует отметить, что высокое качество проведения отбора содержания для теста, составления спецификации, разработки тестовых заданий и их анализа способно обеспечить достаточно высокую надежность. Поэтому, если нет возможности использовать сложные математические методы, рекомендуется обратить особое внимание на вышеуказанные процедуры. Среди методов оценки надежности критериально-ориентированных тестов встречаются как очень сложные вычислительно и концептуально, так и довольно простые. Этот вид критериально-ориентированных тестов, используемый для разделения учащихся на группы по уровню их учебных достижений, чаще применяется на практике. Поэтому ниже будет дано описание наиболее простых и доступных методов оценки надежности критериально-ориентированных тестов.

Первый метод. Обычно для оценки надежности тест проводят два раза и сравнивают полученные тестовые баллы. Оба тестирование проводятся на одной и той же группе испытуемых, но меняются условия проведения: чаще всего либо время, либо набор заданий.

На основании проведения теста два раза на одной и той же группе испытуемых через некоторый промежуток времени получают оценку так называемой ретестовой надежности. По показателю ретестовой надежности судят, насколько стабильны результаты тестирования во времени. Пользоваться данным методом следует с осторожностью, особенное внимание следует уделять правильному выбору величины временного интервала между двумя тестированиями. Если временной интервал слишком короткий, то студенты будут просто помнить свои предыдущие ответы и, вероятнее всего, повторят, их. Если временной интервал слишком большой, то измеряемое свойство может измениться под влиянием каких-либо факторов. Тогда существенные различия между результатами первого и второго тестирований будут связаны не с низкой надежностью теста, а именно с изменением измеряемого свойства. Например, через значительный промежуток времени студенты могут выполнить тест лучше под влиянием дальнейшего изучения предмета или изучения смежных предметов. Ухудшение результатов может быть связано с забыванием усвоенного материала. Отсюда следуют два практических замечания. Во-первых, промежуток между двумя тестированиями должен быть не слишком большим и не слишком маленьким, например, одна-две недели. Во-вторых, оценка ретестовой надежности имеет смысл только когда предполагается, что степень усвоения учебного материала стабильна во времени. Такая ситуация чаще встречается при итоговом контроле, например, в конце курса обучения.

НА ГЛАВНУЮ

Второй метод оценки надежности, используемый в критериально-ориентированном измерении, основан на двух формах одного теста. Формы теста представляют собой, по сути, два теста, идентичных по содержанию и формальным характеристикам. Задания для разных форм одного и того же теста разрабатываются на основе одной спецификации. В обе формы входит одинаковое количество заданий. Желательно, чтобы задания были уравнены по таким характеристикам, как трудность и различающая способность, что позволит повысить надежность теста. Формы теста не только используются для оценки его надежности, но и удобны при реальном проведении тестирования. Их использование позволяет снизить вероятность списывания и передачи студентами информации о тесте друг другу.

После проведения тестирования с использованием двух форм одного теста необходимо принять решение относительно того, в какую группу поместить каждого студента. Исходя из того, что ранее были определены четыре таких группы – не усвоившие, слабо усвоившие, хорошо усвоившие и полностью усвоившие программу дисциплины, можно результаты тестирования представить в восьмиклеточной таблице сопряженности (см. таблицу 3). Решение о включении студента в одну из ячеек таблицы является результатом тестирования, поэтому надежность в данном случае выражается не в согласованности тестовых баллов, а в согласованности решений относительно испытуемых.

Таблица 3

Форма Б

Не

усвоившие

материал

Слабо

усвоившие

материал

Хорошо

усвоившие

материал

Полностью

усвоившие

материал

Усвоившие

материал

полностью

Р₃₀

Р₃₁

Р₃₂

Р₃₃

Форма А

Хорошо

усвоившие

материал

Р₂₀

Р₂₁

Р₂₂

Р₂₃

Слабо

усвоившие

материал

Р₁₀

Р₁₁

Р₁₂

Р₁₃

Не

усвоившие

материал

Р₀₀

Р₀₁

Р₀₂

Р₀₃

НА ГЛАВНУЮ

где P10, Р11, Р00, Р01 и т.д. – вероятности попадания испытуемого в соответствующую клетку таблицы на основании результатов тестирования. Оценки этих, величин рассчитываются как количество студентов, попавших в соответствующую клетку таблицы, де ленное на общее количество испытуемых.

Основываясь на таблице сопряженности, можно вычислить наиболее простые и в то же время полезные показатели согласованности решений, предложенные специально для критериально-ориентированных тестов. Один из них Р – вероятность принятия согласованного решения. Он представляет собой сумму вероятностей принятия согласованных решений по отнесению испытуемых в каждую из групп и вычисляется по формуле

Значения Р изменяются от 0 до +1. Интерпретация показателя очевидна. Например, если Р – 0,7, это значит, что 70% решений относительно испытуемых оказались согласованы, то есть совпали по обеим формам теста, а 30% оказались разными для форм А и Б. Чей выше надежность, тем выше значения показателя. Если Р – 1, то надежность теста максимальна – все решения, принимаемые по двум формам, совпадают.

Существует одна трудность в интерпретации показателя. В зависимости от структуры полученных данных, минимально возможное значение Р может быть больше нуля, в некоторых случаях оно может достигать 0,5. Это явление связано с тем, что согласованное решение относительно испытуемого может быть принято случайно. Если тестовые баллы, полученные по двум тестированиям, статистически независимы, то и решения, принятые на их основе, статистически независимы. Тем не менее некоторые решения оказываются согласованными благодаря случайному совпадению. Вероятность такого совпадения Р_с называется случайной согласованностью и вычисляется по формуле

В общем виде расчет вероятности Р_с можно представить в следующем виде

Показатель К (каппа) учитывает вероятность случайного принятия согласованного решения. Он вычисляется по формуле

Знаменатель формулы для вычисления К показывает, насколько может возрасти согласованность решений по сравнению со случайной согласованностью, если решения по двум тестированиям окажутся статистически зависимыми, делитель формулы показывает, насколько реально возросла согласованность решений по сравнению со случайной согласованностью. Показатель К можно интерпретировать как отношение реального прироста согласованности решений к теоретически возможному приросту. Показатель К может принимать значения от –1 до +1. Так К равное «–1» означает, что решения, принятые на основе двух тестирований, полностью статистически зависимы и, следовательно, полностью согласованны. При K = 0 решения статистически независимы, но из этого не следует, что они не согласованны. Их согласованность может быть довольно высокой, но это будет случайная согласованность. Отрицательные значения K может принимать в редких случаях, когда вероятность согласованного решения оказывается ниже вероятности случайного согласованного решения.

Значения K всегда ниже значений Р и зависят от величины критериального балла. Если выбирается очень низкий или очень высокий критериальный балл, то K принимает минимальные значения, а Р – максимальные, то есть высокая согласованность решений достигается за счет высокой случайной согласованности. Если же критериальный балл находится в области средних значений распределения тестовых баллов, то значения Р и K сближаются за счет снижения вероятности случайной согласованности.

При оценке надежности критериально-ориентированного теста рекомендуется использовать оба показателя Р и K, так как они отличаются друг от друга по смыслу. Вероятность принятия согласованного решения Р показывает реальную согласованность решений, что само по себе важно, однако в эту величину входит и согласованность решений, полученная случайно. Показатель K учитывает случайную согласованность, но не дает представления о реальной согласованности решений.

Какие значения показателей можно считать приемлимыми для качественного теста? На этот вопрос нет однозначного ответа. Во многом ответ зависит от целей, с которыми проводится тестирование, реальных возможностей разработчиков, величины критериального балла и других факторов. Чем более ответственные решения принимаются на основе теста, тем выше должна быть его надежность. В самом общем плане можно рассматривать значения Р, равные 0,8–0,9, как свидетельство высокой надежности теста, однако в ряде случаев допустимы и более низкие значения.

5. Заключительные этапы разработки теста

После проведения анализа заданий математическими методами и оценки качества теста обычно оказывается, что тест требует доработки – удаления неудачных заданий, включения дополнительных заданий с требуемыми свойствами, повышения валидности или надежности. С учетом выявленных недостатков составляется новый вариант теста и опять проводится пилотажное тестирование, чтобы получить эмпирические данные для нового математического анализа. Цикл пилотажное тестирование – математический анализ должен "прокручиваться" до тех пор, пока не получится вариант теста с удовлетворяющими разработчика характеристиками. Наличие банка заданий, существенно превосходящего по объему количество заданий, используемое для теста, облегчает эту работу.

Если тест предназначается для использования – в рамках одного учебного заведения, – то процесс разработки теста можно упростить. Требования к качеству теста – степени его валидности и надежности могут быть несколько снижены. В этом случае можно прибегнуть к следующему приему. В первый вариант теста включается больнее количество заданий, чем это необходимо. После математического анализа заданий и оценка качества теста исключаются неудачные задания, так чтобы повысить качество теста. Получается новый, улучшенный вариант теста. После этого на основании только оставленных заданий пересчитываются индивидуальные баллы испытуемых, которые и принимаются за окончательный результат тестирования. Если тест разрабатывается для проверки учебных достижений по стандартному курсу, то это дает возможность улучшать тест из года в год по результатам тестирования новых учебных групп.

6. Определение критериев для выставления оценки студентам

по результатам тестирования

Для теста из двенадцати заданий, включающего в себя три уровня сложности, оценка “удовлетворительно” выставляется при условии решения студентом не менее 7 заданий (58% от всех заданий), из них не менее 3-х заданий первого уровня и не менее 4 заданий двух других более высоких уровней.

Оценка “хорошо” выставляется при условии решения не менее 9 заданий (75%) при условии решения всех заданий первого уровня и не менее 3 задания второго уровня.

Оценка “отлично” выставляется при условии решения не менее 10 заданий (83%), при условии решения не менее 4 заданий первого уровня, 3 заданий второго уровня и 3 заданий третьего уровня.

Пример раскладки заданий

Разделы учебной

Количество заданий

I

II

Итого

Таблица 2

Общая раскладка числа заданий

Номера разделов, процент и число заданий

I–20%

II-30%

III-40%

Р21

Р₂₁