НА ГЛАВНУЮ

Методика разработки критериально-ориентированных тестов по русскому языку и культуре речи для

студентов технического университета

 

 

При разработке методики будем исходить из того, что под критериально-ориентированным педагогическим тестом следует понимать систему заданий, позволяющую измерить уровень учебных достижений относительно полного объема знаний, умений и на­выков, которые должны быть усвоены студентами.

Полный объем знаний, умений и навыков, которые должны быть усвоены в результате изучения курса обучения и овладение которыми измеряется тестом, на­зывается областью содержания теста. С ней необходимо соотнести учеб­ные достижения отдельных студентов, чтобы определить, какую долю учебного материала они усвоили. Выполнение критериаль­но-ориентированного теста описывается в терми­нах содержания учебной дисциплины”.

Методика предполагает разработку критериально-ориентированных педагогических тестов (mastery tests) используемых для классификации студентов, разделения их на группы на основании заранее выбранного критерия. В качестве таких критериев рассматривается возможность выделения четырех групп студентов –­ не усвоивших, слабо усвоивших, хорошо усвоивших и полностью на отлично усвоивших содержание учебной дисциплины. Для отнесения к определенной группе студент должен достичь необходимого минимального для этой группы уровня овладения учебным материалом. Этот уровень устанавли­вается разработчиками теста и является критерием, на основа­нии которого принимается решение относительно испытуемого. В тесте критерий выражается определенным количеством заданий, выполнение которых позволяет отнести его в одну из указанных групп.

 

1. Целеполагание и планирование при разработке

критериально-ориентированного теста

Разработка теста начинается с формулирования его цели, то есть определения того, что тест должен измерять. В случае создания теста по русскому языку и культуре речи измерению подлежат учебные достижения студентов технического университета по итогам изучения как отдельных разделов, так и всего курса названной дисциплины.

Первоначально цель тестирования формулируется в общем виде. Для того чтобы приступить к разработке тестовых заданий, необходимо ее конкре­тизировать. Должны быть четко и однозначно описаны все знания, умения и навыки, владение которыми проверяется с по­мощью теста, т.е. необходимо четкое описание об­ласти содержания теста. Если измеряется владение каким-либо одним видом знаний или умений, то такой тест называется го­могенным. Если измеряется владение разнород­ными знаниями, умениями, навыками, то такой тест называется гетерогенным. Описание области содержания гетерогенного теста обычно бывает намного объемнее, чем описание области содержания гомогенного теста. В любом случае требуется максимально четкое описание того, что должен знать и или уметь студент.

При разработке гомогенного теста легче добиться адекватной репрезентации области содержания. Поэтому удобнее разрабатывать тесты для проверки элементарных знаний, умений и навыков. Однако такие тесты име­ют узкую сферу применение, когда необ­ходимо оценить степень усвоения небольших разделов учебной дисциплины. Для того чтобы в гетерогенном тесте адекватно отразить область содержания, существуют два способа.

НА ГЛАВНУЮ

Первый способ состоит в том, что в тест включаются раз­нородные по содержанию задания и выполняются следующие требования.

Во-первых, в тесте пройденный учебный материал представляется в полном объеме, включаются все разделы изученной дисциплины, проверяют­ся все знания, умения и навыки, которые должны быть приобретены студентами.

Во-вторых, разделы изученной дисциплины представляются в тесте пропорционально их удельному весу в учебном курсе: наиболее важные и объемные разделы представляются большим количеством заданий и наоборот.

В-третьих, тестовые задания должны однозначно относиться к облас­ти содержания теста так, чтобы для правильного ответа на задание было дос­таточно владения только тем материалом, который изучался.

Второй способ заключается в том, что гетерогенный тест составляется из гомогенных субтестов, каждый из которых измеряет владение только от­дельным видом знаний или умений. При этом необходимо, чтобы набор cvб-тестов и тестовых заданий удовлетворял тем же требованиям, которые были перечислены выше в первом способе. Суммарный балл получается путем сложения баллов, полученных за выполнение каждого субтеста. Преимуще­ство второго способа состоит в том, что баллы по субтестам позволяют про­водить диагностику трудностей в обучении, выявляя разделы, хуже усвоен­ные студентами.

После формулирования цели теста и ее конкретизации в виде отдельных знаний, умений и навыков, переходят к разра­ботке спецификации теста.

Спецификация теста представляет собой набор описательных схем, которые позволяют установить соответствие между тесто­выми заданиями и областью содержания теста. Она обеспечивает репрезентативность заданий по отношению к области содержа­ния. Спецификация пишется на предельно операциональном языке и представляет собой, по сути, правила, по которым могут разрабатываться задания. При разработке спецификации необходимо стремиться сде­лать эти привила настолько четкими, чтобы их можно было использовать как алгоритмы.

Спецификация является основным нормативным документом теста и выполняет следующие основные функции:

– дает разработчикам заданий правила, по которым можно кон­струировать задания;   

– позволяет экспертам оценивать имеющиеся задания на предмет их соответствия области содержания теста и выбраковывать неудачные задания;

– помогает интерпретировать результаты тестирования, так как  в ней ясно и конкретно объясняется, что измеряет тест;

– дает студенту (пользователю теста) четкое представление об измеряемых знаниях, умениях и навыках.

Основная проблема при написании спецификации состоит в обратном соотношении между широтой области содержания теста и четкостью спецификации. Если выбирается очень узкая об­ласть содержания, то довольно просто создать спецификацию, которая была бы краткой и в то же время четко задавала бы правила для написания заданий. Однако тесты с узкой областью содержания имеют ограниченное применение.

Предлагаемая ниже схема составления спецификации может включать пять (иногда шесть) разделов.

НА ГЛАВНУЮ

1. Общее описание. Оно состоит из одного-двух предложений, описывающих, что измеряет тест. Более детальное представление о предмете измерения можно получить, ознакомившись со всей спецификацией.

2. Пример инструкции и тестового задания.  Здесь  дается представление о том, как выглядит тест, и какая форма зада­ний в нем используется.

3. Характеристика формы заданий.  В этом разделе указывается какие формы заданий используются в тесте.

4. Характеристика содержания заданий. Указывается содержание,  которое может и должно входить в тестовые задания. Подроб­но  описываются все аспекты содержания, представляющиеся существенными при разработке заданий, в том числе обычно указывается, какое смежное содержание не должно входить в тест.

5. Характеристика ответов. Содержание этого раздела зависит от выбора формы задания. Для заданий закрытой формы даются правила, по которым формулируются правильные ответы и ва­рианты неправильных ответов. Для заданий открытой формы даются, если это необходимо, критерии для оценки ответа испытуемого как правильного. Для заданий на установление соответствия и на установление правильной последователь­ности данный раздел может не заполняться. Если выполнение заданий оценивается более сложным способом, чем присвоение баллов 0 или 1, то этот способ также указывается в данном разделе.

6. Дополнительный раздел. Он используется в тех случаях, ког­да в тест входит достаточно большой объем однородного ма­териала, например, грамматических правил и т.п. Перечень однородных элементов содержания выносится в данный раздел, чтобы не загромождать другие разделы спецификации.

После составления спецификации разрабатывается план теста. Если, например тест состоит из четырех разделов, то вначале делается примерная раскладка необходимого числа заданий на каждый раздел, исходя из общего предельного числа, обычно не превышающий 30-60 коротких заданий разного уровня сложности. Число заданий, выделяемых на каждый раздел, зависит от его важности в изучении дисциплины (см. пример табл. 1).

 

Таблица 1.

 

Пример раскладки заданий

Разделы учебной

дисциплины

Количество заданий

% к общему числу

заданий

I

12

20

II

18

30

III

24

40

IV

6

10

Итого

60

100%

НА ГЛАВНУЮ

 

После разбивки заданий разрабатывается перечень задач, которые ставятся перед тестированием, например: А – умение давать определения; Б – знание законов, принципов, правил; В – умение применять их для решения предложенных примеров; Г – умение находить сходство и различия; Д – умение представлять материал в различных презентабельных формах. Если на проверку умения А отвести, к примеру 10% всех заданий, Б и В – 30%, г – 20% и Д – 10%, то общая раскладка числа заданий для рассмотренного примера принимает вид, представленный         в таблице 2.

Таблица 2

Общая раскладка числа заданий

Умения и % заданий по их проверке

Номера разделов, процент и число заданий

Всего для проверки

каждого умения

I–20%
II-30%
III-40%

IV-10%

А-19%

1

2

2

1

6

Б-30%

4

5

7

1

17

В-30%

4

5

7

2

18

Г-20%

2

4

5

1

12

Д-29%

1

2

3

1

7

Итого

заданий

12

18

24

6

60

НА ГЛАВНУЮ

 

 

2. Разработка тестовых заданий

После формулирования цели теста, составления спецификации и плана теста переходят к разработке тестовых заданий. При составлении заданий теста следует соблюдать ряд правил, необходимых для создания надежного, сбалансированного инструмента оценки успешно­сти овладения определенными учебными  дисциплинами или их разделами.

Правила для разработки тестовых заданий:

– необходимо проанализировать содержание заданий с позиции равной представленности в тесте разных учебных тем, понятий, правил, действий и т.д. Тест не должен быть перегружен второстепенными терминами, несущественными деталями с акцентом на механическую память, которая может быть задейст­вована, если в тест включает точные формулировки из учебника или фраг­менты из него;

– задания теста должны быть сформулированы четко, кратко и недвусмысленно, чтобы все студенты однозначно понимали смысл того, что у них спрашивается. Важно проследить, чтобы ни одно задание теста не мог­ло служить подсказкой для ответа на другое;

– варианты ответов на каждое задание должны подбираться таким образом, чтобы исключались возможно­сти простой догадки. или отбрасывания заведомо неподходящего ответа. Важно выбирать и наиболее приемлемую форму ответов на задания;

– учиты­вая, что задаваемый вопрос должен быть сформулирован коротко, желатель­но также кратко и однозначно формулировать ответы. Например, удобна альтернативная форма ответов, когда студент  должен подчеркнуть одно из перечисленных решений "да - нет", "верно - неверно". Часто в задании дела­ются пропуски, которые должен заполнить испытуемый, или же выбирать из представленного набора ответов верный. Обычно на выбор предлагаются 4-5 вариантов ответа.

Вместе с этим педагогический тест должен удовлетворять всем необходимым критериям, обладать высокой надежностью и удовлетворительной валидностью. Описываемый этап разработки теста включает в себя как само написание заданий, так и их анализ экспертными методами для выявления наилучших и выбраковки неудачных.

Вы­деляют две группы методов анализа заданий: экспертные и ма­тематические. Математические методы применяются после прове­дения тестирования на основании полученного эмпирического материала, поэтому о них речь пойдет ниже. Сразу же после написания заданий их анализ проводится экспертными методами, которые позволяют оценить, в какой степени задания соот­ветствуют по содержанию предмету измерения, т.е. действи­тельно ли задания позволяют измерить именно те знания, уме­ния и навыки, для которых разрабатывается тест. С другой стороны, экспертные методы анализа позволяют оценить задания с точки зрения их формы. В основе экспертных методов лежит соотнесение содержания и формы заданий с требованиями, изло­женными в спецификации.

Приведем наиболее простую и в то же время достаточно эффективную процедуру анализа заданий с помощью экспертных методов. Как следует из названия, оценка заданий проводится экспертами. Чем больше количество экспертов, тем точнее оценка. На практике, если не предполагается очень широкое использование теста, вполне достаточно 4-5, в крайнем случае, 2-3 экспертов. В качестве экспертов должны выступать опытные преподаватели дисциплины, для которой разрабатывается тест. В предлагаемой процедуре в работе экспертов слиты воедино разработка заданий и их анализ.

Работа экспертов начинается с внимательного ознакомле­ния со спецификацией теста. После этого эксперты приступают к разработке заданий на основе спецификации. Каждый должен написать столько заданий, сколько предполагается включить в тест. Таким образом, исходное количество заданий оказывается как минимум на 30% больше нужного, что дает возможность выбра­ковывать неудачные задания или создавать несколько вариантов теста, называемых тестовыми формами. При этом каждый эксперт отбирает задания по степени их трудности и различающей способности для включения в один из трех разделов теста – задания для слабых, хороших и сильных студентов. После этого каждому эксперту даются задания, разработанные другими экспертами. Он их оценивает на предмет соответствия требованиям спецификации, ГОС ВПО и программе изучения курса, а также включения в один из трех разделов теста. Задания, к которым не высказал замечаний ни один из экспертов, могут включаться в тест. Остальные задания нужно или улучшить путем переформулирования, или совсем исключить из дальнейшей работы.

После разработки и проведения экспертного анализа зада­ний получается первый вариант теста. Как правило, этот вари­ант бывает еще очень несовершенным. Чтобы повысить его ка­чество, используются математические метода Для применения этих методов нужен эмпирический материал – результаты реальной проверки (апробации) теста в студенческих группах, которое называют пилотажным тестированием. После пилотажного тестирования осуществляется анализ тестовых заданий с использованием математических методов. Только после этого окончательно решается вопрос о включении того или иного задания в состав теста.

 

3. Оценка качества тестовых заданий с использованием

НА ГЛАВНУЮ

математических методов

Анализ заданий математическими методами позволяет полу­чить информацию об их скрытых дефектах, которые не удается выявить с помощью экспертных методов. Сведения о характе­ристиках заданий, получаемые с помощью математического ана­лиза, позволяют конструировать тесты с желаемыми статисти­ческими свойствами. Особенно важна информация о характе­ристиках заданий при конструировании параллельных или экви­валентных форм теста, которые используются для оценки надеж­ности теста и в практическом тестировании.

Среди многих характеристик, получаемых в результате ма­тематического анализа заданий наиболее важными являются две – трудность зада­ния и различающая способность задания.

Трудность задания U является традиционным показателем при анализе задания. Трудность заданий теста – это характеристика задачи (пункта) теста, отражающая статистический уровень ее решаемости в данной выборке стан­дартизации. Обычно она рассчитывается как отношение числа испытуе­мых, правильно выполнивших задание, к общему числу испытуе­мых. Этот показатель меняется в пределах от 0 до 1. Его зна­чения  тем больше, чем ниже трудность задания. При разработке критериально-ориентированных тестов показатель трудности используется с целью конструиро­вания тестов с желаемым уровнем трудности. Для повышения труд­ности теста в него включают больше заданий высокой труд­ности, а для понижения трудности – больше заданий низкой трудности.

Принято выделять субъективную и статистическую (объективную) трудности. Субъективная трудность задания связана с индивидуальным барье­ром, величина которого определяется как обстоятельствами (лимитом време­ни, доступностью инструкции и т. д.), так и уровнем сформированности не­обходимых для решения знаний, умений и навыков, психическим состоянием испытуемого и рядом других факторов. Воздействие комплекса этих факторов на результат выполнения теста снижает надежность и достоверность данных, поэтому важно принимать меры для выравнивания их воздействия с помощью направленного комплектования выборки и стандартной процеду­ры проведения тестирования.

Показателем трудности заданий как статистической трудности являет­ся доля лиц выборки, решивших и не решивших задание. Например, если только 15% студентов решили задачу, ее можно оценить как трудную для данной группы, если 85% - как легкую. Трудность заданий теста является от­носительной характеристикой, поскольку, зависит от особенностей выборки (возрастные, профессиональные, социально-культурные различия).

Подбор заданий по показателю трудности важен для успешного применения диагностической методики. Так, при выборе слишком трудных за­даний валидность и надежность теста резко снизятся (ухудшение статистиче­ских характеристик оценивания из-за небольшого числа правильных реше­ний, вероятность случайной оценки, влияние неудач на работу испытуемых). Слишком простые задания приведут к однообразию результатов (большинство справляется со всем набором пунктов теста), их незначитель­ной вариативности, затрудняющей оценивание, могут вызвать негативное отношение к тесту.

Основная задача анализа трудности заданий теста сводится к выбору оптимальных по сложности пунктов теста, а значит, и упорядочиванию, отдельных заданий в нем. Обычно, если задачу решает большинство студентов, ее (как легкую) помещают в начале теста, если задачу решает незначи­тельный процент испытуемых, то ее (как трудную) помещают в конце теста. Одну-две самых легких задач ставят перед основными задачами теста и ис­пользуют в качестве примера. Расположение заданий по возрастанию ступе­ней трудности, выраженных долей или процентом лиц данной выборки, ре­шивших соответствующую задачу, позволяет примерно определить порог трудности для индивидуального испытуемого, характеризующий его место в группе.

Основным показателем трудности заданий теста является индекс трудности (Ui,), вычисляемый по формуле:

НА ГЛАВНУЮ

;

где Ui - индекс трудности задания в процентах; Np - число студентов, правильно ре­шивших задачу;  N - общее число студентов.

При учете случайного успеха путем угадывания для задачи с предпи­санным ответом трудность заданий теста рассчитывается по формуле:

;

где Ui - индекс трудности задания в процентах; Nn- число студентов, не решивших задачу; Np - число студентов, правильно решивших задачу; N -общее число студентов; m- число вариантов ответов.

Практика педагогического тестирования свидетельствует, что максимум информации об индивидуальном уровне знаний, навыков и умений курсантов обеспечивают задания средней трудности (50%).

Различающая способность задания при разработке педагогических критериально-ориентированных тестов является осо­бенно важной характеристикой, так как от нее в значительной  степени зависит валидность теста. Эта характеристика показы­вает, насколько эффективно тестовое задание различает студентов, овладевших и не овладевших учебным материалом.

Показатели различающей способности задания также вычисляются на основании проведения пилотажного тестирования. Эти показатели требуют для расчета проведения двух серий измере­ний: повторного тестирования одной группы студентов или про­ведения теста на двух разных группах. При разработке теста для одной или небольшого количества групп студентов удобнее всего получить две серии измерений путем формирования контрастных групп. Эксперт выбирает из группы студентов только тех учащихся, про которых он может определенно ут­верждать, что они овладели или не овладели учебным материа­лом. Овладевшие материалом составляют "высокую" контрастную группу, а не овладевшие - "низкую" контрастную группу. Студенты, находящиеся в промежуточной стадии, не включаются в контрастные группы. Важно, чтобы контрастные группы были, no-возможности, эквивалентны по составу. Это значит, что в них в одинаковой пропорции должны быть представлены студенты разных возрастов, оба пола, с разным уровнем одаренности, представители разных социальных групп населе­ния и т.д.

К сожалению, метод контрастных групп не может использо­ваться, если подавляющее большинство студентов твердо овладе­ли или совсем не овладели учебным материалом. Тогда для по­лучения двух серий измерений приходится прибегать к методам, более сложным организационно. Во-первых, можно протестиро­вать одну и ту же группу учащихся до и после обучения. Во-вторых, можно протестировать две группы (эквивалентные по составу подобно контрастным группам), одна из которых прошла курс обучения, а вторая – нет.

Самый простой и известный показатель различающей способности задания по отношению к обучению Rp вычисляется как разность между долей испытуемых из "высокой" группы, правильно выполнивших задание и долей испытуемых из "низкой" группы, тоже правильно выполнивших задание. Данный показатель высчитывается по следующей формуле

;

НА ГЛАВНУЮ

где Rp – показатель различающей способности; N1 N2 – количество испытуемых, попавших соответственно в "высокую" и "низкую" контрастные группы; n1 и n2 – коли­чество испытуемых, правильно выполнивших задание, соответ­ственно из "высокой" и "низкой" групп.

Показатель может принимать значения от -1 до +1. Rp равный  «+1» означает, что задание обладает максимальной различающей способностью. Rp равный – «0» означает, что задание совершенно не раз­личает испытуемых, овладевших и не овладевших учебным мате­риалом. Если Rp равный «–1», что встречается очень редко, то задание различает испытуемых, но инверсированно: правильно отвечают не овладевшие материалом, а овладевшие материалом отвечают неправильно. Существование таких заданий может свидетельст­вовать о своеобразной неадекватной структуре знаний у студентов.

Наряду с показателем Rp  может быть использован показатель различающей способности задания Рx, который считается более надежным. Он может рассматриваться как вероятность согласованности между результатом выполнения испытуемым задания и отнесением испытуемого к "высокой" или "низкой" контрастной группе. По­казатель рассчитывается по формуле

где N1 и N2 – количество студентов, попавших соответственно в "высокую" и "низкую" контрастные группы; n1 – количество испытуемых из "высокой" группы, правильно выполнивших зада­ние; n3 - количество испытуемых из "низкой" группы, непра­вильно выполнивших задание.

Наилучшие задания будут иметь значения Рx равные еди­нице. Минимальное значение показателя достигается в том слу­чае, если между отнесением испытуемого к одной из групп и выполнением им задания не существует никакой связи.

 

4. Оценка валидности и надежности теста

В тестологии существуют две категории, связанные с ка­чеством теста как инструмента измерения. Это валидность и надежность. Обычно валидность и надежность оцениваются с по­мощью математических методов и выражаются в специальных по­казателях.

Валидность теста выражает степень, в которой тест изме­ряет именно то, что он должен измерять. Разработчики не могут быть a priori уве­рены, что тест измеряет именно то, что должен. Намного проще формулировать цель, предмет измерения теста, чем подобрать тестовые задания таким образом, чтобы тест действительно из­мерял именно то, что необходимо разработчикам. Валидность теста – понятие, указывающее, что измеряет тест и на­сколько хорошо он это делает. Валидность по содержанию в сущности озна­чает систематическую проверку содержания теста с тем, чтобы установить, соответствует ли оно репрезентативной выборке измеряемой области знаний, навыков или умений.

НА ГЛАВНУЮ

Процедура валидизации обычно применяется при оценке педаго­гических тестов, предназначенных для измерения того, насколько индивид овладел конкретными навыками или учебным предметом. В этом случае возникает проблема адекватности выборки всего множества заданий, поэто­му тестируемая область знаний навыков или умений должна систематически проверяться с тем, чтобы существовала уверенность, что задания теста охва­тывают все ее главные аспекты и в правильной пропорции. Тест легко перенасытить теми аспектами исследуемой области, по которым легче составить объективные задания. Поэтому рассматриваемое содержание следует фикси­ровать заранее, а не после того, как тест уже составлен. Правильно составленные педагогические тесты должны соответствовать не только предмет обучения, но и его задачам. Содержание, следовательно, необходимо опреде­лять достаточно широко, включая в него помимо знания фактического мате­риала такие важнейшие цели обучения, как применение изученных принципов и интерпретацию данных. Кроме того, валидность содержания больше зависит от релевантности тестовых ответов индивида, рассматриваемой в сфере обучения, чем от очевидной релевантности содержания тестовых зада­ний. Простая проверка теста может и не выявить те процессы, которые дей­ствительно обеспечивают выполнение теста студентом. Важно также избежать неоправданного обобщения выбранной темы тестирования. Если, например, орфографический тест с множественным вы­бором ответов измеряет способность распознавать правильно и неправильно написанные слова, то из этого не следует, что он также измеряет способность правильно написать диктант, количество орфографических ошибок в сочи­нении и другие аспекты грамотности письма.

В самом общем понимании валидность характеризует сам измерительный инструмент, и проверка этого аспекта валидности назы­вается теоретической валидизацией. Проверка эффективности и точности этого инструмента есть второй аспект валидности и называется прагматиче­ской (или практической) валидизацией. При подборе внешнего критерия не­обходимо соблюдать принцип его релевантности изучаемому признаку, т.е. между диагностируемым свойством и жизненно важным критерием должно быть смысловое соответствие. Если, например, разрабатывается тест для из­мерения особенностей развития личностных качеств, то для критерия необходимо найти такую деятельность или отдельные операции, где именно эти качества реализуются.

Прогностическая валидность теста зависит не только от надежности теста, но и от надежности критерия. В практике не всегда удается подобрать высоконадежный критерий, а так как тесты подбираются по критерию, то часто возникает вопроскакой валидностью обладал бы тест, если бы надежность крите­рия была максимальной, равной единице?

НА ГЛАВНУЮ

В критериально-ориентированном педагоги­ческом измерении проблема обеспечения достаточной валидности стоит не очень остро. Валидность теста обуславливается валидностью отдельных заданий. Если составление спецификации, разработка и экспертный анализ тестовых заданий были прове­дены достаточно качественно, то это уже обеспечивает высокий уровень валидности. Для педагогического тестирования, разли­чающая способность заданий практически тождественна их ва­лидности. Поэтому отбор заданий с высокой различающей способностью также способствует повышению валидности теста.

В критериально-ориентированных тестах критерием их валидности является собственное содержание теста, одобренное опытными экс­пертами. При этом у эксперта должна быть уверенность в том, что:

   задания теста находятся в соответствии с ГОС ВПО и программой учебной дисциплины; 

– задания теста охватывают не один какой-либо раздел, а всю программу курса;

– высока вероятность того, что студент, успешно ответивший на определенные задания теста, знает учебный предмет в соответствии с установленным стандартом.

Перечисленные пункты объединяются общей идеей - содер­жит ли тест задания, пригодные для оценки знаний по конкрет­ной учебной дисциплине? Если в результате статистической проверки выявляется, что ответы на задания теста позволяют обоснованно судить о знаниях студентов, то считается, что тест валиден по содержанию.

При оценке теста на валидность необходимо выбрать контрольную группу студентов и провести оценку их знаний, навыков и умений по дисциплине как с использованием разработанного теста, так и с помощью экспертных оценок, выставленных преподавателем-экспертом традиционным образом без использования теста. После чего результаты студентов по вопросам теста и по оцен­кам экспертов оценивают с точки зрения их корреляции. Мера согласованности оценок по тесту и по экспертным суждениям указывает на меру валидности.

Что касается величины коэффициентов валидности. то она по разным причинам всегда ниже, чем коэффициент надежности. По мнению ведущих диагностов, низким признается коэффициент валидности порядка  0.20 – 0.30, средним  - 0.30 – 0.50, высоким - выше 0.60.

В дальнейшем, когда отобраны валидные задания, в качестве критерия можно брать суммарный индивидуальный балл испытуемых по всем заданиям. Вновь вводимое в тест задание должно корре­лировать с этим критерием.

Надежность теста. Под надежностью понимают согласованность результатов проведения теста на одной и той же группе испытуемых при разных условиях. Согласованность результатов нескольких тестирований – это их идентичность. Категория надежности тесно связана с точностью измерения: чём выше надежность теста, тем точнее результаты измерения.

Существует несколько типов надежности и, соответствен­но, несколько методов ее определения. Степень надежности теста выражается в специально разработанных показателях на­дежности.

Следует отметить, что высокое качество проведения отбора содержания для теста, составления спецификации, раз­работки тестовых заданий и их анализа способно обеспечить достаточно высокую надежность. Поэтому, если нет возможности использовать сложные математические методы, рекомендуется обратить особое внимание на вышеуказанные процедуры. Среди методов оценки надежности критериально-ориентированных тестов встречаются как очень сложные вычисли­тельно и концептуально, так и довольно простые. Этот вид критериально-ориентированных тестов, используемый для разделения учащихся на группы по уровню их учебных достижений, чаще применяется на практике. Поэтому ниже будет дано описа­ние наиболее простых и доступных методов оценки надежности критериально-ориентированных тестов.

Первый метод. Обычно для оценки надежности тест проводят два раза и сравнивают полученные тестовые баллы. Оба тестирование про­водятся на одной и той же группе  испытуемых, но меняются условия проведения: чаще всего либо время, либо набор зада­ний.

На основании проведения теста два раза на одной и той же группе испытуемых через некоторый промежуток времени по­лучают оценку так называемой ретестовой надежности. По пока­зателю ретестовой надежности судят, насколько стабильны ре­зультаты тестирования во времени. Пользоваться данным мето­дом следует с осторожностью, особенное внимание следует уделять правильному выбору величины временного интервала между двумя тестированиями. Если временной интервал слишком короткий, то студенты будут просто помнить свои предыдущие от­веты и, вероятнее всего, повторят, их. Если временной интер­вал слишком большой, то измеряемое свойство может измениться под влиянием каких-либо факторов. Тогда существенные разли­чия между результатами первого и второго тестирований будут связаны не с низкой надежностью теста, а именно с изменением измеряемого свойства. Например, через значительный промежу­ток времени студенты могут выполнить тест лучше под влиянием дальнейшего изучения предмета или изучения смежных предме­тов. Ухудшение результатов может быть связано с забыванием усвоенного материала. Отсюда следуют два практических замечания. Во-первых, промежуток между двумя тестированиями дол­жен быть не слишком большим и не слишком маленьким, напри­мер, одна-две недели. Во-вторых, оценка ретестовой надеж­ности имеет смысл только когда предполагается, что степень усвоения учебного материала стабильна во времени. Такая си­туация чаще встречается при итоговом контроле, например, в конце курса обучения.

НА ГЛАВНУЮ

Второй метод оценки надежности, используемый в критери­ально-ориентированном измерении, основан на двух формах од­ного теста. Формы теста представляют собой, по сути, два теста, идентичных по содержанию и формальным характеристи­кам. Задания для разных форм одного и того же теста разраба­тываются на основе одной спецификации. В обе формы входит одинаковое количество заданий. Желательно, чтобы задания бы­ли уравнены по таким характеристикам, как трудность и разли­чающая способность, что позволит повысить надежность теста. Формы теста не только используются для оценки его  надежности, но и удобны при реальном проведении тестирования. Их использование позволяет снизить вероятность списывания и пе­редачи студентами информации о тесте друг другу.

После проведения тестирования с использованием двух форм одного теста необходимо принять решение относительно того, в какую группу поместить каждого студента. Исходя из того, что ранее были определены четыре таких группы – не усвоившие, слабо усвоившие, хорошо усвоившие и полностью усвоившие программу дисциплины, можно результаты тестирования представить в восьмиклеточной таблице сопряженности (см. таблицу 3). Решение о включении студента в одну из ячеек таблицы яв­ляется результатом тестирования, поэтому надежность в данном случае выражается не в согласованности тестовых баллов, а в согласованности решений относительно испытуемых.

 

Таблица 3

 

Форма Б

 

 

Не

усвоившие

материал

Слабо

усвоившие

материал

Хорошо

усвоившие

материал

Полностью

усвоившие

материал

 

Усвоившие

материал

полностью

 

Р30

 

Р31

 

Р32

 

Р33

Форма  А

 

Хорошо

усвоившие

материал

 

Р20

 
Р21

 

Р22

 

Р23

 

 

 

Слабо

усвоившие

материал

 

Р10

 

Р11

 

Р12

 

Р13

 

 

 

Не

усвоившие

материал

 

Р00

 

Р01

 

Р02

 

Р03

НА ГЛАВНУЮ

 

где P10, Р11, Р00, Р01 и т.д. – вероятности попадания испытуемого в соот­ветствующую клетку таблицы на основании результатов тестиро­вания. Оценки этих, величин рассчитываются как количество студентов, попавших в соответствующую клетку таблицы, де ленное на общее количество испытуемых.

Основываясь на таблице сопряженности, можно вычислить наиболее простые и в то же время полезные показатели сог­ласованности решений, предложенные специально для критери­ально-ориентированных тестов. Один из них Р – вероятность принятия согласованного решения. Он представляет собой сумму вероятностей принятия согласованных  решений по отнесению испытуемых  в каждую из групп и вычисляется по формуле

 

 

 Значения Р изменяются от 0 до +1. Интерпретация показателя очевидна. Например, если Р – 0,7, это значит, что 70% решений относительно испытуемых оказались согласованы, то есть совпали по обеим формам теста, а 30% оказались разными для форм А и Б. Чей выше надежность, тем выше значения пока­зателя. Если Р – 1, то надежность теста максимальна – все решения, принимаемые по двум формам, совпадают.

Существует одна трудность в интерпретации показателя. В зависимости от структуры полученных данных, минимально воз­можное значение Р может быть больше нуля, в некоторых случа­ях оно может достигать 0,5. Это явление связано с тем, что согласованное решение относительно испытуемого может быть принято случайно. Если тестовые баллы, полученные по двум тестированиям, статистически независимы, то и решения, при­нятые на их основе, статистически независимы. Тем не менее некоторые решения оказываются согласованными благодаря слу­чайному совпадению. Вероятность такого совпадения Рс называ­ется случайной согласованностью и вычисляется по формуле

 

        +

      

   

 

В общем виде расчет вероятности Рс  можно представить в следующем виде

 

 

 

Показатель К (каппа) учитывает вероятность случайного принятия согласованного решения. Он вычисляется по формуле

 

 

Знаменатель формулы для вычисления К показывает, насколько может возрасти согласованность решений по сравне­нию со случайной согласованностью, если решения по двум тестированиям окажутся статистически зависимыми, делитель формулы показывает, насколько реально возросла согласован­ность решений по сравнению со случайной согласованностью. Показатель К можно интерпретировать как отношение реального прироста согласованности решений к теоретически возможному приросту. Показатель К может принимать значения от –1 до +1. Так К равное «–1» означает, что решения, принятые на основе двух тестирований, полностью статистически зависимы и, следовательно, полностью согласованны. При K = 0 решения статистически независимы, но из этого не следует, что они не согласованны. Их согласован­ность может быть довольно высокой, но это будет случайная согласованность. Отрицательные значения K может принимать в редких случаях, когда вероятность согласованного решения оказывается ниже вероятности случайного согласованного реше­ния.

Значения K всегда ниже значений Р и зависят от величины критериального балла. Если выбирается очень  низкий или очень высокий критериальный балл, то K принимает минимальные зна­чения, а Р – максимальные, то есть высокая согласованность решений достигается за счет высокой случайной согласован­ности. Если же критериальный балл находится в области сред­них значений распределения тестовых баллов, то значения Р и K сближаются за счет снижения вероятности случайной согласо­ванности.

При оценке надежности критериально-ориентированного теста рекомендуется использовать оба показателя Р и K, так как они отличаются друг от друга по смыслу. Веро­ятность принятия согласованного решения Р показывает реаль­ную согласованность решений, что само по себе важно, однако в эту величину входит и согласованность решений, полученная случайно. Показатель K учитывает случайную согласованность, но не дает представления о реальной согласованности решений.

Какие значения показателей можно считать приемлимыми для качественного теста? На этот вопрос нет однозначного от­вета. Во многом ответ зависит от целей,  с которыми прово­дится тестирование, реальных возможностей разработчиков, ве­личины критериального балла и других факторов. Чем более от­ветственные решения принимаются на основе теста, тем выше должна быть его надежность. В самом общем плане можно рассматривать значения Р, равные 0,8–0,9, как свидетельст­во высокой надежности теста, однако в ряде случаев допустимы и более низкие значения.

 

5. Заключительные этапы разработки теста

 После проведения анализа заданий математическими мето­дами и оценки качества теста обычно оказывается, что тест требует доработки – удаления неудачных заданий, включения до­полнительных заданий с требуемыми свойствами, повышения валидности или надежности. С учетом выявленных недостатков составляется новый вариант теста и опять проводится пилотажное тестирование, чтобы получить эмпирические данные для но­вого математического анализа. Цикл пилотажное тестирование – математический анализ должен "прокручиваться" до тех пор, пока не получится вариант теста с удовлетворяющими разработ­чика характеристиками. Наличие банка заданий, существенно превосходящего по объему количество заданий, используемое для теста, облегчает эту работу.

Если тест предназначается для использова­ния – в рамках одного учебного заведения, – то процесс разработки теста можно упростить. Требования к качеству теста – степени его валидности и надежности  могут быть несколько снижены. В этом случае можно прибегнуть к следующему приему. В первый вари­ант теста включается больнее количество заданий, чем это не­обходимо. После математического анализа заданий и оценка ка­чества теста исключаются неудачные задания, так чтобы по­высить качество теста. Получается новый, улучшенный вариант теста. После этого на основании только оставленных заданий пересчитываются индивидуальные баллы испытуемых, которые и принимаются за окончательный результат тестирования. Если тест разрабатывается для проверки учебных достижений по стандартному курсу, то это дает возможность улучшать тест из года в год по результатам тестирования новых учебных групп.

 

 

6. Определение критериев для выставления оценки студентам

по результатам тестирования

Для теста из двенадцати заданий, включающего в себя три уровня сложности, оценка “удовлетворительно” выставляется при условии решения студентом не менее 7 заданий (58% от всех заданий), из них не менее 3-х заданий первого уровня и не менее 4 заданий двух других более высоких уровней.

Оценка “хорошо” выставляется  при условии решения не менее 9 заданий (75%) при условии решения всех заданий первого уровня и не менее 3 задания второго уровня. 

Оценка “отлично” выставляется при условии решения не менее 10 заданий (83%), при условии решения не менее 4 заданий первого уровня, 3 заданий второго уровня и 3 заданий третьего уровня.

НА ГЛАВНУЮ

Hosted by uCoz