15.06.2012 8046

Модели экспертизы качества тестовых материалов в современной дидактической тестологии

 

В последние десятилетия, когда тестовые технологии стали органичной частью контрольно-оценочной деятельности разных уровней образования, возникла необходимость в формировании фонда оценочных средств. В этой связи важной становится проблема наполнения таких фондов заданиями высокой степени надежности и достоверности. Примером создания фондов оценочных средств может служить банк контрольно-измерительных материалов для Единого государственного экзамена выпускников общеобразовательных учреждений, банк заданий для Федерального экзамена в сфере высшего профессионального образования (ФЭПО), банк тестовых заданий Адаптивной среды тестирования (АСТ-тест) и пр. При этом возникла необходимость в обеспечении единых требований к форме и содержанию тестовых заданий. Первой попыткой унификации требований и обеспечению качественными педагогическими измерителями системы отечественного тестирования было утверждение приказом Министерства образования системы сертификации качества педагогических материалов. Развитие информационных тестовых технологий способствовало созданию комплексных информационных систем, которые объединяют в себе модуль интернет-тестирования, экспертные и аналитические модули оценки эффективности обучения и модуль разработки и формирования тестов. Примерами таких систем могут быть: «Школьный мониторинг», TestEdit 2.1, AnyTest, «МастерТест», «УСАТИК 2.000», система «TESTOR.RU», система «TESTER», «АСТ-Тест» и др. Одновременно начинает формироваться методология тестовой квалиметрии. Наиболее известны работы в этом направлении Г.Г. Азгальдова, В.И. Васильева, А.В. Никитина, В.Ю. Переверзева, Е.Д. Поповой, С.А. Сафонцева, А.И. Субетто, А.О. Татура, Д. М. Узденова и др. и др. Этими учеными предложены методики и алгоритмы экспертизы качества тестовых материалов при формировании фондов оценочных средств. Рассмотрим основные из них.

Успех создания теста во многом зависит от качества начального тестового материала, которое обеспечивается правильным планированием содержания в спецификации теста и умением разработчика корректно реализовать этот план при разработке заданий теста. Разработка заданий сопровождается отображением содержания дисциплины в содержании теста посредством выделения укрупненных единиц знаний. В связи с этим традиционно первоочередным этапом экспертизы качества тестов является экспертиза внутреннего содержания теста. Методика экспертизы, реализованная в работах и др., основана на положениях классической теории создания тестов получила наиболее широкое применение в отечественной тестологии. Данная модель экспертизы качества тестов состоит из двух основных этапов:

- экспертное оценивание качества содержания теста;

- статистическое обоснование качества теста (тестологическая экспертиза).

Методика экспертизы содержания теста обычно включает три раздела, которые выстраиваются сообразно трем направлениям работы экспертов. Перед началом работы каждый эксперт должен ознакомиться со спецификацией рецензируемого теста, содержащей пояснения по его структуре и планируемому к проверке содержанию.

Анализ содержания отдельных заданий теста. На данном этапе эксперту предлагается:

- оценить выбранные экспертом правильные варианты ответов тестов;

- оценить содержание заданий в терминах требований к уровню учебных достижений. Для проведения анализа эксперту необходимо сопоставить содержание каждого задания теста и перечень пронумерованных требований, который входит в комплект материалов для экспертизы и выдается эксперту вместе с тестами. По результатам сопоставления эксперт выявляет номер требования, на которое преимущественно ориентировано содержание данного задания;

- определить уровень базовости по трем группам: базовый, повышенный, сложный;

- определить уровень значимости содержания каждого задания теста. Оценка значимости связана с необходимостью включения в тест только тех элементов содержания, которые являются наиболее важными, ключевыми для освоения учебного курса в пределах требований к уровню подготовки. Оценку значимости предлагается проводить по отдельным заданиям без учета того, что отдельные элементы содержания в заданиях могут пересекаться. При этом в центр внимания необходимо ставить то, что измеряет задание, не принимая в расчет промежуточные элементы знания, востребованные в процессе выполнения задания теста;

- определить ожидаемый процент выполнения теста испытуемыми с удовлетворительной подготовкой;

- определить ожидаемый процент выполнения испытуемыми выборки;

При этом рекомендуется ориентироваться на тестируемого со средним уровнем подготовки. В результате такого анализа эксперт должен выявить неудачные задания и выдать рекомендации по их доработке в плане содержания.

Второе направление работы эксперта связано с анализом качества содержания всего теста, имеющего несколько параллельных вариантов. Анализ качества выполнения для каждого варианта в отдельности, а затем вся информация объединяется по группе вариантов. Оценивание качества вариантов тестов проводится на соответствие их следующим критериям:

- первый критерий - полнота охвата требований к уровню подготовки выпускников каждым вариантом теста и всеми вариантами вместе. Необходимость оценки полноты связана с тем, что обычно не все требования удается отобразить в тесте. Чем полнее отображение, тем выше содержательная валидность теста, тем больше уверенность в обоснованности оценок, полученных учащимися по данному тесту. В этом случае эксперту оценит процент охвата программы (требований стандартов), заявленный автором в спецификации теста.

- второй критерий - правильность пропорций содержания теста. Данный критерий позволяет оценить правильность отображения содержания модели учебной дисциплины в тесте. Для оценки правильности пропорций теста эксперт подсчитывает процент заданий в тесте, ориентированных на материал каждого раздела (содержательной линии). Затем приводит свое видение оптимального соотношения разделов и вычисляет разность, характеризующую отклонение мнения разработчиков от своих оценок.

- третий критерий - проверка соответствия содержания рецензируемой системы заданий спецификации теста. Несоответствие может возникать как при уменьшении, так и при увеличении планируемого числа заданий в тесте. Степень несоответствия определяется подсчетом процента заданий, не предусмотренных спецификацией по содержательным или по деятельностным аспектам, запланированным, но не попавшим в тест.

- третье направление работы эксперта рассчитано на подготовку обобщающих выводов и рекомендаций по улучшению содержания теста. В третьем разделе рецензии эксперт приводит свое общее впечатление о содержании теста. Здесь должны быть высказаны все сомнения и пожелания эксперта, его рекомендации по улучшению содержания. Возможна оценка соотношения заданий, проверяющих знание теории предмета и его практики.

Статистическая обработка эмпирических данных результатов апробационного тестирования проводится с целью количественного обоснования качества теста. На данном этапе в соответствии с выбранной математико-статистической теорией под очитываются тестологические характеристики тестовых заданий и теста.

Развитие технологии тестирования способствовало процессам интеграции и адаптации математико-статистического аппарата обработки данных в теорию педагогических измерений. Сегодня для целей обработки результатов тестирования применяются 4 основные теории: Classical Test Theory (КТТ), Generalizability Theory (GT), Item Response Theory (IRT), Equating/Linking. В отечественной тестологии наиболее часто применяются Classical Test Theory и Item Response Theory. При проведении массовых крупномасштабных исследований появляется необходимость в привлечении нескольких теорий одновременно. Так, например, при в практике национального тестирования США КТТ используется для подсчета типичных коэффициентов надежности, GT применяется для описания вариации диагностируемого признака, IRT для формирования адаптивного теста из тестовых заданий, а модель Equating/Linking -для того чтобы получить итоговую оценку учебных достижений обучающихся по результатам прохождения его испытаний от поступления до окончания учебного заведения с целью выявления динамики личностного развития и для итоговой аттестации в конце обучения.

Применимость той или иной математико-статистической теории обработки результатов тестирования определяется не столько ее возможностями отражать многообразие явлений и процессов в оцениваемом объекте, сколько полезностью получаемых результатов. Рассмотрим основные возможности применения данных теорий для экспертизы качества тестовых материалов по результатам апробационного тестирования.

Применение методологии КТТ для экспертизы качества тестов и тестовых заданий позволяет получить коэффициенты надежности измерения, оценить согласованность и однородность заданий в тесте, оценить критериальную валидность теста в целом.

Классическая теория тестов базируется на линейных преобразованиях сырых тестовых баллов, что позволяет повысить возможности сопоставления результатов тестирования разных групп испытуемых, но в тоже время природа порядковой шкалы наблюдаемых результатов выполнения теста не меняется.

Generalizability Theory рассматривается как расширение и либерализация КТТ. Методика GT базируется на дисперсионном анализе (ANOVA) ошибок процедур измерения, тем самым, позволяя выявлять многократные источники ошибок измерения. Применение GT представляется наиболее эффективной для анализа параллельности вариантов тестов.

Item Response Theory предназначена для оценки латентных параметров испытуемых и параметров заданий теста. IRT является частью более общей теории латентно-структурного анализа, но в отличие от последнего, IRT рассматривает оцениваемые значения параметров распределения переменных как непрерывные. К наиболее значимым преимуществам IRT обычно относят устойчивость и объективность оценок параметра трудности заданий, их независимость от свойств выборки испытуемых, выполняющих тест. Кроме того, IRT представляет возможность измерить значения параметров испытуемых и заданий теста в одной и той же шкале, имеющей свойства интервальной. Последнее преимущество крайне важно, поскольку преобразование исходных величин разного происхождения в одну стандартную шкалу позволяет соотнести уровень знаний любого испытуемого с мерой трудности каждого задания теста.

В Equating/Linking методологии используется эклектичный набор процедур измерения - шкалирование, выравнивание, преобразование первичных баллов в тестовые и пр. Так, данные процедуры оказываются способными оценивать качество тестовых заданий в гетерогенных тестах, что практически невозможно в предыдущих теориях. Кроме того, процедуры приравнивания оказываются необходимыми при использовании разнородных батарей междисциплинарных тестов, применяемых для итоговой аттестации испытуемых.

В Федеральном институте педагогических измерений была разработана модель многоуровневой экспертизы качества контрольно-измерительных материалов (КИМ) для Единого государственного экзамена. Многоуровневая экспертиза качества КИМ, предлагаемая ФИЛИ, состоит из трех основных этапов:

- содержательная экспертиза отдельных заданий;

- содержательная экспертиза собранных вариантов;

- тестологическая экспертиза.

Содержательная экспертиза отдельных заданий. Сначала формируется предварительный банк ТЗ из числа заданий, разработанных по целевому заказу и присланных на конкурс. Подобным образом формируется предварительный банк КИМ. Далее задания, присланные на конкурс, проходят этап экспертного оценивания с целью определения содержательной валидности. На данном этапе каждое задание оценивается двумя экспертами. Третий эксперт приглашается только в случае несогласованности мнений первых двух. В качестве экспертов выступают специалисты федеральной предметной комиссии.

Содержательная экспертиза собранных вариантов проводится после формирования вариантов КИМ. Сначала сформированные варианты КИМ подвергаются внутренней содержательной экспертизе специалистами федеральной предметной комиссии, в случае отсутствия замечаний к содержанию, данные материалы отправляют на первую внешнюю экспертизу. Первая внешняя экспертиза так же проводится двумя экспертами. По заключениям этой группы экспертов формируется перечень необходимых коррекционных мер по совершенствованию КИМ. После доработки вариантов КИМ проводится вторая внешняя экспертиза третьим и четвертым экспертами.

Тестологическая экспертиза качества КИМ проводится по итогам тестирования и включает в себя:

- тестологическую экспертизу отдельных заданий;

- двукратную тестологическую экспертизу собранных вариантов в целях обеспечения качества отдельных заданий, соответствия каждого варианта спецификации и параллельности всех вариантов работы.

Таким образом, каждое отдельное задание или вариант проходят восемь уровней экспертизы и доработки: сборка вариантов - 1-й уровень доработки; внутренняя экспертиза - 2-й уровень доработки; тестологическая экспертиза - 3-й уровень доработки; первая внешняя экспертиза - 4-й уровень доработки; вторая тестологическая экспертиза -5-й уровень доработки; вторая внешняя экспертиза - 6-й уровень доработки; замечания редактора и корректора - 7-й уровень доработки; проверка ответов и подготовка оригинал-макетов - 8-й уровень доработки.

В Центре тестирования профессионального образования разработана модель экспертизы качества тестовых материалов, предназначенных для технологии компьютерного тестирования, используемая при сертификации их качества.

Модель экспертизы состоит из следующих этапов:

1. предварительная экспертиза программно-дидактических тестовых заданий (далее ГГДТМ) включает в себя экспертизу спецификации ПДТМ и ее соответствия ГОС или учебной программе, синтаксический анализ банка тестовых заданий (БТЗ), предварительную экспертизу содержания, правильности форм представления тестовых заданий, выявление фактов нарушения «Требований к программно-дидактическим тестовым материалам».

Здесь следует особо остановиться на организации процедуры предварительной экспертизы. При поступлении заявки на сертификацию банк ПДТМ проверяется экспертами на соответствие требованиям корректности оформления заданий. В виду того, что ЦТПО принимает не менее 700 заданий и срок сертификации ограничен, то предварительная экспертиза проводится выборочно. Группа экспертов, состоящая из 5 человек, избирательно проверяет задания на соответствие требованиям. В случае обнаружения типичных ошибок в составлении ПДТМ на первых этапах предварительной экспертизы, банк ГТДТЗ отправляется авторам с рекомендациями по их доработке. В случае соответствия требованиям ПДТЗ отправляются на следующий этап экспертизы.

2. экспертная оценка и пробное тестирование. Банк ПДТЗ, прошедший предварительную экспертизу, отправляется одновременно на оценку экспертам и в испытательные лаборатории. Цель экспертной оценки - оценить задание по заданным критериям, цель пробного тестирования - выявить скрытые дефекты ПДТМ и установить критериальный балл. Эксперты оценивают ПДТЗ по следующим показателям качества:

- компактность формулировки ТЗ и вариантов ответов;

- свернутость ТЗ;

- логичность (формулировка ТЗ в виде суждения);

- корректность (отсутствие лишних слов);

- достаточность (необходимое количество вариантов ответов);

- содержательность (соответствие ТЗ содержанию ГОС или учебной программе);

- значимость (уровень значимости содержания ТЗ);

- время вывода заключения (ответа);

- однозначность ТЗ;

- ясность смысла тестовой ситуации.

По результатам пробного тестирования, проходящего в испытательных лабораториях, подсчитываются и интерпретируются меры трудности ПДТМ, коэффициент дискриминации, точечно-бисериальный коэффициент для дихотомических оценок, коэффициент «влияния» тестового задания, попарная корреляционная связь заданий между собой, проводится дистракторный анализ и устанавливается критериальный балл. 3. заключительный этап экспертизы ПДТМ. В Орган сертификации поступают результаты апробации и мнения экспертов. Результаты апробации интерпретируются, мнения экспертов анализируются на согласованность и принимается решение о сертификации, в случае удовлетворительных показателей к требованиям ПДТЗ, в случае неудовлетворительных показателей выдаются рекомендации по доработке тестовых материалов.

Среди достоинств данной модели следует отметить, во-первых, комплексный подход к оценке качества тестовых материалов, во-вторых, автоматизацию процедур экспертизы и, в-третьих, полное и детальное описание синтаксического анализа конструкций тестового задания.

К недостаткам данной модели экспертизы качества тестовых материалов относятся:

- выборочный метод экспертного оценивания на этапе предварительной экспертизы;

- одновременность процедур экспертного оценивания и пробного тестирования.

В совокупности эти два недостатка приводят к тому, что в оцениваемом банке ПДТЗ оказываются некачественные тестовые задания:

- в данной модели не учитывается уровень компетентности экспертов на этапе анализа экспертных оценок;

- перечень показателей и критериев качества тестовых заданий формируется априорно без учета их значимости.

В Управлении качеством учебного процесса Российской экономической академии им. Г. В. Плеханова при разработке критериально - ориентированных педагогических тестов для контроля и диагностики учебных достижений обучающихся проводят внутреннюю экспертизу качества тестовых материалов. В качестве основного этапа экспертизы в данной модели выступает экспертное оценивание содержания качества тестовых заданий и тестов.

Для проведения процедуры экспертного оценивания формируется комплект документов, состоящий из спецификации и плана теста, инструкции по экспертизе и формы для заключения и записи решений. В процессе внутренней экспертизы эксперту необходимо:

- выполнить каждое задание теста (указывается правильный ответ, приводится решение задания, там, где необходимо);

- проанализировать формулировки задания (проверяется предметная корректность формулировок);

- оценить содержание заданий на их тематическую принадлежность и уровень сложности (базовый, повышенный или высокий);

- сформулировать замечания для разработчиков к каждому из заданий в конструктивной форме с предложениями, что и как необходимо изменить;

- сформулировать заключение о пригодности теста для использования.

В процессе оценивания эксперту предлагается заполнить карту, в которую вносится информация о каждом задании по следующим характеристикам: номер правильного ответа; требования (одного или нескольких) к уровню подготовки испытуемых; уровень сложности; значимость содержания задания; ожидаемый процент выполнения испытуемыми; ожидаемое время выполнения задания; неудачные задания.

В рамках данной модели особое внимание уделяется самой процедуре организации экспертного оценивания качества теста: Г. Н. Селянская описывает следующие требования:

- оценка качества содержания теста проводится независимыми экспертами, не участвовавшими в разработке теста. Число экспертов составляет не менее 3-х человек - наиболее опытные преподаватели, с большим стажем работы;

- в комплект материалов для экспертизы должен входить перечень требований к уровню подготовки испытуемых;

- эксперту при работе потребуются часы для фиксации времени работы над каждым заданием и бланк с номерами экспертного заключения с номерами заданий;

- если задание теста проверяет степень достижения требований на минимальном уровне - это базовое задание, на уровне «хорошей» оценки - задание повышенного уровня, «отличной» оценки - сложное задание;

- значимость содержания (0 - неоправданное включение задания в тест, 1 - незначимое задание, 2 - значимое, 3 - наиболее важный опорный элемент).

Характерной особенностью данной модели является тот факт, что она разрабатывалась для оценки качества критериально-ориентированных тестов контроля текущей успеваемости, а потому носит узко-направленную практическую область применения. Несостоятельность, на наш взгляд, данной модели заключается в том, что оценка тестовых материалов производится только экспертами, что не дает полной информации о качестве разрабатываемых тестовых материалов. Все показатели, которые учитываются при оценивании качества, позволяют получить заключение только о степени содержательной валидности.

Обобщая основные этапы рассмотренных моделей экспертизы, структуру экспертизы качества ТМ можно представить в общем виде. В результате прохождения всех уровней экспертизы, ТМ подвергаются так называемым «чисткам», то есть по результатам каждого уровня отсеиваются задания или целые тесты в случае несоответствия тем или иным требованиям.

При рассмотрении основных моделей экспертизы качества тестовых измерителей можно выявить следующие общие достоинства и недостатки:

Достоинства:

- Разработана и нашла свое применение экспертиза качества внутреннего содержания качества ТМ.

- В научном сообществе осознана необходимость сертификации ТМ, применяемых для контроля качества учебных достижений. Созданы Центры по сертификации ТМ с научно обоснованными методиками.

- Наметились попытки комплексного оценивания качества ТМ.

Недостатки:

- В большинстве представленных моделей экспертизы качества ТМ в качестве объекта экспертизы выступают в основном отдельные тестовые задания, при этом не оцениваются внутрисистемные отношения тестовых заданий в тесте.

- Наиболее часто применяется внутренняя экспертиза качества ТМ.

- Не всегда проводится апробационное тестирование с целью получения показателей качества ТМ.

- На этапе экспертного оценивания внутреннего содержания ТМ не учитывается компетентность экспертов и согласованность их мнений в группе.

- Отсутствует экспертиза нормативной документации, сопровождающей разработку и применение ТМ.

- И как следствие, всех выше перечисленных недостатков, изолированность этапов экспертизы, отсутствие комплексного оценивания качества ТМ.

Для устранения всех выявленных недостатков необходимо разработать модель комплексной экспертизы качества ТМ, основанной на системном подходе, что позволит повысить их качество уже на этапе составления.

 

АВТОР: Максимова О.А.