Как можно установить надежность частей теста
Надежность теста
Надежность теста один из критериев качества теста, относящийся к точности психологических измерений. Чем больше Надежность теста, тем относительно свободнее он от погрешностей измерения. Надежность теста рассматривается при одном подходе: как устойчивость (стабильность) результатов при повторном тестировании; при другом, как проявление степени эквивалентности двух одинаковых по форме и цели (параллельных) тестов.
Надежность теста
Надежность эксперимента
устойчивость результатов эксперимента при его проведении второй, третий, четвертый и т.д. раз.
Добиться объективности психологического теста можно при выполнении следующих условий:
1) единообразие процедуры проведения теста для получения сравнимых с нормой (см. ниже) результатов;
2) единообразие оценки выполнения теста;
3) определение нормы выполнения теста для сопоставления с ними показателей, полученных в результате обработки данных тестирования (см. здесь «третий этап стандартизации»).
Эти три условия называют этапами стандартизации психологического теста.
Этапы стандартизации
На этапе разработки теста, а также любого другого метода проводится процедура стандартизации, которая включает три этапа.
Первый этап стандартизации психологического теста состоит в создании единообразной процедуры тестирования. Она включает определение следующих моментов диагностической ситуации:
1) условия тестирования (помещение, освещение и др. внешние факторы). Очевидно, что объем кратковременной памяти лучше измерять (например, с помощью субтеста повторения цифровых рядов в тесте Векслера), когда нет внешних раздражителей, таких как посторонние звуки, голоса и т.д.
2) Содержание инструкции и особенности ее предъявления (тон голоса, паузы, скорость речи и т.д.). Например, в тесте «10 слов» каждое слово должно предъявляться через определенный интервал времени в секундах.
4) Временные ограничения выполнения данного теста. Например, для выполнения теста Равена взрослому респонденту дается 20 минут.
5) Стандартный бланк для выполнения данного теста. Использование стандартного бланка облегчает процедуру обработки.
6) Учет влияния ситуационных переменных на процесс и результат тестирования. Под переменными подразумевается состояние испытуемого (усталость, перенапряжение и т.д.), нестандартные условия тестирования (плохое освещение, отсутствие вентиляции и др.), прерывание тестирования.
7) Учет влияния поведения диагноста на процесс и результат тестирования. Например, одобрительно-поощряющее поведение экспериментатора во время тестирования может восприниматься респондентом как подсказка «правильного ответа» и др.
8) Учет влияния опыта респондента в тестировании. Естественно, что респондент, который уже не в первый раз проходит процедуру тестирования, преодолел чувство неизвестности и выработал определенное отношение к тестовой ситуации. Например, если респондент уже выполнял тест Равена, то, скорее всего, не стоит предлагать ему его во второй раз.
Второй этап стандартизации психологического теста состоит в создании единообразной оценки выполнения теста: стандартной интерпретации полученных результатов и предварительной стандартной обработки. Этот этап предполагает также сравнение полученных показателей с нормой выполнения этого теста для данного возраста (например, в тестах интеллекта), пола и т.д. (см. ниже).
Третий этап стандартизации психологического теста состоит в определении норм выполнения теста.
Нормы разрабатываются для различных возрастов, профессий, полов и др. Вот некоторые из существующих видов норм:
Профессиональные нормы устанавливаются на основе тестов для разных профессиональных групп (например, механиков разного профиля, машинисток и др.).
Национальные нормы разрабатываются для представителей данной народности, нации, страны в целом. Необходимость таких норм определяется конкретной культурой, моральными требованиями и традициями каждой нации.
Наличие нормативных данных (норм) в стандартизованных методах психодиагностики является их существенной характеристикой.
Как можно установить надежность частей теста
ЛЕКЦИЯ № 9. Надежность психодиагностических методик
1. Определение. Факторы, влияющие на надежность методики. Стандартная ошибка измерения. Надежность измерения. Понятие о методе измерения ретестовой надежности
Надежность – одно из трех главных психометрических свойств любой измерительной психодиагностической методики (теста).
Надежность – это помехоустойчивость теста, независимость его результата от действия всевозможных случайных факторов. К числу таких факторов относятся:
1) разнообразие внешних материальных условий тестирования, меняющихся от одного испытуемого к другому (времени суток, освещенности, температуры в помещении, наличия посторонних звуков, отвлекающих внимание и т. п.);
2) динамичные внутренние факторы, по-разному действующие на разных испытуемых в ходе тестирования (время так называемой врабатываемости – выхода на стабильные показатели темпа и точности действий после начала тестирования, скорость наступления утомления и т. п.);
3) информационно-социальные обстоятельства (различная динамика в установлении контакта с психологом или лаборантом, проводящим тестирование; возможное наличие других людей в помещении; наличие предыдущего опыта знакомства с данным тестом; наличие какого-то знания и отношения к тестам вообще и т. п.).
Разнообразие и изменчивость этих факторов так велики, что они обусловливают появление у каждого испытуемого непрогнозируемого по размерам и направлению отклонения измеренного тестового балла от истинного тестового балла (который можно было бы, в принципе, получать в идеальных условиях). Средняя относительная величина этого отклонения определяется как стандартная ошибка измерения (Se). Величина ошибки измерения указывает на уровень неточности или ненадежности тестовой шкалы.
Ошибка измерения (Se) и надежность измерения (R) согласно общепринятой психометрической теории связаны следующей формулой:
где Sx– дисперсия тестовых показателей Х.
Формула (1) является чисто теоретической, и на ее основе нельзя подсчитать надежность теста, так как величина Se оказывается также неизвестной величиной. Поэтому на практике применяют корреляционные методы. Самый известный их них – метод перетестирования («тест-ретест») или метод измерения ретестовой надежности. На одной и той же выборке испытуемых (не менее 30 человек, участвующих в пилотажном психометрическом экспериментальном исследовании) проводят первое тестирование Х, а затем повторное тестирование Y. Интервал, как правило, 2 недели, что гарантирует забывание вопросов теста.
Затем для двух рядов значений Х и Y подсчитывается, например, линейный коэффициент корреляции, или ранговый коэффициент корреляции:
где Sx, Sy – стандартные отклонения X и Y, t;
Cov (X, Y) – ковариация двух переменных X и Y.
Для сути теории надежности методов важна возможность определить ошибку измерения, после того как подсчитана корреляция «тест – ретест» по формуле (3), полученной путем простого преобразования формулы (1):
Таким образом, если стандартное отклонение в тесте составило 10 очков (среднее отклонение, которое в среднем допускают испытуемые от среднего балла для выборки), а корреляция «тест – ретест» оказалась равной лишь 0,5, то ошибка измерения оказывается очень большой:
Оказывается, что ошибка измерения перекрывает большую часть разброса тестовых показателей, так как истинный балл по тесту может отклоняться от измеренного балла на целых 7 очков! И, если испытуемый набрал на 6 очков больше, чем средний испытуемый, мы не можем с достаточной уверенностью (статистической достоверностью) говорить о том, что он значимо превзошел среднего испытуемого, так как это отклонение оказывается в пределах стандартной ошибки измерения.
Таким образом, низкая корреляция результатов теста между первым и повторным тестированием говорит о том, что случайные факторы существенно искажают результаты теста. Это значит, что тест не обладает необходимой помехоустойчивостью и его нельзя использовать как измерительный инструмент.
Показатель надежности R, который принято считать достаточно высоким, равен или превышает 0,95. Хотя в личностных тестах часто пользуются значительно менее надежными тестами с показателями 0,8–0,9.
Метод измерения ретестовой надежности пригоден только для психических свойств, стабильных во времени. Надежность тестов на психические состояния и динамические установки личности нельзя проверить таким образом. В этом случае применяют различные методы расщепления теста на отдельные пункты.
Надежность – характеристика методики, отражающая точность психодиагностических измерений, а также устойчивость результатов теста к действию посторонних случайных факторов. Надежность и валидность являются важнейшими характеристиками методики как инструмента психодиагностического исследования. Любое изменение ситуации исследования усиливает влияние одних и ослабляет воздействие других факторов на результат теста. Общий разброс (дисперсию) результатов тестового обследования можно, таким образом, представить как результат влияния двух групп причин: изменчивости, присущей самому измеряемому свойству, и факторов нестабильности измерительной процедуры.
В самом широком смысле надежность теста – это характеристика того, в какой степени выявленные у испытуемых различия по тестовым результатам являются отражением действительных различий в измеряемых свойствах и в какой мере они могут быть приписаны случайным ошибкам.
В более узком, методическом смысле под надежностью понимают степень согласованности результатов теста, получаемых при первичном и вторичном его применении у одних и тех же испытуемых в различные моменты времени с использованием разных (но сопоставимых по характеру) наборов тестовых заданий или при других изменениях условий обследования.
Разновидностей характеристик надежности теста так же много, как условий, влияющих на его результаты. Наиболее широкое практическое применение находит несколько типов характеристик надежности: надежность ретестовая, надежность параллельных форм, надежность частей теста.
2. Стандартизация процедуры обследования. Взаимосвязь надежности и валидности
Важнейшим средством повышения надежности психодиагностических методик является стандартизация процедуры обследования. При строгой регламентации процедуры обследования (обстановки и условий работы испытуемого, характера инструкции, временных ограничений, способов и особенностей контакта с испытуемым, порядка предъявления элементов методики, получения первичных оценок и т. д.) существенно уменьшается дисперсия ошибки, повышается надежность теста.
Если исходить из широкого понимания надежности как отражения в результате исследования удельного веса измеряемого параметра и совокупности посторонних факторов, то можно усмотреть определенную связь надежности с другой важнейшей комплексной характеристикой психодиагностической методики – валидностью.
Надежность – устойчивость процедуры относительно объектов исследования. Валидность – однозначность, устойчивость относительно измеряемых свойств объекта, т. е. предмета измерения. Устойчивость теста относительно объектов (испытуемых) является необходимым, но недостаточным условием его устойчивости относительно измеряемых свойств объектов. Следовательно, надежность является необходимым, но недостаточным условием валидности. Это означает, что валидность теста не может качественно и количественно превышать надежность. Данное соотношение нельзя, однако, трактовать как указание на прямую пропорциональную связь характеристик валидности и надежности. Повышение надежности отнюдь не сопровождается обязательным повышением валидности. Например, у теста-опросника из одного вопроса внутренняя согласованность предельна, однако валидность у него минимальна.
3. Надежность параллельных форм. Сущность, достоинства и недостатки
Надежность параллельных форм – характеристика надежности психодиагностической методики с помощью взаимозаменяемых форм теста. При этом одни и те же испытуемые в выборке определения надежности обследуются вначале с использованием основного набора заданий, а затем – с применением аналогичных дополнительных наборов. Коэффициент надежности по типу надежности параллельных форм может быть определен и другим способом, а именно: испытуемые делятся примерно на равные группы, затем одной из них предлагается форма А теста, а другой – форма Б. Через определенное время (обычно не более недели) проводится повторное тестирование, но в обратном порядке.
Такая процедура обследования лишена значительной части недостатков способа определения ретестовой надежности. Так как в параллельной форме используется другой по содержанию материал, возможность тренировки и запоминания отдельных решений уменьшается. Важнейшим преимуществом данного метода является сокращение временного интервала перед повторным обследованием. Основным показателем надежности параллельных форм является коэффициент корреляции между результатами первичного и повторного обследований, который позволяет оценить как временную стабильность теста (собственно надежность), так и степень соответствия результатов обеих форм теста. Если формы применяются непосредственно одна за другой, то корреляция отражает их взаимозаменяемость.
Отношение между параллельными формами теста имеет сложный характер. Оба набора заданий должны не только отвечать одним и тем же требованиям, измеряя идентичные показатели и давая сходные результаты, но вместе с тем быть относительно независимыми друг от друга. На практике эта задача осуществима далеко не для всех тестовых заданий (в особенности это касается личностных методик, опросников), что существенно ограничивает сферу применения надежности параллельных форм. Другим недостатком характеристики надежности по типу надежности параллельных форм является возможность усвоения испытуемым принципа решения, общего для основной и параллельной форм. Таким образом, в случае оценки надежности параллельных форм влияние тренировки и навыка, приобретаемого при повторном обследовании, если и снижается по сравнению с характеристикой надежности ретестовой, однако не устраняется полностью.
4. Надежность частей теста, ее определение методом расщепления. Уравнение Спирмена – Брауна. Определение коэффициента надежности с помощью формул Дж. Фланагана и Рюлона
Надежность частей теста – характеристика надежности психодиагностической методики, получаемая путем анализа устойчивости результатов отдельных совокупностей тестовых задач или единичных пунктов (заданий) теста. Наиболее простым и распространенным способом определения надежности частей теста является метод расщепления, суть которого заключается в выполнении испытуемым заданий двух равноценных частей теста. Обоснованием метода является вывод о том, что при нормальном или близком к нормальному распределении оценок по полному тесту выполнение любого случайного набора из частей теста даст аналогичное распределение (при условии, что части однородны по характеру заданий, по отношению к тесту в целом).
Для оценки надежности методом расщепления выбирают две эквивалентные по характеру и степени трудности группы задач. Разделение объема заданий теста на сопоставимые части достигается:
1) распределением заданий на четные и нечетные (в том случае, если задания в тесте строго ранжированы по степени субъективной трудности);
2) распределением пунктов по принципу близости или равенства значений индексов трудности. Такой принцип разделения пригоден для тестов достижений, в которых обязателен ответ испытуемых на все пункты;
3) распределением задач по времени решения каждой из частей (для тестов скорости).
Для испытуемых в выборке определения надежности (раздельно для каждой из частей теста) вычисляются оценки успешности решений, среднеквадратические отклонения первого и второго рядов оценок и коэффициенты корреляции сравниваемых рядов. Естественно, эти коэффициенты будут характеризовать надежность лишь половины теста.
Уравнение Спирмена – Брауна отражает влияние изменения количества заданий на коэффициент надежности теста:
где rt – коэффициент надежности для полного объема заданий, r’ t – его значение после изменения числа заданий, n – отношение нового числа заданий к первоначальному (если число заданий полного теста – 100, а его части, полученной методом расщепления на половины, – 50, то n = 0,5).
Отсюда для полного теста:
Приведенные формулы справедливы для случаев равных стандартных отклонений обеих половин теста (?xl = ?х2). Если ?xl отличается от ?х2, для определения коэффициента надежности применяется формула Фланагана:
При определении rt целого теста можно воспользоваться формулой Рюлона:
где ? 2 ? – дисперсия разностей между результатами каждого испытуемого по двум половинам теста,
? 2 x – дисперсия суммарных результатов.
В данном случае коэффициент надежности рассчитывается как доля истинной дисперсии результатов теста.
Разделение заданий теста на равноценные половины является лишь частным случаем надежности частей теста. Вполне возможно расщепление на три, четыре и более частей. В предельном случае число частей равно числу пунктов. При разделении всего набора заданий теста на любое количество групп для правильного определения надежности частей теста, как уже указывалось выше, должно соблюдаться требование равноценности таких групп. Поэтому при вычислении коэффициента надежности методом анализа внутренней согласованности отобранные задания теста должны быть в высокой степени однородны по содержанию и трудности (гомогенны). При гетерогенных задачах значения rt ниже истинных.
Характеристика надежности по типу надежности частей теста имеет серьезные преимущества по сравнению с надежностью ретестовой и надежностью параллельных форм главным образом благодаря отсутствию необходимости в повторном обследовании. Таким образом, снимается влияние многих посторонних факторов, в частности тренировки, запоминания решений и т. д. Это обстоятельство определяет широкое распространение методов характеристики надежности частей теста по сравнению с другими типами надежности. К недостаткам метода относится невозможность проверить устойчивость результатов теста спустя определенное время. Это требует комбинирования метода надежности частей теста с другими типами характеристики надежности психологической методики.
Как можно установить надежность частей теста
Как можно описать надежный тест? Надежный тест измеряет некое качество, делает это устойчиво, относительно времени, позволяет сравнивать результаты испытуемых, протестированных в разное время, в разном месте, в разном состоянии.
Вариабельность измеряемого признака (вариативность как свойство психологического измерения) и многомерность, системность и сложность предмета психологии также ставят под сомнение любое измерение в психологии. Для повышения качества психологического измерения в психометрике используется такой показатель как валидность.
На результаты исследования действуют две группы факторов: (1)изменчивость, присущей самому измеряемому свойству, (2) нестабильность измерительной процедуры.
Свойства надежности могут изменяться при изменении:
1. условия проведения обследования,
2. характера заданий,
3. степени сложности заданий,
4. психологического состояния испытуемого.
Ретестовая надежность – характеристика надежности метода психодиагностики путем повторного обследования с помощью одного и того же теста. Надежность вычисляется по соответствию результатов первого и второго обследований или по сохранению ранговых мест испытуемых в выборке при ретесте.
Алгоритм вычисления ретестовой надежности:
1. первичное тестирование на выборке (при N ≥ 30);
2. повторное тестирование через 5 – 6 месяцев на той же самой выборке;
3. вычисление коэффициента корреляции между первичным и повторным тестированием.
Коэффициент надежности rt соответствует коэффициенту корреляции между результатами первичного и повторного обследований.
Ретестовая надежность пригодна для ограниченного числа методик. Это: 1) Сенсомоторные пробы, 2) Тесты скорости, 3) Тесты, имеющие большое количество пунктов (ММ PI ). Одним из «минусов» процедуры определения ретестовой надежности является «эффект тренировки», который безусловно снижает достовенность надежности теста.
Для порядковых шкал в качестве меры устойчивости к повторному тестированию может быть использован коэффициент ранговой корреляции Спирмена или Кэндалла.
Еще одним достаточно популярным видом надежности является надежность параллельных форм. Параллельные (или взаимозаменяемые, или сопоставимые) формы:
· параллельные или взаимозаменяемые (снабженные таблицами эквивалентности);
· уравненные (попарно уравненные по структуре и содержанию задания);
· эквивалентные (результаты с близкими статистическими характеристиками).
Надежность параллельных форм – характеристика надежности методики с помощью взаимозаменяемых форм теста. При этом одни и те же испытуемые в выборке определения надежности обследуются вначале с использованием основного набора заданий, а затем – с применением аналогичных дополнительных. В практике встречается два алгоритма вычисления надежности параллельных форм.
Первый алгоритм определения надежности параллельных форм:
1. тестирование группы при помощи формы А теста;
2. тестирование группы при помощи формы Б теста (или сразу, или через определенное время);
3. вычисление коэффициента корреляции между результатами тестирования разными формами.
Второй алгоритм вычисления надежности параллельных форм:
1. разделение всех испытуемых на две группы (первая и вторая);
2. тестирование первой группы при помощи формы А теста;
3. тестирование второй группы при помощи формы Б теста;
4. тестирование первой группы при помощи формы Б теста (или сразу, или через определенное время);
5. тестирование второй группы при помощи формы А теста (или сразу, или через определенное время);
6. вычисление коэффициента корреляции между результатами первичного и вторичного исследований.
Надежность частей теста достаточно популярный и просто-просчитываемый вид надежности. Надежность частей теста – характеристика надежности методики путем анализа устойчивости результатов отдельных совокупностей тестовых задач или единичных заданий теста.
Основным методом вычисления надежности частей теста является расщепление – выполнение испытуемым двух равноценных частей теста. Для оценки надежности методом расщепления выбираются две эквивалентные по характеру и степени трудности группы задач. Разделение объема заданий достигается одним из способов:
1) распределение заданий на четные и нечетные (в том случае, если задания строго ранжированы по степени субъективной трудности).
2) разделение пунктов по принципу близости или равенства значений индексов трудности (такой принцип пригоден для тестов достижений, в которых обязателен ответ на все пункты).
3) разделение задач по времени решения каждой из частей (для тестов скорости).
Разделение заданий теста на равноценные половины является лишь частным случаем надежности частей теста. Расщепление возможно на 3, 4, 5 и более частей. В предельном случае число частей равно числу пунктов.
1. провести однократное тестирование на выборке (при N ≥ 30);
2. расщепить тест (используя один из вышеописанных способов), например на четные – нечетные задания;
3. посчитать коэффициент корреляции между выполнением первой и второй половины теста;
4. для перехода к целой форме вычислить надежность целого теста (или формула Спирмена-Брауна, или формулу Рюлона).
Алгоритм вычисления надежности отдельных заданий теста:
1. провести однократное тестирование на выборке (при N ≥ 30);
2. используя результаты выполнения каждого задания, подсчитать коэффициент Кьюдера-Ричардсона (для заданий «1-0») или коэффициент Кронбаха (для более дифференцированных заданий);
Коэффициент Кьюдера-Ричардсона используется для заданий типа «да-нет», «решил – не решил», «верно-неверно».
Надежность субъективных оценок (или экспертная надежность) – характеристика надежности методики путем анализа устойчивости-согласованности экспертных оценок.
Алгоритм вычисления экспертной надежности:
Сравнительные методы установления надежности
Необходимость повторного тестирования
Достаточное число форм
Источники ошибки индекса надежности
Запоминание, тренировка, научение, длина интервала.
Запоминание, тренировка, научение, недостаточная эквивалентность форм
Частей теста (методом расщепления)
Неоднородность содержания, число заданий в тесте
Число заданий в тесте неоднородность содержания,