Надійність тестових методик. Надійність як одна з основних характеристик тесту


Надійність тесту є одним із критеріїв якості тесту, що відноситься до точності психологічних вимірювань. Чим більша Надійність тесту, тим відносно вільніший він від похибок виміру. Надійність тесту розглядається за одного підходу: як стійкість (стабільність) результатів при повторному тестуванні; при іншому, як прояв ступеня еквівалентності двох однакових за формою та метою (паралельних) тестів.

Надійність тесту

Надійність тесту - фундаментальна характеристика тесту, яка показує якою мірою стабільні результати тестування при неодноразовому обстеженні. Надійність тесту може визначатися шляхом повторного тестування (через певний відрізок часу) та обчислення коефіцієнта кореляції між результатами першого та повторного тестування. Надійність тесту може визначатися шляхом тестування з допомогою кількох варіантів однієї й тієї ж тесту, поділу тесту на дві половини тощо. Надійність результатів тестування залежить не тільки від якості самого тесту, але й від процедури проведення тестування (вона має бути абсолютно ідентичною у першому та в другому випадку), соціально-психологічної однорідності вибірки (н. т. буде різною для дітей, чоловіків, жінок, солдатів першого року - служби, старослужбовців солдатів і т.д.). І може вийти, що, будучи надійним для однієї групи людей, тест виявиться ненадійним для іншої, результати тестування в останньому випадку будуть неправильними. Таким чином, н.т., висловлюючи ступінь неточності, можливість помилки, що виникає неминуче при будь-якому тестуванні, змушує шукати шляхи зменшення цієї помилки більш конкретного, цілеспрямованого застосування тесту. Надійність найкращих тестів становить 0,8 – 0,9.

Надійність експерименту

стійкість результатів експерименту під час його проведення другий, третій, четвертий тощо. разів.

Домогтися об'єктивності психологічного тесту можна за таких умов:

1) однаковість процедури проведення тесту для отримання порівнянних із нормою (див. нижче) результатів;

2) однаковість оцінки виконання тесту;

3) визначення норми виконання тесту для зіставлення з ними показників, одержаних у результаті обробки даних тестування (див. тут "третій етап стандартизації").

Ці три умови називають етапами стандартизаціїпсихологічного тесту

Етапи стандартизації

На етапі розробки тесту, а також будь-якого іншого методу проводиться процедура стандартизації, що включає три етапи.

Перший етап стандартизації психологічного тесту полягає у створенні однакової процедури тестування. Вона включає визначення наступних моментів діагностичної ситуації:

1) умови тестування (приміщення, освітлення та інші зовнішні чинники). Очевидно, що обсяг короткочасної пам'яті краще вимірювати (наприклад, за допомогою субтесту повторення цифрових рядів у Векслерському тесті), коли немає зовнішніх подразників, таких як сторонні звуки, голоси і т.д.

3) Наявність стандартного стимульного матеріалу. Наприклад, достовірність отриманих результатів суттєво залежить від того, чи пропонуються респондентові виготовлені саморобні карти Г.Роршаха чи стандартні - з певною кольоровою гамою та кольоровими відтінками.

4) Тимчасові обмеження виконання цього тесту. Наприклад, на виконання тесту Равена дорослому респонденту дається 20 хвилин.

5) Стандартний бланк для виконання цього тесту. Використання стандартного бланка полегшує процедуру обробки.

6) Облік впливу ситуаційних змінних на процес та результат тестування. Під змінними мається на увазі стан випробуваного (втома, перенапруга тощо), нестандартні умови тестування (погане освітлення, відсутність вентиляції та ін.), переривання тестування.

7) Облік впливу поведінки діагноста на процес та результат тестування. Наприклад, схвально-заохочуюча поведінка експериментатора під час тестування може сприйматися респондентом як підказка "правильної відповіді" та ін.

8) Облік впливу досвіду респондента у тестуванні. Природно, що респондент, який уже не вперше проходить процедуру тестування, подолав почуття невідомості та виробив певне ставлення до тестової ситуації. Наприклад, якщо респондент уже виконував тест Равена, то швидше за все не варто пропонувати йому його вдруге.

Другий етап стандартизації психологічного тесту полягає у створенні однакової оцінки виконання тесту: стандартної інтерпретації отриманих результатів та попередньої стандартної обробки. Цей етап передбачає також порівняння отриманих показників із нормою виконання цього тесту для даного віку (наприклад, у тестах інтелекту), статі тощо. (Див. нижче).

Третій етап стандартизації психологічного тесту полягає у визначенні норм виконання тесту.

Норми розробляються для різного віку, професій, статей та ін. Ось деякі з існуючих видів норм:

Шкільні норми -розробляються з урахуванням тестів шкільних досягнень чи тестів шкільних здібностей. Вони встановлюються для кожного шкільного ступеня та діють по всій території країни.

Професійні нормивстановлюються на основі тестів для різних професійних груп (наприклад, механіків різного профілю, друкарок та ін.).

Локальні нормивстановлюються та застосовуються для вузьких категорій людей, що відрізняються наявністю загальної ознаки - віку, статі, географічного району, соціо-економічного статусу та ін. Наприклад, для тесту Векслера на інтелект норми обмежені віковими рамками.

Національні нормирозробляються представникам цієї народності, нації, держави у целом. Необхідність таких норм визначається конкретною культурою, моральними вимогами та традиціями кожної нації.

Наявність нормативних даних (норм) у стандартизованих методах психодіагностики є їхньою суттєвою характеристикою.

Надійність тесту це такий критерій, який говорить про ступінь точності, з якою тест вимірює певну властивість або спосіб поведінки особистості. Надійність характеризує тест з погляду його стійкості до дії перешкод (зовнішніх та внутрішніх).

Про високу міру надійності тесту говорять у тому випадку, коли тест точно вимірює ту властивість, для вимірювання якого він призначений. Як критерії точності можна відзначити такі:

1) При повторному застосуванні тесту до тих самих випробуваних, в тих самих умовах, через певний інтервал часу, результати обох тестувань суттєво не різняться між собою.

2) Дії випадкових сторонніх факторів не мають істотного впливу на результати тестування.

Як сторонні фактори можна назвати такі: емоційний стан і втома, якщо вони не входять до кола досліджуваних характеристик, температура, освітленість приміщення та інші. Такі сторонні випадкові чинники називають факторами нестабільності вимірювальної процедури.

3) При повторному застосуванні тесту до тих самих випробуваних, через певний інтервал часу, у змінених умовах результати обох тестувань суттєво не різняться між собою. Під зміненими мають на увазі такі умови: інший експериментатор, стан респондента та інші.

Найчастіше надійність тлумачать у таких сенсах:

1) Надійність самого вимірювального інструменту – характеризується коефіцієнтом надійності. Емпіричне визначення цього коефіцієнта є обов'язковою умовою допуску тесту для його використання у практичній діяльності психолога. Рівень надійності тесту залежить від:

а) Правильності добору завдань з погляду їх взаємоузгодженості;

б) Внутрішньої однорідності – актуалізації у завданнях однієї й тієї ж характеристики;

в) Загальної гомогенності та взаємоузгодженості окремих пунктів завдань.

Для перевірки надійності вимірювального інструменту, що дозволяє судити про ступінь його однорідності (гомогенності) використовують метод поділу, або розщеплення тесту на частини, при якому завдання тесту поділяються на парні та непарні (іноді першу половину та другу половину), окремо обробляються, а потім результати двох отриманих на репрезентативній вибірці рядів корелюються між собою, і мірою надійності виступає коефіцієнт кореляції, розрахований за формулою Спірмена (див. 3.1.1). Методика визнається надійною, якщо отриманий коефіцієнт кореляції Спірмена не нижче +0,75 - +0,85. Але на початковому етапі розробки тесту можна отримати невисокий коефіцієнт кореляції – +0,46 – +0,50, що говорить про те, що ряд завдань тесту має специфічність і їх треба вилучити з тесту та повторити процедуру знову. Зниження коефіцієнта надійності може відбуватися у результаті соціально-психологічної неоднорідності тієї вибірки, де перевірялася надійність тесту.


2) Стабільність досліджуваного ознаки – характеризується коефіцієнтом стабільності. Він дозволяє судити про те, наскільки стійка, стабільна ознака, що вимірюється даною методикою.

Для вимірювання стабільності тесту використовується прийом, відомий під назвою тест - ретест, що полягає в повторному тестуванні вибірки піддослідних одним і тим самим тестом через певний інтервал часу за тих самих умов. Часовий інтервал залежить від віку (наприклад, у маленьких дітей зміни можуть відбутися протягом одного місяця), подій, що відбуваються з випробуваним у житті, змістом та характером завдань тесту. Зі збільшенням часового інтервалу в послідовності: стабільність ознаки має тенденцію знижуватися, і тому найбільшу проблему викликає спроба відповісти на питання про оптимальні терміни повторного тестування. Найчастіше багато авторів називають термін між першим та повторним тестуванням для дорослих у кілька місяців, але не більше 6. Для дітей молодшого віку – кілька тижнів.

Мірою стабільності тесту виступає коефіцієнт кореляції між результатами першого та повторного тестування в одній і тій же вибірці випробуваних. Коефіцієнт стабільності, розрахований за формулою Спірмена (див. 3.1.1 (r s)), повинен бути не нижчим за r s = +0,8.

Перетворення психодіагностичних процедур і технік на надійний інструмент науки та практики залежить від зусиль багатьох фахівців із психометричного налагодження, конструювання тестів, що задовольняють основним психометричним вимогам: надійності, валідності, стандартизації. Основні засади перевірки та визначення надійності, конструювання та валідизації психодіагностичних методик висвітлено у ряді спеціальних робіт з психодіагностики (А. Анастазі, А. Бодалсі, В. Столін, А. Шмельов, К. Гуревич, В. Мельников та ін.). У цьому навчальному посібнику ми опишемо базові поняття та принципи проведення психодіагностичного обстеження, знання яких є неодмінною умовою професійної кваліфікації практичного психолога.

Психодіагностика як наукова дисципліна включає три галузі психологічного знання:

предметну область психології, що вивчає дані психічні явища;

психометрику – науку про вимір індивідуальних відмінностей та змінних, що діагностуються;

практичне використання психологічного знання з метою адекватного психологічного впливу та надання допомоги людям у вирішенні їх проблем.

Методологічною основою психодіагностики є психометрика. Саме ця наука розробляє технологію створення конкретних психодіагностичних методик та визначає методологію забезпечення наукових вимог до них:

надійності – внутрішньої узгодженості частин тесту та відтворюваності результатів при повторному тестуванні;

валідності - відображення в результатах тесту саме тієї властивості, для діагностики якого він призначений;

достовірності – захищеності тесту від впливу результати прагнення досліджуваного змінити їх у бажану сторону;

репрезентативності – наявності норм результатів масового обстеження у популяції, яку розрахований тест, дозволяють оцінити ступінь відхилення від середніх значень будь-якого індивідуального показника.

Ці психометричні вимоги відносяться до різних груп тестів, при цьому найбільшою мірою – до об'єктивних тестів та особистісних опитувальників, найменшою – до проективних технік.

Об'єктивна оцінка психологічних методик та тестів означає визначення їхньої надійності. У психометрії термін «надійність» завжди означає узгодженість показників, отриманих у тих самих випробуваних.

Наскільки придатний цей тест? Чи він виконує свої функції? Ці питання можуть викликати та іноді викликають тривалі безплідні дискусії. Упередження, суб'єктивні висновки, особисті пристрасті призводять, вважає А. Анастази, з одного боку, до переоцінки можливостей конкретного тесту, з другого – до завзятого його неприйняттю. Єдиний спосіб відповісти на такі питання – емпірична перевірка. Об'єктивна оцінкапсихологічних тестів передусім означає визначення їхньої надійності та валідності у конкретних ситуаціях.



Надійність тестує узгодженість показників, отриманих у тих самих випробуваних при повторному тестуванні тим самим тестом або еквівалентною його формою.

Якщо у дитини IQ у понеділок дорівнює 110, а в п'ятницю – 80, то очевидно, що до такого показника навряд чи можна поставитися з довірою. Аналогічно, якщо індивід у ряду з 50 слів правильно визначив 40, а в іншому еквівалентному ряду, що вважається, – 20, то жоден з цих показників не може розглядається як міра його вербального розуміння. Зрозуміло, в обох прикладах можливо, що помилковим є лише один із двох показників, але це може підтвердити лише наступне тестування; із наведених даних випливає лише те, що разом показники не можуть бути правильними.

Перш ніж психологічний тест стане загальним надбанням необхідно провести ретельну об'єктивну перевірку його надійності. Надійність може перевірятись щодо тимчасових змін, вибору конкретних завдань або тестової вибірки індивідуальності експериментатора або фахівця з обробки тестових показників та інших аспектів тестування. Дуже важливо точно вказати тип надійності та спосіб її визначення, оскільки той самий тест може змінюватися в різних аспектах. Бажано також мати відомості про чисельність та особливості індивідів, на яких перевірялася надійність тесту.

Така інформація дозволить тесту вирішити, наскільки надійний цей тест для тієї групи, до якої він збирається його застосувати.

Найбільш повне пояснення надійності тестових методик надає А. Анастазі. Під надійністю розуміється узгодженість результатів тесту, одержуваних при повторному його застосуванні до тих самих випробуваних у різні моменти часу, з використанням різних наборів еквівалентних завдань або зміни інших умов обстеження. На надійності ґрунтується обчислення помилки виміру,яка служить для зазначення можливих меж коливань вимірюваної величини, що виникають під впливом сторонніх випадкових факторів. У найширшому сенсі надійність показує, якою мірою індивідуальні розбіжності у тестових результатах виявляються «істинними», а якій можуть бути приписані випадковим помилкам. Якщо перекласти це на мову спеціальних термінів, то вимірювання надійності тесту дозволяє оцінити величину загальної дисперсії тестових показників, що є дисперсією помилки.Проте питання полягає в тому, що вважати дисперсією помилки. Одні й самі чинники, які стосовно одним завданням є сторонніми, під час вирішення інших проблем вважаються джерелами «справжніх» відмінностей. Наприклад, якщо нас цікавлять коливання настрою, то зміни в результатах тесту емоційного стану, що відбуваються з кожним днем, могли ставитися до мети тестування і, отже, до справжньої дисперсії результатів. Але якщо тест призначений для виміру більш стабільних характеристик особистості, то самі щоденні коливання можна віднести до дисперсії помилки.

Істотно те, що будь-які зміни умов, у яких проводиться тест, якщо вони не мають відношення до його мети, збільшують дисперсію помилки. Тому, дотримуючись єдиних умов тестування (контролюючи загальну обстановку, тимчасові обмеження, інструктування випробуваного, контакти з ним та інші аналогічні чинники), експериментатор зменшує дисперсію помилки і підвищує надійність тесту. Але і в оптимальних умовах жоден тест не є абсолютно надійним інструментом. Тому стандартний набір даних про тесті повинен включати в себе і міру надійності. Такий захід характеризує тест, коли він застосовується у стандартних умовах і проводиться з випробуваними, схожими на тих, хто брав участь у нормативній вибірці. Отже, необхідно також наводити відомості про цю вибірку.

К. М. Гуревич визначає надійність як «вкрай складне та багатопланове поняття, одна з основних функцій якого – оцінити сталість показників тестових випробувань» [Гуревич, 1981].

У принципі можна сказати, що надійність має доводити помилку виміру – вона має показувати, яка частина мінливості показників хибна. Відомо кілька основних факторів, що визначають рівень надійності. Так, надійність завжди матиме тенденцію до збільшення, якщо дотримується сталість умов проведення процедури тестування, оскільки це знижує помилку варіабельності вимірюваного параметра. Тоді численність цілей, складність проблеми, мінливість ситуацій, зазвичай, збільшують помилку виміру, зменшуючи цим надійність.

Різновидів надійності тесту так само багато, як і умов, що впливають на результати тесту, тому будь-які такі умови можуть виявитися сторонніми щодо мети, і тоді

обумовлена ​​ними дисперсія має увійти до дисперсії помилки. Проте практичне застосування знаходить лише кілька типів надійності. Оскільки всі типи надійності відображають ступінь послідовності або узгодженості двох незалежно отриманих серій показників, то як їхній захід може виступати коефіцієнт кореляції.Більш спеціальне обговорення кореляції з докладним описом обчислювальних процедур наводиться у підручниках зі статистики для педагогів та психологів (В. Аванесов, А. Гусєв, Ч. Ізмайлов, М. Міхалевська та ін.).

На практиці використовуються три основних методи оцінки надійності тестів:

1) повторне тестування;

2) паралельне тестування;

3) спосіб розщеплення.

Розглянемо кожен із них окремо.

Повторне тестуванняЄ одним із основних методів вимірювання надійності. Повторне

тестування вибірки піддослідних проводиться одним і тим самим тестом через певний інтервал часу за однакових умов. Повторне тестування зазвичай називають ретестом,а надійність, виміряну у такий спосіб, – ретестової надійностіСхема оцінки ретестової надійності має вигляд:

У цьому випадку індекс надійності приймається коефіцієнт кореляції між результатами двох тестувань.

Метод повторного тестування має як переваги, так і недоліки. До переваг відносяться природність і простота визначення коефіцієнта надійності. До недоліків слід віднести невизначеність у виборі інтервалу між двома вимірами. Виникнення тимчасової невизначеності пов'язані з тим, що повторне тестування відрізняється від первинного. Випробувані вже знайомі зі змістом тесту, пам'ятають свої початкові відповіді та орієнтуються ними за повторного виконання тесту. Тому при повторному тестуванні нерідко спостерігається або «припасування» під початкові результати, або як наслідок негативізму демонстрація «нових» результатів. Щоб уникнути цього, приводячи у посібнику до тесту його ретестову надійність, слід зазначати, якому інтервалу часу вона відповідає. У зв'язку з тим, що ретестова надійність зменшується зі зростанням часового інтервалу, найбільш довірчими є високі коефіцієнти надійності, отримані при явно великих інтервалах між тестуваннями. Недостатньо високі коефіцієнти надійності може бути наслідком неоптимального визначення часових інтервалів.

Паралельне тестуванняУ цьому випадку багаторазовість виміру організується за допомогою паралельних або еквівалентних тестів. Паралельними називаються тести, які з однаковою помилкою вимірюють одну і ту ж властивість психіки. У цьому випадку одні й ті самі особи виконують кілька варіантів одного й того самого тесту або еквівалентні тести. Як правило, практичне використання даного типу надійності пов'язане зі значними труднощами, оскільки вкрай складно побудувати кілька варіантів одного тесту таким чином, щоб випробуваний не міг виявити їхню психологічну однорідність. Та й спотворюючий вплив тренування в цьому випадку не повністю знято. Крім того, виникає питання: чи альтернативні типи надійності є характеристиками саме надійності тесту, а не параметрами еквівалентності випробувань? Адже якщо дві форми випробування проводяться за однотипних константних умов, то, найімовірніше, досліджуються показники еквівалентності двох форм тестування, а чи не показники надійності самих тестів. Помилка виміру у разі визначається флюктуаціями виконання тесту, а чи не флюктуаціями структури тесту.

Схема використання паралельних тестів для вимірювання на діжності має вигляд:

Розрахований між двома тестами коефіцієнт кореляції називається еквівалентною надійністю.

Метод розщепленняВін є розвитком методу паралельного тестування і виходить з припущенні про паралельності як окремих форм тесту, а й окремих завдань всередині одного тесту. Це одна з найпростіших перевірок тесту, коли обчислюється коефіцієнт кореляції між половинами. Яким же чином поділити тест на дві половини, щоб мати змогу вирівняти обидві половини з тієї чи іншої конкретної основи? Найчастіше завдання тесту ділять на пар-непар, що дозволяє якоюсь мірою усунути можливі недоліки. Головне достоїнство цього надійності полягає у незалежності результатів тестування від таких елементів діяльності, як впрацьовування, тренування, практика, втома тощо. При поділі тесту на дві частини індекс надійності обчислюється за формулою Спірмена-Брауна, які запропонували її незалежно один від одного. Їхні статті були опубліковані в тому самому номері психологічного журналу з висновками і формулами [Аванесов , 1982]. У їхній формулі

R (х, 0=2 RJ + R, у

де R - Коефіцієнт кореляції двох половин тесту. Як коефіцієнт індексу надійності розглядається середній модуль коефіцієнта кореляції всіх завдань тесту або середній коефіцієнт детермінації.

Отже, ми розглянули три емпіричні методи оцінки надійності тестів: повторне тестування одним і тим самим тестом, повторне тестування паралельною формою тесту та розщеплення тесту.

Який із цих методів дає справжню оцінку надійності тесту? Яким із методів слід користуватися? Відповідь це питання залежить від особистої симпатії та цілей дослідження.

При використанні методу повторного тестування отримуємо оцінку ступеня стійкості результатів у часі та залежно від умов тестування. Тому ретестовий коефіцієнт надійності називають також коефіцієнтом стійкостіабо стабільностітіста. З використанням методу паралельних форм і методу розщеплення оцінюється ступінь взаємної узгодженості частин тесту. Тому коефіцієнти надійності, отримані цими двома методами, інтерпретуються як покачений і гомогенності, однорідностітестів.

Крім показників стійкості та гомогенності, Р. Б. Кеттелл вважає за необхідне розглядати показник переносимості (transferability).Він є оцінкою здатності тесту зберігати точність вимірювання в різних вибірках, субкультурах і популяціях. Спільно стійкість, гомогенність та переносимість утворюють комплексну характеристику надійності, яку Р. Б. Кеттелл називає сталістю (consistency)і визначає як «ступінь, у якому тест продовжує передбачати те, що він якось передбачив, незважаючи на зміни (у певних межах): а) обсягу, в якому тест застосовувався; б) умов, у яких він застосовувався; в) складу вибірки, де він застосовується».

Нарешті, існує тип надійності, що безпосередньо стосується надійності особи, яка проводить тестове випробування. Оцінка надійності особи, яка проводить тест, виходить за допомогою незалежного моделювання випробування двома різними експериментаторами.

Надійність результатів тестування залежить не лише від надійності самого тесту та процедури його проведення. Важливим чинником, що впливає результати інтерпретації даних, є специфіка конкретної вибірки. Найбільш суттєвими характеристиками вибірки, з цієї точки зору, слід визнати соціально-психологічну однорідність за різними параметрами; враховуються також вік та стать.

Послідовність дій при перевірці надійності А. Г. Шмельов пропонує провести так [Загальна психодіагностика, 1987]:

1. Дізнатися, чи існують дані про надійність тесту, запропонованого до використання, який популяції та у якій діагностичної ситуації проводилася перевірка. Якщо перевірки не було або ознаки нової популяції та ситуацій явно специфічні, провести заново перевірку надійності з урахуванням наведених нижче можливостей.

2. Якщо дозволяють можливості, то провести повторне тестування по всій вибірці стандартизації і підрахувати всі коефіцієнти, наведені як цілого тесту, так окремих пунктів. Аналіз отриманих коефіцієнтів допоможе зрозуміти, наскільки зневажлива помилка виміру.

3. Якщо можливості обмежені, провести повторне тестування лише на частини вибірки (не менше 30 піддослідних), підрахувати вручну рангову кореляцію для оцінки внутрішньої

узгодженості (методом розщеплення) та стабільності цілого тесту.

Безперечно, розглянуті поняття психодіагностики – її найважливіші атрибути. Проте високі показники надійності власними силами не визначають практичну цінність тесту. Провідний фактор, що дозволяє виміряти цільові результати психологічного тестування, – валідність.

англ. reliability of test) - у статистичному сенсі - сталість, стійкість результатів, одержуваних з допомогою. Н. т. визначається шляхом встановлення кореляцій між результатами першого та повторного застосування тесту (коефіцієнт Н. т.) або - зіставлення даних, отриманих під час проведення тесту, з результатами застосування еквівалентного тесту. Див. Надійність вимірювання, психодіагностика. (В. І. Лубовський.)

НАДІЙНІСТЬ ТЕСТА

показник точності та стійкості результатів вимірювання за допомогою тесту при його багаторазовому застосуванні. Характеризує ступінь адекватності відображення тестом відповідної генеральної сукупності завдань.

надійність тесту

фундаментальна характеристика тесту, яка показує якою мірою стабільні результати тестування при неодноразовому обстеженні. Н.т. може визначатися шляхом повторного тестування (через певний відрізок часу) і обчислення коефіцієнта кореляції між результатами першого і повторного тестування. Н.т. може визначатися і шляхом тестування за допомогою декількох варіантів одного і того ж тесту, ділення тесту на дві половини тощо. Надійність результатів тестування залежить не тільки від якості самого тесту, але й від процедури проведення тестування (вона має бути абсолютно ідентичною у першому та в другому випадку), соціально-психологічної однорідності вибірки (н. т. буде різною для дітей, чоловіків, жінок, солдатів першого року - служби, старослужбовців солдатів і т.д.). І може вийти, що, будучи надійним для однієї групи людей, тест виявиться ненадійним для іншої, результати тестування в останньому випадку будуть неправильними. Таким чином, н.т., висловлюючи ступінь неточності, можливість помилки, що виникає неминуче при будь-якому тестуванні, змушує шукати шляхи зменшення цієї помилки більш конкретного, цілеспрямованого застосування тесту. Надійність кращих тестів становить 8,0,9.

НАДІЙНІСТЬ ТЕСТА

один із критеріїв якості тесту, що відноситься до точності психологічних вимірів. Чим більше Н. т., тим відносно він вільніший від похибок виміру. При одному з підходів Н. т. сприймається як стійкість (стабільність) результатів при повторному тестуванні. При іншому підході Н. т. - Вияв ступеня еквівалентності двох однакових за формою і мети (паралельних) тестів. Визначення Н. т. також пов'язане з поняттям внутрішньої спроможності тесту. Це виявляється у розчленуванні тесту частини з наступним зіставленням результатів елементів. Н. т. визначається також методами дисперсійного та факторного аналізу. У конфліктології переважно використовуються психологічні тести (тест До. Томаса, Т. Лірі, модульний соціотест та інших.). Проблема Н. т. є частиною ширшої проблеми – надійність методики. Надійність – це стійкість методики до похибок виміру: конкретної ситуації тестування, особливостей тестованих, рівня підготовленості дослідника тощо.

НАДІЙНІСТЬ ТЕСТА

один із критеріїв якості тесту, що характеризує сталість, стійкість результатів, отриманих за його допомогою. Чим більше Н. т., тим відносно він вільніший від похибок вимірювань. Тому Н. т. визначає ступінь точності, з якою він вимірює певну властивість особистості; це характеристика точності як вимірювального інструменту, його стійкості до дії перешкод (як зовнішніх, так і внутрішніх). Емпіричне визначення Н. т. є обов'язковою умовою допуску для використання його у практичній діяльності, напр, з метою професійного відбору. Для визначення Н. т. використовують такі методи. 1. Метод повторного тестування (метод тест – ретест). Для оцінки надійності тест пред'являється двічі одній і тій же групі випробуваних через якийсь час. Тривалість часового проміжку визначається змістом характеру чи завдань тесту. Мірою Н. т. служить коефіцієнт кореляції результатів, отриманих при первинному та вторинному застосуванні тесту. 2. Метод тестування паралельної, чи еквівалентної, формою тесту. При застосуванні методу піддослідних розбирають дві рівночисленні групи. Потім першої групи пред'являють основну форму, другій групі - еквівалентну форму. Через деякий час форми змінюють між групами досліджуваних і знову проводять випробування. Після цього для всієї вибірки піддослідних обчислюються результати кожної з форм, котрим потім визначається коефіцієнт кореляції, за величиною якого судять про Н. т. 3. Метод розчленування тесту частини (напр., парні і непарні) з наступним зіставленням результатів частин . Перевагою цього у порівнянні з попередніми є велика точність, оскільки він передбачає проведення лише одноразового тестування.

Надійність як стійкість

Стійкість результатів тестуабо ретестова надійність (англ - test-retest reliability) - можливість отримання однакових результатів у випробуваних у різних випадках.

Стійкість визначається за допомогою повторного тестування (ретесту):

У цьому методі пропонується провести кілька вимірів з деяким проміжком часу (від тижня до року) одним і тим самим тестом. Якщо кореляція між результатами різних вимірів буде високою, то тест досить надійний. Найменшим задовільним значенням для ретестової надійності 0,5. Однак надійність не всіх тестів можна перевіряти цим методом, оскільки оцінювана якість, явище або ефект можуть бути власними силами нестабільні (наприклад, наш настрій, який може змінюватися від одного виміру до наступного). Ще одна вада повторного тестування – це ефект звикання. Випробувані вже знайомі з цим тестом, а може навіть пам'ятають більшу частину своїх відповідей після попереднього заповнення.

У зв'язку з сказаним вище застосовується дослідження надійності психодіагностичних методик з використанням паралельних форм, при яких конструюються еквівалентні або паралельні набори завдань. При цьому випробувані виконують зовсім інший тест за аналогічних умов. Однак є труднощі у доказі того, що обидві форми є справді еквівалентними. Попри це, практично паралельні форми тестів виявляються корисними у встановленні надійності тестів.

Надійність як внутрішня узгодженість

Внутрішня узгодженість(англ. - internal consistency) визначається зв'язком кожного конкретного елемента тесту із загальним результатом, тим, наскільки кожен елемент входить у суперечність із іншими, наскільки кожне окреме питання вимірює ознаку, на яку спрямований весь тест. Найчастіше тести, розробляються в такий спосіб, щоб вони висока ступінь внутрішньої узгодженості, а зв'язки України з тим, що й одна змінна вимірюється частиною тесту, тоді у інших частинах, якщо де вони узгоджені з першої, ця ж змінна вимірюватися неспроможна. Таким чином, щоб тест був валідним, необхідно щоб він був узгоджений.

Однак існує й протилежний погляд. Кеттелл говорить про те, що висока внутрішня узгодженість насправді є протилежністю валідності: кожне питання має торкатися меншої області або мати більш вузьке значення, ніж критерій, що піддається виміру. Якщо всі питання є узгодженими високою мірою, вони сильно корелюють, і, отже, надійний тест буде вимірювати лише порівняно "вузьку" змінну з малими відхиленнями. За міркуваннями Кеттелла, максимум валідності існує, коли всі завдання тесту не корелюють один з одним, а кожне має позитивну кореляцію з критерієм. Однак такий тест характеризуватиметься низькою надійністю за внутрішньою узгодженістю.

Для перевірки внутрішньої узгодженості застосовуються:

  1. Метод розщеплення чи метод автономних частин
  2. Метод еквівалентних бланків

Метод розщеплення (Split-half reliability)

Цей метод полягає у розщепленні/поділі тесту на дві рівні частини (наприклад, парні та непарні питання, перша та друга половина), а потім знаходиться кореляція між ними. Якщо висока кореляція, тест можна вважати надійним.

Метод еквівалентних бланків

МЕБ полягає у застосуванні двох зіставних одна з одною форм тесту для великої вибірки (наприклад, форми L і M для вимірювання в шкалі інтелекту Стенфорда-Біне) Результати, отримані при виконанні двох форм, порівнюють і обчислюють кореляцію. Якщо коефіцієнт кореляції високий, отже тест надійний. Недолік цього в тому, що він має на увазі такий тривалий і трудомісткий процес, як створення двох еквівалентних форм.

Альфа Кронбаха

У цьому методі, запропонованому Лі Кронбах, порівнюється розкид кожного елемента із загальним розкидом всієї шкали. Якщо розкид результатів тесту менше, ніж розкид результатів кожного окремого питання, отже, кожен окреме питання спрямовано дослідження однієї й тієї ж загального основания. Вони виробляють значення, яке вважатимуться істинним. Якщо таке значення виробити не можна, тобто виходить випадковий розкид при відповіді на питання, тест не надійний і коефіцієнт альфа Кронбаха дорівнюватиме 0. Якщо ж всі питання вимірюють одну і ту ж ознаку, то тест надійний і коефіцієнт альфа Кронбаха в цьому випадку дорівнюватиме. 1.

Обчислення Кронбаха

Кронбаха визначається як

де - Число елементів в шкалі, - Дисперсія загального тестового бала, і - Дисперсія елемента .

Альтернативний спосіб обчислення виглядає наступним способом:

де N – число елементів у шкалі, – середня дисперсія для вибірки, – середнє значення для всіх підступів між компонентами вибірки.

В даний час Кронбаха вважають за допомогою SPSS, STATISTICA та інших сучасних статистичних пакетів, можливо і за допомогою Microsoft Excel

Значення Кронбаха

Альфа Кронбаха в цілому зростатиме в міру збільшення взаємних кореляцій змінних, і тому вважається маркером внутрішньої узгодженості оцінки достовірності результатів тестів. Так як максимальне взаємні кореляції між змінними по всіх пунктах присутні, якщо вимірюється одне й те саме, альфа Кронбаха побічно вказує на ступінь того, наскільки всі пункти вимірюють одне й те саме. Таким чином, альфа найбільше доцільно використовувати, коли всі пункти спрямовані на вимірювання одного і того ж явища, властивості, феномена. Однак, слід зауважити, що високе значення коефіцієнта вказує на наявність загальної основи у набору питань, але не говорить про те, що за ними стоїть один єдиний фактор – одномірність шкали слід підтверджувати додатковими методами. Коли вимірюють гетерогенну структуру, альфа Кронбаха часто буде низьким. Таким чином, альфа не підходить для оцінки надійності навмисне гетерогенних інструментів (наприклад, для оригіналу MMPI , в даному випадку має сенс проводити окремі вимірювання для кожної шкали).

Вважається, що професійно розроблені тести повинні мати внутрішню узгодженість на рівні щонайменше 0.90.

Коефіцієнт альфа може застосовуватись і для вирішення іншого типу завдань. Так, за його допомогою можна вимірювати ступінь узгодженості експертів, які оцінюють той чи інший об'єкт, стабільність даних при багаторазових вимірах тощо.

Теоретична основа Кронбаха

Альфа Кронбаха може бути розглянуто як розширення Кьюдера-Річардсона-20, яка є еквівалентом для роботи з дихотоміями або змінними, що приймають лише два значення (наприклад, відповіді істинно/хибно).

Α Кронбаха теоретично пов'язана з формулою прогнозування Спірмана-Брауна. І обидві ці формули випливають із класичної теорією тесту, що полягає в тому, що достовірність результатів тестування може бути виражена як відношення дисперсій істинної та загальної оцінок (помилки та істинної оцінки).

також

Крім надійності тестів, є також надійність спостереження – міжнаглядова надійність. МН – це відсоток збігу результатів спостереження експертів друг з одним.

Надійність та валідність

Надійність показує, що результати дослідження близькі до істини, а валідність показує, що результати дійсно відносяться до того явища, яке вивчається дослідником. Валідне дослідження автоматично є надійним, проте зворотне слідство необов'язково. Надійне дослідження може бути валідним.

Література

Підлога Клайн. "Довідковий посібник з конструювання тестів", Київ, 1994.

Посилання

  • Надійність тестів у книзі В.С.Кіма "Тестування навчальних досягнень"

Wikimedia Foundation. 2010 .