Теория на теста. Представяне на основите на теорията на тестовете по физическа култура


Първият компонент, теория на тестовете, съдържа описание на статистически модели за обработка на диагностични данни. Съдържа модели за анализ на отговорите в тестови задачи и модели за изчисляване на общите резултати от теста. Mullenberg (1980, 1990) нарече това „психометрия“. Класическата теория на тестовете, съвременната теория на тестовете (или моделът за анализ на отговора на елемента - IRT) и


извадките от предмети съставляват трите най-важни типа модели на теория на тестовете. Предмет на разглеждане на психодиагностиката са първите два модела.

Класическа теория на тестовете. Повечето интелектуални и личностни тестове са разработени на базата на тази теория. Централната концепция на тази теория е концепцията за „надеждност“. Надеждността се отнася до последователността на резултатите при повтарящи се оценки. Справочниците обикновено въвеждат тази концепция много накратко и след това я дават Подробно описаниеапарат за математическа статистика. В тази уводна глава ще представим кратко описание на основния смисъл на отбелязаното понятие. В класическата теория на тестовете надеждността се отнася до повторяемостта на резултатите от няколко измервателни процедури (главно измервания с използване на тестове). Концепцията за надеждност включва изчисляването на грешката при измерване. Резултатите, получени по време на процеса на тестване, могат да бъдат представени като сума от истинския резултат и грешката на измерване:

Xi = Ti+ Ej

Където Xiе оценка на получените резултати, Ti е истинският резултат и Ej- грешка при измерване.

Оценката на получените резултати по правило е броят на верните отговори на тестовите задачи. Истинският резултат може да се разглежда като истинска оценка в Платоновия смисъл (Gulliksen, 1950). Концепцията за очакваните резултати е широко разпространена, т.е. идеи за резултатите, които могат да бъдат получени в резултат голямо числоповторения на измервателни процедури (лорд & Нович, 1968). Но провеждането на една и съща процедура за оценяване с един човек не е възможно. Следователно е необходимо да се търсят други възможности за решаване на проблема (Witlman, 1988).

Тази концепция прави определени допускания относно истинските резултати и грешките при измерване. Последните се приемат като независим фактор, което, разбира се, е напълно разумно предположение, тъй като случайните колебания в резултатите не дават ковариации: r EE =0.

Предполага се, че няма връзка между истинските резултати и грешките при измерване: rEE =0.


Общата грешка е 0, т.к Като истинска оценка се приема средноаритметичната стойност:

Тези предположения в крайна сметка ни водят до добре познатата дефиниция на надеждността като съотношението на истинския резултат към общата дисперсия или израза: 1 минус съотношението, чийто числител е грешката на измерване, а знаменателят е общата дисперсия:


, ИЛИ

От тази формула за определяне на надеждността получаваме дисперсията на грешката S 2 (E)равна на общата дисперсия в броя на случаите (1 – r XX "); по този начин, стандартна грешкаизмерванията се определят по формулата:

След теоретична обосновка на надеждността и нейните производни е необходимо да се определи индексът на надеждност на конкретен тест. Има практически процедури за оценка на надеждността на теста, като например използване на взаимозаменяеми формуляри (паралелни тестове), разделяне на елементи на две части, повторно тестване и измерване на вътрешна последователност. Всеки справочник съдържа индекси за съответствие на резултатите от теста:

r XX ’ =r(x 1 , x 2)

Където r XX ' - коефициент на стабилност и х 1 И х 2 - резултати от две измервания.

Концепцията за надеждност на взаимозаменяемите форми е въведена и развита от Gulliksen (1950). Тази процедура е доста трудоемка, тъй като е свързана с необходимостта от създаване на паралелна поредица от задачи

r XX ’ =r(x 1 , x 2)

Където r XX ' - коефициент на еквивалентност, и х 1 И х 2 - два паралелни теста.

Следващата процедура - разделяне на основното тесто на две части А и Б - е по-лесна за използване. Получените резултати от двете части на теста са корелирани. С помощта на формулата на Spearman-Brown се оценява надеждността на теста като цяло:

където A и B са две успоредни части на теста.

Следващият метод е да се определи вътрешната съгласуваност на тестовите задачи. Този метод се основава на определяне на ковариациите на отделните задачи. Sg е дисперсията на произволно избрана задача, а Sgh е ковариацията на две произволно избрани задачи. Най-често използваният коефициент за определяне на вътрешна консистенция е алфата на Кронбах. Използва се и формулата KR20 и λ-2(ламбда-2).

Класическата концепция за надеждност определя грешките в измерването, които възникват както по време на тестване, така и по време на наблюдения. Източниците на тези грешки са различни: това могат да бъдат лични характеристики, характеристики на условията на тестване и самите тестови задачи. Има специфични методи за изчисляване на грешките. Знаем, че наблюденията ни могат да се окажат погрешни, методическият ни инструментариум е несъвършен, както са несъвършени и самите хора. (Как да не помним Шекспир: „Недостоен си ти, чието име е човек“). Фактът, че в класическата теория на тестовете грешките в измерването са изложени изрично и обяснени, е важен положителен момент.

Класическата теория на тестовете има редица съществени характеристики, които също могат да се считат за нейни недостатъци. Някои от тези характеристики са отбелязани в справочниците, но тяхното значение (от ежедневна гледна точка) не се подчертава често, нито се отбелязва, че от теоретична или методологична гледна точка те трябва да се считат за недостатъци.

Първо. Класическата теория на тестовете и концепцията за надеждност са фокусирани върху изчисляването на общите резултати от тестовете, които са резултат от сумирането на резултатите, получени в отделните задачи. Да, при работа


Второ. Коефициентът на надеждност включва оценка на степента на разсейване на измерените показатели. От това следва, че коефициентът на надеждност ще бъде по-нисък, ако (при равни други показатели) извадката е по-хомогенна. Няма единичен коефициент на вътрешна съгласуваност на тестовите елементи; този коефициент винаги е „контекстуален“. Crocker и Algina (1986), например, предлагат специална формула за „корекция на хомогенна проба“, предназначена за най-високите и най-ниските резултати, получени от участниците в теста. Важно е диагностикът да знае характеристиките на вариацията в извадката от популацията, в противен случай той няма да може да използва вътрешните коефициенти на съгласуваност, посочени в ръководството за този тест.

трето. Феноменът на редукция до средно аритметично е логично следствие от класическата концепция за надеждност. Ако резултатът от теста варира (т.е. не е достатъчно надежден), тогава е възможно, когато процедурата се повтори, субектите с ниски резултати да получат по-високи резултати и обратно, субектите с ниски резултати. висока производителност- ниско. Този артефакт от процедурата на измерване не трябва да се бърка с истинска промяна или проява на процеси на развитие. Но в същото време не е лесно да се направи разлика между тях, защото... възможността за промяна по време на развитието никога не може да бъде изключена. За да сме напълно сигурни е необходимо сравнение с контролна група.

Четвъртата характеристика на тестовете, разработени в съответствие с принципите на класическата теория, е наличието на нормативни данни. Познаването на нормите на теста позволява на изследователя да интерпретира адекватно резултатите на участниците в теста. Извън нормите резултатите от тестовете са безсмислени. Разработването на тестови стандарти е доста скъпо начинание, тъй като психологът трябва да получи резултати от тестове от представителна извадка.

2 Ya ter Laak

Ако говорим за недостатъците на класическата концепция за надеждност, тогава е уместно да цитираме твърдението на Siytsma (1992, стр. 123-125). Той отбелязва, че първото и основно предположение на класическата теория на тестовете е, че резултатите от тестовете следват принципа на интервала. Въпреки това няма проучвания в подкрепа на това предположение. По същество това е „измерване по произволен начин установено правило" Тази характеристика поставя класическата теория на тестовете в неизгодно положение в сравнение със скалите за измерване на отношението и, разбира се, в сравнение със съвременната теория на тестовете. Много методи за анализ на данни (анализ на дисперсията. регресионен анализ, корелация и факторен анализ) се основават на предположението за съществуването на интервална скала. То обаче няма солидна основа. Разглеждането на скалата на истинските резултати като скала на стойностите на психологическите характеристики (например аритметични способности, интелигентност, невротизъм) може само да се предполага.

Втората забележка се отнася до факта, че резултатите от теста не са абсолютни показатели за една или друга психологическа характеристика на изследваното лице, а трябва да се разглеждат само като резултати от един или друг тест. Два теста може да имат за цел да изследват едни и същи психологически характеристики (напр. интелигентност, вербални способности, екстравертност), но това не означава, че двата теста са еквивалентни или имат еднакви способности. Сравняването на представянето на двама души, тествани с различни тестове, е неправилно. Същото важи и за един и същ участник, който попълва два различни теста. Третата точка се отнася до допускането, че стандартната грешка на измерване е една и съща за всяко ниво на индивидуална способност, което се измерва. Въпреки това, няма емпиричен тест на това предположение. Например, няма гаранция, че участник в теста с добри математически умения ще постигне висок резултат на сравнително прост аритметичен тест. В този случай човек с ниски или средни способности е по-вероятно да получи висока оценка.

В рамките на съвременната теория на тестовете или теорията за анализа на отговорите, тестовите задачи съдържат описание на голямо


брой модели на възможни отговори от респондентите. Тези модели се различават по допусканията, залегнали в тях, както и по изискванията към получените данни. Моделът на Rasch често се смята за синоним на теориите за анализ на отговора на елемента (1RT). Всъщност това е само един от моделите. Представената в него формула за описване на характеристичната крива на задачата g е следната:

Където ж- отделна тестова задача; експ- експоненциална функция (нелинейна зависимост); δ ("делта") - нивото на трудност на теста.

Други тестови елементи, напр. ч,също получават свои собствени характеристични криви. Условието е изпълнено δ h >δ g (gозначава, че ч- по-трудна задача. Следователно, за всяка стойност на индикатора Θ („тета“ - латентни свойства на способностите на участниците в теста) вероятност за успешно изпълнение на задачата чпо-малко. Този модел се нарича строг, защото е очевидно, че при ниска степен на изразяване на черта вероятността за изпълнение на задачата е близка до нула. В този модел няма място за догадки и догадки. За задачите с множествен избор не е необходимо да се правят предположения относно вероятността за успех. В допълнение, този модел е строг в смисъл, че всички тестови елементи трябва да имат еднаква дискриминационна способност (високата дискриминационност се отразява в стръмността на кривата; тук е възможно да се конструира скалата на Гутман, според която във всяка точка от характеристична крива вероятността за изпълнение на задачата варира от O до 1). Поради това условие не всички елементи могат да бъдат включени в тестове, базирани на модела на Rasch.

Има няколко варианта на този модел (напр. Birnbaura, 1968; вижте Lord & Novik). Позволява съществуването на задачи с различна дискриминация

способност.

Холандският изследовател Mokken (1971) разработи два модела за анализиране на отговорите на тестови елементи, които са по-малко строги от модела на Rasch и следователно може би по-реалистични. Като основно условие

Via Mokken излага предложението, че характерната крива на задачата трябва да следва монотонно, без прекъсвания. Всички тестови задачи са насочени към изучаване на една и съща психологическа характеристика, която трябва да бъде измерена V.Всяка форма на тази зависимост е разрешена, докато не бъде прекъсната. Следователно формата на характеристичната крива не се определя от някаква специфична функция. Тази „свобода“ ви позволява да използвате повече тестови задачи и нивото на оценка не е по-високо от обикновено.

Методологията на моделите на отговор на елемент (IRT) се различава от тази на повечето експериментални и корелационни изследвания. Математическият модел е предназначен да изследва поведенчески, когнитивни, емоционални характеристики, както и феномени на развитието. Тези въпросни явления често са ограничени до отговори на въпроси, което кара Меленберг (1990) да нарече IRT „теория за мини-поведение“. Резултатите от изследването могат до известна степен да бъдат представени като криви на последователност, особено в случаите, когато липсва теоретично разбиране на изследваните характеристики. Досега имаме на наше разположение само няколко теста за интелигентност, способности и личност, създадени въз основа на многобройни модели на теорията на IRT. Вариантите на модела на Rasch се използват по-често при разработването на тестове за постижения (Verhelst, 1993), докато моделите на Mokken са по-подходящи за феномени на развитието (вижте също Глава 6).

Отговорът на участниците в теста на тестовите елементи е основната единица на IRT моделите. Типът отговор се определя от степента на изразеност на изследваната характеристика в дадено лице. Такава характеристика може да бъде, например, аритметични или пространствени способности. В повечето случаи това е един или друг аспект на интелигентността, характеристиките на постиженията или личностните черти. Предполага се, че съществува нелинейна връзка между позицията на дадено лице в определен диапазон от изследваните характеристики и вероятността за успешно изпълнение на определена задача. Нелинейността на тази зависимост е в известен смисъл интуитивна. Известни фрази „Всяко начало е трудно“ (бавно не


линеен старт) и „Да станеш светец не е толкова лесно“ означават, че по-нататъшното усъвършенстване след достигане на определено ниво е трудно. Кривата бавно се приближава, но почти никога не достига 100% успеваемост.

Някои модели по-скоро противоречат на нашето интуитивно разбиране. Да вземем този пример. Човек с доброволен характерен индекс на интензитет от 1,5 има 60 процента вероятност за успех при изпълнение на задачата. Това противоречи на нашето интуитивно разбиране за такава ситуация, защото можете или успешно да се справите със задачата, или изобщо да не се справите с нея. Да вземем този пример: човек се опитва 100 пъти да достигне височина от 1 м 50 см. Успехът го съпътства 60 пъти, т.е. има 60 процента успех.

За да се оцени тежестта на дадена характеристика, са необходими поне две задачи. Моделът на Rasch включва определяне на тежестта на характеристиките, независимо от трудността на задачата. Това също противоречи на нашата интуиция: да предположим, че човек има 80% шанс да скочи над 1,30 м. Ако това е така, тогава според кривата на характеристиката на задачата той има 60% шанс да скочи над 1,50 м и 40% шанс. скачане над 1,50 м. Следователно, независимо от стойността на независимата променлива (височина), е възможно да се оцени способността на човек да скача високо.

Има около 50 IRT модела (Goldstein & Wood, 1989). Има много нелинейни функции, които описват (обясняват) вероятността за успех при изпълнение на задача или група от задачи. Изискванията и ограниченията на тези модели са различни и тези разлики могат да бъдат разкрити чрез сравняване на модела на Rasch и скалата на Mokken. Изискванията на тези модели включват:

1) необходимостта да се определи изследваната характеристика и да се оцени позицията на лицето в обхвата на тази черта;

2) оценка на последователността на задачите;

3) проверка конкретни модели. В психометрията са разработени много процедури за тестване на модела.

Някои справочници обсъждат IRT теорията като форма на анализ на тестови елементи (вижте, например,

Croker & Algina, J 986). Може обаче да се твърди, че IRT е „мини-теория за мини-поведението“. Поддръжниците на теорията за IRT отбелязват, че ако концепциите (модели) на средно ниво са несъвършени, тогава какво може да се каже за по-сложните конструкции в психологията?

Класически и съвременни теории за тестове. Хората не могат да не сравняват неща, които изглеждат почти еднакви. (Може би ежедневният еквивалент на психометрията се състои главно от сравняване на хора по значими характеристики и избор между тях.) Всяка от представените теории – теорията за измерване на грешките в оценката и математическият модел на отговорите на теста – има своите поддръжници (Goldstein & Wood, 1986).

IRT моделите не са обвинявани, че са „базирани на правила оценки“ като класическата теория на тестовете. Моделът IRT е фокусиран върху анализа на оценяваните характеристики. Характеристиките на личността и характеристиките на задачите се оценяват с помощта на скали (порядъчни или интервални). Освен това е възможно да се сравни представянето на различни тестове, насочени към изучаване на подобни характеристики. И накрая, надеждността не е еднаква за всяка стойност в скала и средните резултати обикновено са по-надеждни от резултатите в началото и края на скалата. По този начин IRT моделите изглеждат по-добри теоретично. Съществуват и разлики в практическото използване на съвременната теория на тестовете и класическата теория (Sijstma, 1992, стр. 127-130). Съвременната теория на тестовете е по-сложна от класическата, така че по-рядко се използва от неспециалисти. Освен това IRT има специфични изисквания към задачите. Това означава, че елементите трябва да бъдат изключени от теста, ако не отговарят на изискванията на модела. Това правило важи и за онези задачи, които са били част от широко използвани тестове, изградени на принципите на класическата теория. Тестът става по-кратък и следователно надеждността му намалява.

IRT предоставя математически модели за изследване на явления от реалния свят. Моделите трябва да ни помогнат да разберем ключовите аспекти на тези явления. Тук обаче се крие основният теоретичен въпрос. Могат да се разглеждат модели


като подход за изучаване на сложната реалност, в която живеем. Но моделът и реалността не са едно и също нещо. Според песимистичната гледна точка е възможно да се моделират само изолирани (и не най-интересните) типове поведение. Можете да срещнете и твърдението, че реалността изобщо не може да се моделира, т.к то се подчинява на нещо повече от законите за причината и следствието. IN най-добрият сценарийвъзможно е да се моделират индивидуални (идеални) поведенчески феномени. Съществува и друг, по-оптимистичен възглед за възможностите на моделирането. Горната позиция блокира възможността за дълбоко разбиране на природата на феномените на човешкото поведение. Прилагането на един или друг модел повдига някои общи, фундаментални въпроси. Според нас няма съмнение, че IRT е концепция, която теоретично и технически превъзхожда класическата теория на тестовете.

Практическото предназначение на тестовете, независимо на каква теоретична основа са създадени, е да определят значими критерии и на тяхна основа да установят характеристиките на определени психологически конструкти. И в това отношение моделът IRT има ли предимства? Възможно е тестовете, базирани на този модел, да не предсказват по-точно от тестовете, базирани на класическата теория, и е възможно техният принос за развитието на психологически конструкти да не е по-значим. Диагностиците предпочитат критерии, които са пряко свързани с индивида, институцията или общността. Модел, който е по-усъвършенстван от научна гледна точка „ipso facto“* не дефинира по-подходящ критерий и е до известна степен ограничен в обяснението на научни конструкции. Очевидно е, че разработването на тестове, базирани на класическата теория, ще продължи, но в същото време ще бъдат създадени нови IRT модели, които се простират до изследването Повече ▼психологически феномени.

В класическата теория на тестовете се разграничават понятията „надеждност“ и „валидност“. Резултатите от теста трябва да са надеждни, т.е. резултатите от първоначалното и повторното тестване трябва да са последователни. Освен това,

* дефакто(лак) - сам по себе си (прибл. превод).

резултатите не трябва (доколкото е възможно) да не съдържат грешки в оценката. Валидността е едно от изискванията за получените резултати. В този случай надеждността се счита за необходимо, но все още недостатъчно условие за валидността на теста.

Концепцията за валидност предполага, че констатациите се отнасят до нещо важно в практически или теоретичен план. Заключенията, направени от резултатите от теста, трябва да са валидни. Най-често се говори за два вида валидност: предсказуема (критерий) и конструктивна. Има и други видове валидност (вижте Глава 3). В допълнение, валидността може да бъде определена в случай на квази-експерименти (Cook & Campbell, 1976, Cook & Шадиш, 1994). Въпреки това, основният тип валидност все още е предсказуемата валидност, която се разбира като способността да се предвиди нещо значимо за бъдещото поведение от резултат от тест, както и възможността за по-задълбочено разбиране на определено психологическо свойство или качество.

Представените видове валидност се обсъждат във всеки справочник и са придружени от описание на методите за анализиране на валидността на теста. Факторният анализ е по-подходящ за определяне на валидността на конструкта, а уравненията на линейната регресия се използват за анализ на прогностичната валидност. Определени характеристики (успеваемост, ефективност на терапията) могат да бъдат прогнозирани въз основа на един или повече показатели, получени при работа с интелектуални или личностни тестове. Техники за обработка на данни като корелация, регресия, дисперсионен анализ, анализ на частични корелации и дисперсии се използват за определяне на предсказващата валидност на теста.

Често се описва и валидността на съдържанието. Предполага се, че всички задачи и задачи на теста трябва да принадлежат към определена област (психически свойства, поведение и др.). Концепцията за валидност на съдържанието характеризира съответствието на всеки тестов елемент с измерената област. Валидността на съдържанието понякога се разглежда като част от надеждността или „обобщаемостта“ (Cronbach, Gleser, Nanda & Rajaratnam, 1972). Въпреки това, когато


При избора на задачи за тестове за постижения в конкретна предметна област е важно да се обърне внимание и на правилата за включване на задачи в теста.

В класическата теория на тестовете надеждността и валидността се третират относително независимо една от друга. Но има и друго разбиране за връзката между тези понятия. Съвременната теория на тестовете се основава на използването на модели. Параметрите се оценяват в рамките на определен модел. Ако дадена задача не отговаря на изискванията на модела, тогава в рамките на този модел тя се счита за невалидна. Валидирането на конструкцията е част от проверката на самия модел. Това валидиране се отнася основно до тестване на съществуването на едномерна латентна черта, представляваща интерес, с известни характеристики на мащаба. Резултатите по скалата със сигурност могат да се използват за определяне на подходящи мерки и могат да бъдат съпоставени с мерки на други конструкции, за да се събере информация за конвергентната и дивергентната валидност на конструкцията.

Психодиагностиката е подобна на езика, описан като единство от четири компонента, представени на три нива. Първият компонент, теорията на тестовете, е аналогичен на синтаксиса, граматиката на езика. Генеративната граматика е, от една страна, гениален модел, а от друга система, която се подчинява на правила. С помощта на тези правила сложните изречения се изграждат на базата на прости утвърдителни изречения. В същото време обаче този моделоставя настрана описание на това как е организиран комуникационният процес (какво се предава и какво се възприема) и за какви цели се осъществява. Разбирането на това изисква допълнителни знания. Същото може да се каже и за теорията на тестовете: тя е необходима в психодиагностиката, но не е в състояние да обясни какво прави психодиагностикът и какви са неговите цели.

1.3.2. Психологически теории и психологически конструкти

Психодиагностиката винаги е диагностика на нещо конкретно: личностни характеристики, поведение, мислене, емоции. Тестовете са предназначени за оценка на индивидуалните различия. Има няколко концепции

индивидуални различия, всяка от които има свои собствени отличителни черти. Ако се признае, че психодиагностиката не се ограничава само до оценката на индивидуалните различия, тогава други теории стават съществени за психодиагностиката. Пример е оценката на различията в процесите на психично развитие и различията в социалната среда. Въпреки че оценяването на индивидуалните различия не е така незаменим атрибутпсиходиагностиката, въпреки това има определени традиции в изследванията в тази област. Психодиагностиката започва с оценка на разликите в интелигентността. Основната цел на тестовете беше „да се определи наследственото предаване на гениалността“ (Gallon) или подборът на деца за обучение (Binet, Simon). Измерването на IQ получи теоретично разбиране и практическо развитие в трудовете на Spearman (Великобритания) и Thurstone (САЩ). Реймънд Б. Кател направи подобно нещо, за да оцени личностните характеристики. Психодиагностиката става неразривно свързана с теориите и идеите за индивидуалните различия в постиженията (оценка на максималните възможности) и формите на поведение (ниво на типично функциониране). Тази традиция продължава да бъде ефективна и днес. IN учебницив психодиагностиката различията в социалната среда се оценяват много по-рядко в сравнение с разглеждането на характеристиките на самите процеси на развитие. Няма разумно обяснение за това. От една страна, диагностиката не се ограничава до определени теории и концепции. От друга страна, той се нуждае от теории, тъй като именно в тях се определя съдържанието, което се диагностицира (т.е. „какво“ се диагностицира). Така например интелигентността може да се разглежда като основни характеристикии като основа за много независими способности. Ако психодиагностиката се опитва да „избяга“ от тази или онази теория, тогава основата на психодиагностичния процес стават идеите на здравия разум. Изследвания използват различни начинианализ на данни, а общата логика на изследването определя избора на един или друг математически модел и определя структурата на използваните психологически концепции. Такива методи на математическата статистика


ki, като дисперсионен анализ, регресионен анализ, факторен анализ и изчисляване на корелации, предполагат съществуването на линейни зависимости. Ако тези методи се използват неправилно, те „въвеждат“ своята структура в получените данни и използваните конструкции.

Идеите за различията в социалната среда и развитието на личността почти не оказват влияние върху психодиагностиката. Учебници (виж, например, Murphy & Davidshofer, 1988) разглеждат класическата теория на тестовете и обсъждат подходящи методи за статистическа обработка, описват добре известни тестове и обсъждат използването на психодиагностиката в практиката: в психологията на управлението, в подбора на персонал, в оценката човешки психологически характеристики.

Теориите за индивидуалните различия (както и идеите за различията между социалната среда и умственото развитие) са аналогични на изследването на семантиката на езика. Това е изследване на същността, съдържанието и значението. Значенията са структурирани по определен начин (подобно на психологическите конструкции), например чрез сходство или контраст (аналогия, конвергенция, дивергенция).

1.3.3. Психологически тестове и други методически инструменти

Третият компонент на предложената схема са тестове, процедури и методически средства, с помощта на които се събира информация за характеристиките на личността. Drene and Sijtsma (1990, p. 31) дефинират тестовете по следния начин: „Психологическият тест се разглежда като класификация според определена система или като процедура за измерване, която позволява да се направи определена преценка относно един или повече емпирично изолирани или теоретично базирани характеристики на конкретен аспект на човешкото поведение (в рамките на тестовата ситуация). В този случай се изследва отговорът на респондентите на определен брой внимателно подбрани стимули и получените отговори се сравняват с тестовите норми.

Диагностиката изисква тестове и техники за събиране на надеждна, точна и валидна информация за характеристиките

И характерни особеностиличността, за човешкото мислене, емоции и поведение. В допълнение към разработването на тестови процедури, този компонент включва и следните въпроси: как се създават тестове, как се формулират и избират задачи, как протича процесът на тестване, какви са изискванията за условията на тестване, как се вземат предвид грешките при измерване , как се изчисляват и интерпретират резултатите от теста.

Процесът на разработване на тестове прави разлика между рационални и емпирични стратегии. Прилагането на рационална стратегия започва с дефиниране на основни понятия (например концепцията за интелигентност, екстраверсия), а тестовите задачи се формулират в съответствие с тези понятия. Пример за такава стратегия е концепцията за аспектен анализ (фасетната теория) на Гутман (1957, 1968, 1978). Първо се определят различни аспекти на основните конструкции, след което задачите и заданията се избират по такъв начин, че всеки от тези аспекти да бъде взет предвид. Втората стратегия е, че задачите се избират на емпирична основа. Например, ако изследовател се опитваше да създаде тест за професионален интерес, който би разграничил лекарите от инженерите, това би била процедурата. И двете групи респонденти трябва да отговорят на всички тестови задачи, като онези задачи, за които са открити статистически значими разлики, се включват във финалния тест. Ако например има разлики между групите в отговорите на твърдението „Обичам да ловя риба“, тогава това твърдение става елемент от теста. Централната предпоставка на тази книга е, че тестът е свързан с концептуална или таксономична теория, която определя тези характеристики.

Целта на теста обикновено се определя в инструкциите за неговото използване. Тестът трябва да бъде стандартизиран, така че да може да оценява разликите между индивидите, а не между условията на теста. Съществуват обаче отклонения от стандартизацията в процедурите, наречени „тестване на границите“ и „тестове за потенциал за учене“. При тези условия респондентът се подпомага в процеса


тестване и след това оценява ефекта от такава процедура върху резултата. Точкуването на отговорите на задачите е обективно, т.е. се извършва в съответствие със стандартната процедура. Тълкуването на получените резултати също е строго дефинирано и се извършва на базата на тестови стандарти.

Третият компонент на психодиагностиката - психологически тестове, инструменти, процедури - съдържа определени задачи, които са най-малките единици на психодиагностиката и в този смисъл задачите са подобни на фонемите на езика. Броят на възможните комбинации от фонеми е ограничен. Само определени фонемни структури могат да образуват думи и изречения, които гарантират, че информацията се предава на слушателя. Също Итестови задачи: само в определена комбинация помежду си могат да станат ефективни средстваоценка на съответния конструкт.

ДОКЛАД

ученик 137гр. Иванова И.

върху тестването на ефективността на методите на обучение
използване на методите на математическата статистика

Разделите на доклада се изготвят в съответствие с образците, дадени в това ръководство в края на всеки етап от играта. Попълнените протоколи се съхраняват в катедра Биомеханика до консултация преди изпита. До изпит по спортна метрология не се допускат ученици, които не са се отчели за свършената работа и не са предали на преподавателя тетрадката с отчета.


I етап на бизнес играта
Контрол и измерване в спорта

Мишена:

1. Запознайте се с теоретичните основи на контрола и измерването в спорта и физическо възпитание.

2. Придобиване на умения за измерване на скоростните показатели при спортисти.

1. Физически контрол
образование и спорт

Физическото възпитание и спортната подготовка не е спонтанен, а контролиран процес. Във всеки момент човек се намира в определено физическо състояние, което се определя главно от здравето (съответствие на жизнените показатели с нормата, степента на устойчивост на организма към неблагоприятни внезапни влияния), физиката и състоянието на физическите функции .

Препоръчително е да управлявате физическото състояние на човек, като го променяте в правилната посока. Това управление се осъществява чрез физическо възпитание и спорт, които по-специално включват физически упражнения.

Изглежда само, че учителят (или треньорът) контролира физическото състояние, влияейки върху поведението на спортиста, т.е. предлагане на определени физически упражнения, както и следене за правилността на изпълнението им и получените резултати. В действителност поведението на спортиста се контролира не от треньора, а от самия спортист. По време на спортната тренировка се влияе върху самоуправляващата се система (човешкото тяло). Индивидуалните различия в състоянието на спортистите не дават увереност, че едно и също въздействие ще предизвика една и съща реакция. Следователно релевантният въпрос е за обратна връзка: информация за състоянието на спортиста, получена от треньора по време на контрола на тренировъчния процес.

Контролът във физическото възпитание и спорта се основава на измерване на показателите, избиране на най-значимите от тях и тяхната математическа обработка.

Управлението на образователния и обучителен процес включва три етапа:

1) събиране на информация;

2) неговият анализ;

3) вземане на решения (планиране).

Събирането на информация обикновено се извършва по време на цялостен контрол, обект на който са:

1) конкурентна дейност;

2) тренировъчни натоварвания;

3) състоянието на спортиста.



Има (V.A. Zaporozhanov) три вида състояния на спортиста в зависимост от продължителността на интервала, необходим за преход от едно състояние към друго.

1. Постановка(постоянно) състояние. Запазено сравнително дълго –седмици или месеци. Комплексна характеристика на етапното състояние на спортиста, отразяваща способността му да демонстрира спортни постижения, се нарича подготвеност, а състоянието на оптимална (най-добра за даден тренировъчен цикъл) подготвеност се нарича спортна униформа. Очевидно е, че състояние на атлетична годност не може да бъде постигнато или загубено в рамките на един или няколко дни.

2. Текущсъстояние. Промени под влияние на един или няколко класа. Често последствията от участие в състезания или представяне в един от класовете тренировъчна работапродължава няколко дни. В този случай спортистът обикновено отбелязва явления както от неблагоприятно естество (например мускулна болка), така и от положително (например състояние на повишена работоспособност). Такива промени се наричат забавен тренировъчен ефект.

Текущото състояние на спортиста определя характера на следващите тренировки и големината на натоварванията в тях. Частен случай на текущото състояние, характеризиращ се с готовност за изпълнение в следващите днисе нарича състезателно упражнение с резултат близък до максималния текуща готовност.

3. Оперативенсъстояние. Промени под влияние еднократно изпълнение физически упражненияи е временна (например умора, причинена от еднократно бягане на разстояние; временно повишаване на ефективността след загряване). Оперативното състояние на спортиста се променя по време на тренировъчната сесия и трябва да се вземе предвид при планиране на интервали за почивка между подходи, повторни състезания, при вземане на решение относно целесъобразността на допълнително загряване и др. Специален случай на оперативно състояние, характеризиращ се с незабавна готовност за изпълнение на състезателно упражнение с резултат, близък до максималния, се нарича оперативна готовност.

В съответствие с горната класификация има три основни вида наблюдение на състоянието на спортиста:

1) сценичен контрол. Целта му е да оцени етапното състояние (подготвеност) на спортиста;

2) текущ контрол. Основната му задача е да определя ежедневните (текущи) колебания в състоянието на спортиста;

3) оперативен контрол . Целта му е бърза оценка на състоянието на спортиста в момента.

Нарича се измерване или тест, извършен за определяне на състоянието или способността на даден спортист тест. Процедурата за измерване или изпитване се нарича тестване.

Всеки тест включва измерване. Но не всяко измерване служи като тест. Само тези, които отговарят на следните метрологични изисквания, могат да се използват като изпитвания: изисквания:

2) стандартизация;

3) наличието на рейтингова система;

4) надеждност и информативност (фактор на качеството) на тестовете;

5) вид контрол (поетапен, текущ или оперативен).

Тест, базиран на двигателни задачи, се нарича моторен. Има три групи двигателни тестове:

1. Контролни упражнения, при които състезателят има за задача да покаже максимални резултати. Резултатът от теста е двигателно постижение. Например времето, необходимо на един спортист да пробяга разстояние от 100 m.

2. Стандартен функционални тестове, при което задачата, еднаква за всички, се дозира или според обема на извършената работа, или според големината на физиологичните промени. Резултатът от изследването е физиологични или биохимични показатели при стандартна работаили двигателни постижения със стандартно количество физиологични промени. Например процентното увеличение на пулса след 20 клякания или скоростта, с която атлетът тича с фиксиран пулс от 160 удара в минута.

3. Максимални функционални тестове, по време на които спортистът трябва да покаже максимални резултати. Резултатът от изследването е физиологични или биохимични показатели при максимална работа. Например максимална консумация на кислород или максимален кислороден дълг.

Висококачественото тестване изисква познаване на теорията на измерването.

Какво е тестване

В съответствие с IEEE Std 829-1983 Тестванее процес на анализ на софтуера, насочен към идентифициране на разликите между неговите действителни и изисквани свойства (дефект) и към оценка на свойствата на софтуера.

Съгласно GOST R ISO IEC 12207-99 c жизнен цикълСофтуерът дефинира, наред с други, поддържащи процеси за проверка, сертифициране, съвместен анализ и одит. Процесът на проверка е процесът на определяне, че софтуерните продукти функционират в пълно съответствие с изискванията или условията, въведени в предишната работа. Този процес може да включва анализ, проверка и тестване (тестване). Процесът на сертифициране е процесът на определяне на пълното съответствие на установените изисквания, създадената система или софтуерен продукт с тях функционално предназначение. Процесът на съвместен преглед е процес на оценка на състоянията и, ако е необходимо, на резултатите от работата (продуктите) на проекта. Процесът на одит е процес на определяне на съответствие с изискванията, плановете и условията на договора. Заедно тези процеси образуват това, което обикновено се нарича тестване.

Тестването се основава на тестови процедури със специфични входни данни, начални условия и очакван изход, предназначени за конкретна цел, като например тестване на една програма или проверка на съответствието с специфично изискване. Тестовите процедури могат да тестват различни аспекти на функционирането на програмата, от правилна работа отделна функциядокато бизнес изискванията не бъдат адекватно изпълнени.

При изпълнението на даден проект е необходимо да се обмисли в съответствие с какви стандарти и изисквания ще бъде тестван продуктът. Какви инструменти (ако има такива) ще бъдат използвани за намиране и документиране на откритите дефекти. Ако си спомняте за тестването от самото начало на проекта, тестването на продукта в процес на разработка няма да донесе неприятни изненади. Това означава, че качеството на продукта най-вероятно ще бъде доста високо.

Жизнен цикъл на продукта и тестване

В наши дни все по-често се използват итеративни процеси за разработка на софтуер, по-специално технология RUP - Rational Unified Process(Фиг. 1). С този подход тестването престава да бъде „необходим” процес, който се случва, след като програмистите са написали целия необходим код. Работата по тестовете започва от самото начало начална фазаидентифициране на изискванията за бъдещ продукт и тясно интегриране с настоящите задачи. И това поставя нови изисквания към тестерите. Тяхната роля не се ограничава до просто идентифициране на грешки възможно най-пълно и възможно най-рано. Те трябва да участват в цялостния процес на идентифициране и справяне с най-значимите рискове по проекта. За да направите това, за всяка итерация се определя целта на тестването и методите за нейното постигане. И в края на всяка итерация се определя до каква степен е постигната тази цел, дали са необходими допълнителни тестове и дали трябва да се променят принципите и инструментите за провеждане на тестове. От своя страна, всеки открит дефект трябва да премине през собствен жизнен цикъл.

Ориз. 1. Жизнен цикъл на продукта съгласно RUP

Тестването обикновено се провежда на цикли, всеки от които има определен списък от задачи и цели. Цикълът на тестване може да съвпадне с итерация или да съответства на определена част от нея. Обикновено се извършва цикъл на тестване за конкретна система.

Жизненият цикъл на софтуерния продукт се състои от поредица от относително кратки итерации (Фигура 2). Итерацията е завършен цикъл на разработка, водещ до издание. краен продуктили някаква негова съкратена версия, която се разширява от итерация на итерация, за да стане в крайна сметка пълна система.

Всяка итерация обикновено включва задачи за планиране на работата, анализ, проектиране, внедряване, тестване и оценка на постигнатите резултати. Връзката между тези задачи обаче може да се промени значително. В съответствие с връзката между различните задачи в една итерация, те се групират във фази. Първата фаза, Начало, се фокусира върху задачите за анализ. Итерациите на втората фаза, Разработка, се фокусират върху проектирането и тестването на ключови дизайнерски решения. В третата фаза - Изграждане - най-голям е делът на задачите за разработка и тестване. И в последната фаза - Трансфер - в най-голяма степен се решават задачите по тестване и прехвърляне на системата към Клиента.

Ориз. 2. Итерации на жизнения цикъл на софтуерния продукт

Всяка фаза има свои специфични цели в жизнения цикъл на продукта и се счита за завършена, когато тези цели бъдат постигнати. Всички итерации, с изключение може би итерациите на началната фаза, завършват със създаването на функционираща версия на разработваната система.

Тестови категории

Тестовете се различават значително по проблемите, които решават, и технологията, която използват.

Тестови категории Описание на категорията Видове тестове
Текущи тестове Набор от тестове, извършени за определяне на функционалността на добавените нови системни функции.
  • Стрес тестване;
  • тестване на бизнес цикъл;
  • стрес тестване.
Регресионно тестване Целта на регресионното тестване е да се провери дали допълненията към системата не намаляват нейните възможности, т.е. тестването се извършва според изискванията, които вече са изпълнени, преди да се добавят нови функции.
  • Стрес тестване;
  • тестване на бизнес цикъл;
  • стрес тестване.

Тестване на подкатегории

Тестване на подкатегории Описание на вида на изпитването Подвидове тестване
Стрес тестване Използва се за тестване на всички функции на приложението без изключение. IN в такъв случайРедът, в който се тестват функциите, няма значение.
  • функционално тестване;
  • тестване на интерфейси;
  • тестване на бази данни
Тестване на бизнес цикъла Използва се за тестване на функциите на приложението в последователността, в която се извикват от потребителя. Например, симулиране на всички действия на счетоводител за 1-во тримесечие.
  • модулно тестване (единично тестване);
  • функционално тестване;
  • тестване на интерфейси;
  • тестване на бази данни.
Стрес тестване

Използва се за тестване

Производителност на приложението. Целта на това тестване е да се определи обхватът на стабилна работа на приложението. По време на това тестване се извикват всички налични функции.

  • модулно тестване (единично тестване);
  • функционално тестване;
  • тестване на интерфейси;
  • тестване на бази данни.

Видове тестове

Единично тестване (единично тестване) - този видвключва тестване на отделни модули на приложението. За да се получат максимални резултати, тестването се извършва едновременно с разработването на модулите.

Функционално тестване - Целта на това тестване е да се гарантира, че тестовият елемент функционира правилно. Тества се коректността на навигацията през обекта, както и въвеждането, обработката и изхода на данни.

Тестване на бази данни - проверка на функционалността на базата данни при нормална работа на приложението, при претоварване и в многопотребителски режим.

Единично тестване

За OOP обичайният начин за организиране на модулно тестване е да се тестват методите на всеки клас, след това класът на всеки пакет и т.н. Постепенно преминаваме към тестване на целия проект, като досегашните тестове са от регресионен тип.

Изходната документация на тези тестове включва тестови процедури, входни данни, код, изпълняващ теста, и изходни данни. Следва типът изходна документация.

Функционално тестване

Функционалното тестване на тестовия елемент се планира и провежда въз основа на изискванията за тестване, посочени по време на етапа на дефиниране на изискванията. Изискванията включват бизнес правила, диаграми на случаи на използване, бизнес функции и, ако има такива, диаграми на дейности. Целта на функционалните тестове е да се провери дали разработените графични компоненти отговарят на определените изисквания.

Този тип тестване не може да бъде напълно автоматизирано. Следователно той се разделя на:

  • Автоматично тестване (ще се използва в случай, че е възможно да се провери изходната информация).

Предназначение: да се тества въвеждане, обработка и извеждане на данни;

  • Ръчно тестване (в други случаи).

Цел: Тества дали изискванията на потребителя са изпълнени правилно.

Необходимо е да се изпълни (пусне) всеки от случаите на използване, като се използват както правилни стойности, така и очевидно грешни, за да се потвърди правилното функциониране, съгласно следните критерии:

  • продуктът реагира адекватно на всички входни данни (очакваните резултати се извеждат в отговор на правилно въведени данни);
  • продуктът реагира адекватно на неправилно въведени данни (появяват се съответни съобщения за грешка).

Тестване на бази данни

Целта на това тестване е да се гарантира надеждността на методите за достъп до базата данни, тяхното правилно изпълнение, без да се нарушава целостта на данните.

Необходимо е да се използват възможно най-много извиквания към база данни последователно. Използва се подход, при който тестът е проектиран по такъв начин, че да „зарежда“ базата данни с поредица както от правилни стойности, така и от очевидно грешни. Определя се реакцията на базата данни при въвеждане на данни и се оценяват интервалите от време за тяхната обработка.

Основи на теорията на тестовете 1. Основни понятия на теорията на тестовете 2. Надеждността на теста и начините за определянето му

Тестови въпроси 1. Как се нарича тестът? 2. Какви са изискванията за теста? 3. Какви тестове се наричат ​​автентични? 4. Каква е надеждността на теста? 5. Избройте причините, които причиняват вариации в резултатите по време на многократно тестване. 6. По какво се различава вътрешнокласовата вариация от междукласовата? 7. Как практически да се определи надеждността на даден тест? 8. Каква е разликата между последователност и стабилност на теста? 9. Каква е еквивалентността на тестовете? 10. Какво е хомогенен набор от тестове? 11. Какво е разнороден набор от тестове? 12. Начини за подобряване на надеждността на тестовете.

Тестът е измерване или тест, извършен за определяне на състоянието или способността на дадено лице. Не всички измервания могат да се използват като тестове, а само тези, които отговарят на специални изисквания. Те включват: 1. стандартизация (процедурата и условията на тестване трябва да са еднакви във всички случаи на използване на теста); 2. надеждност; 3. информационно съдържание; 4. Наличие на рейтингова система.

Изисквания към теста: n Информационно съдържание - степента на точност, с която измерва свойството (качество, способност, характеристика), за което се използва за оценка. n Надеждността е степента, в която резултатите са последователни, когато едни и същи хора се тестват многократно при едни и същи условия. Консистенция - ( различни хора, но същите устройства и същите условия). n n Стандартност на условията - (същите условия за многократни измервания). n Наличие на система за оценяване - (превод в система за оценяване. Като в училище 5 -4 -3...).

Тестовете, които отговарят на изискванията за надеждност и информационно съдържание, се наричат ​​звукови или автентични (на гръцки authentiko - по надежден начин)

Процесът на тестване се нарича тестване; получено измерване числова стойност- резултат от теста (или резултат от теста). Например бягането на 100 м е тест, процедурата за провеждане на състезания и време е тестване, времето на състезанието е резултат от теста.

Тестовете, базирани на двигателни задачи, се наричат ​​моторни или моторни тестове. Техните резултати могат да бъдат или двигателни постижения (време за изминаване на разстоянието, брой повторения, изминато разстояние и т.н.), или физиологични и биохимични показатели.

Понякога се използват не един, а няколко теста, които имат една крайна цел (например оценка на състоянието на спортиста по време на състезателния тренировъчен период). Такава група от тестове се нарича комплект или батерия от тестове.

Един и същи тест, приложен към едни и същи субекти, трябва да дава идентични резултати при същите условия (освен ако самите субекти не са се променили). Въпреки това, дори при най-строга стандартизация и прецизно оборудване, резултатите от тестовете винаги варират до известна степен. Например субект, който току-що е показал резултат от 215 kG в динамометричния тест за мъртва тяга, когато се повтори, показва само 190 kG.

Надеждност на тестовете и начини за определянето им Надеждността на теста е степента на съответствие на резултатите при многократно тестване на същите хора (или други обекти) при едни и същи условия.

Вариациите в резултатите от тест-повторен тест се наричат ​​в рамките на индивида, или в рамките на групата, или в рамките на класа. Четири основни причини причиняват тази вариация: 1. Промяна в състоянието на субектите (умора, обучение, „учене“, промяна в мотивацията, концентрацията и т.н.). 2. Неконтролирани промени във външни условия и оборудване (температура, вятър, влажност, напрежение в електрическата мрежа, присъствие на неупълномощени лица и т.н.), т.е. всичко, което се обединява от термина "случайна грешка при измерване".

Четири основни причини причиняват тази вариация: 3. Промяна в състоянието на лицето, което провежда или оценява теста (и, разбира се, замяната на един експериментатор или съдия с друг). 4. Несъвършенство на теста (има тестове, които очевидно са ненадеждни. Например, ако субектите правят наказателни хвърляния в баскетболен кош, тогава дори баскетболист с висок процент на попадения може случайно да направи грешка при първите хвърляния ).

Концепцията за истински резултат от теста е абстракция (не може да бъде измерена експериментално). Следователно трябва да използваме косвени методи. Най-предпочитаният метод за оценка на надеждността е анализът на дисперсията, последван от изчисляване на коефициентите на вътрешнокласова корелация. Анализът на дисперсията дава възможност да се разложи експериментално регистрираната вариация в резултатите от теста на компоненти, определени от влиянието на отделните фактори.

Ако регистрирате резултатите на субектите в който и да е тест, повторете този тест в различни дни, и правете няколко опита всеки ден, като периодично сменяте експериментаторите, тогава ще се появят вариации: а) от субект на субект; n б) от ден на ден; n в) от експериментатор към експериментатор; н г) от опит до опит. Анализът на дисперсията дава възможност да се изолират и оценят тези вариации. н

По този начин, за да се оцени практическата надеждност на теста, е необходимо, n първо, да се извърши анализ на дисперсията, n второ, да се изчисли вътрешнокласовият коефициент на корелация (коефициент на надеждност).

Говорейки за надеждността на тестовете, е необходимо да се прави разлика между тяхната стабилност (възпроизводимост), последователност и еквивалентност. n n Стабилността на теста се отнася до възпроизводимостта на резултатите, когато се повтаря след определено време при същите условия. Повторното тестване обикновено се нарича повторно тестване. Последователността на теста се характеризира с независимостта на резултатите от теста от личните качества на лицето, което провежда или оценява теста.

Ако всички тестове, включени в набор от тестове, са силно еквивалентни, той се нарича хомогенен. Целият този комплекс измерва едно свойство на двигателните умения на човека (например комплекс, състоящ се от скок на дължина, нагоре и троен скок; оценява се нивото на развитие на скоростно-силовите качества). Ако в комплекса няма еквивалентни тестове, т.е. тестовете, включени в него, измерват различни свойства, тогава той се нарича хетерогенен (например комплекс, състоящ се от динамометрия на мъртва тяга, скок на Абалаков, бягане на 100 м).

Надеждността на теста може да бъде подобрена до известна степен чрез: n n n a) по-строга стандартизация на тестването; б) увеличаване на броя на опитите; в) увеличаване на броя на оценителите (съдии, експерименти) и повишаване на последователността на техните мнения; г) увеличаване на броя на еквивалентните тестове; д) по-добра мотивация на изследваните лица.

ГЛАВА 3. СТАТИСТИЧЕСКА ОБРАБОТКА НА РЕЗУЛТАТИТЕ ОТ ИЗПИТВАНЕТО

Статистическата обработка на резултатите от теста позволява, от една страна, да се определят обективно резултатите на субектите, от друга страна, да се оцени качеството на самия тест, тестови задачи, по-специално за оценка на неговата надеждност. Проблемът с надеждността е получил много внимание в класическата теория на тестовете. Тази теория не е загубила своята актуалност днес. Въпреки появата на по-модерни теории, класическата теория продължава да запазва своите позиции.

3.1. ОСНОВНИ ПОЛОЖЕНИЯ НА КЛАСИЧЕСКАТА ТЕОРИЯ НА ТЕСТА

3.2. МАТРИЦА НА РЕЗУЛТАТИТЕ ОТ ТЕСТА

3.3. ГРАФИЧНО ПРЕДСТАВЯНЕ НА РЕЗУЛТАТА ОТ ТЕСТА

3.4. МЕРКИ НА ЦЕНТРАЛНАТА ТЕНДЕНЦИЯ

3.5. НОРМАЛНА ДИСТРИБУЦИЯ

3.6. ВАРИАЦИЯ НА ТЕСТОВИТЕ РЕЗУЛТАТИ НА ПРЕДМЕТИТЕ

3.7. КОРЕЛАЦИОННА МАТРИЦА

3.8. НАДЕЖДНОСТ НА ТЕСТА

3.9. ВАЛИДНОСТ НА ТЕСТА

ЛИТЕРАТУРА

ОСНОВНИ ПОЛОЖЕНИЯ НА КЛАСИЧЕСКАТА ТЕОРИЯ НА ТЕСТА

Създател на Класическата теория на умствените тестове е известният британски психолог, автор на факторния анализ Чарлз Едуард Спирман (1863-1945) 1. Той е роден на 10 септември 1863 г. и е служил в британската армия през една четвърт от живота си. Поради тази причина той получава докторска степен едва на 41 2 години. Чарлз Спиърман провежда своето дисертационно изследване в Лайпцигската лаборатория по експериментална психология под ръководството на Вилхелм Вунд. По това време Чарлз Спиърман е силно повлиян от работата на Франсис Галтън за тестване на човешкия интелект. Учениците на Чарлз Спиърман бяха Р. Кател и Д. Уекслер. Сред неговите последователи са А. Анастази, Дж. П. Гилфорд, П. Върнън, К. Бърт, А. Йенсен.

Люис Гутман (1916-1987) има голям принос за развитието на класическата теория на тестовете.

Класическата теория на тестовете е представена за първи път изчерпателно и пълно във фундаменталния труд на Харолд Гуликсен (Gulliksen H., 1950) 4 . Оттогава теорията е донякъде модифицирана, по-специално математическият апарат е подобрен. Класическата теория на тестовете в съвременна презентация е дадена в книгата Crocker L., Aligna J. (1986) 5. Сред местните изследователи В. Аванесов (1989) 6 е първият, който описва тази теория. В работата на Челишкова M.B. (2002) 7 предоставя информация за статистическата обосновка на качеството на теста.

Класическата теория на тестовете се основава на следните пет основни принципа.

1. Емпирично полученият резултат от измерването (X) е сумата от истинския резултат от измерването (T) и грешката на измерване (E) 8:

X = T + E (3.1.1)

Стойностите на T и E обикновено са неизвестни.

2. Истинският резултат от измерването може да се изрази като математическото очакване E(X):

3. Корелацията на истинските и неверните компоненти в набора от субекти е нула, т.е. ρ TE = 0.

4. Грешните компоненти на всеки два теста не корелират:

5. Грешните компоненти на един тест не корелират с истинските компоненти на който и да е друг тест:

Освен това основата на класическата теория на тестовете се формира от две дефиниции – паралелни и еквивалентни тестове.

ПАРАЛЕЛНИТЕ тестове трябва да отговарят на изискванията (1-5), истинските компоненти на един тест (T 1) трябва да бъдат равни на истинските компоненти на другия тест (T 2) във всяка извадка от субекти, отговарящи и на двата теста. Приема се, че T 1 = T 2 и освен това са равни на дисперсията s 1 2 = s 2 2.

Еквивалентните тестове трябва да отговарят на всички изисквания на паралелните тестове с едно изключение: истинските компоненти на един тест не трябва да са равни на истинските компоненти на друг паралелен тест, но трябва да се различават с една и съща константа с.

Условието за еквивалентност на два теста се записва, както следва:

където c 12 е константата между резултатите от първия и втория тест.

Въз основа на горните разпоредби е изградена теория за надеждността на теста 9,10.

това означава, че дисперсията на получените резултати от теста е равна на сбора от дисперсиите на компонентите истина и грешка.

Нека пренапишем този израз, както следва:

(3.1.3)

Дясна часттова равенство представлява надеждността на теста ( r). По този начин надеждността на теста може да бъде записана като:

Въз основа на тази формула впоследствие бяха предложени различни изрази за намиране на коефициента на надеждност на теста. Надеждността на теста е негова най-важната характеристика. Ако надеждността е неизвестна, резултатите от теста не могат да бъдат интерпретирани. Надеждността на теста характеризира неговата точност като инструмент за измерване. Високата надеждност означава висока повторяемост на резултатите от теста при едни и същи условия.

В класическата теория на тестовете най-важният проблем е определянето на истинския тестов резултат на субекта (T). Емпиричният тестов резултат (X) зависи от много условия - ниво на трудност на задачите, ниво на подготвеност на участниците в теста, брой задачи, условия на тестване и др. В група от силни, добре подготвени субекти резултатите от теста обикновено ще бъдат по-добри. отколкото в група от слабо обучени субекти. В тази връзка остава отворен въпросът за величината на мярката за трудност на задачата за общата съвкупност от предмети. Проблемът е, че реални емпирични данни се получават от напълно произволни извадки от субекти. По правило това са учебни групи, които представляват множество студенти, които взаимодействат доста силно помежду си в учебния процес и учат в условия, които често не се повтарят за други групи.

Ще намерим s Eот уравнение (3.1.4)

Тук изрично е показана зависимостта на точността на измерване от стандартното отклонение s Xи върху надеждността на теста r.