Mathematische Grundlagen der Theorie des Testdesigns. Theoretische Grundlagen des Testens


Die erste Komponente, die Testtheorie, enthält eine Beschreibung statistischer Modelle zur Verarbeitung diagnostischer Daten. Es enthält Modelle zur Analyse von Antworten in Testaufgaben und Modelle zur Berechnung der Gesamttestergebnisse. Mellenberg (1980, 1990) nannte es „Psychometrie“. Klassische Testtheorie, moderne Testtheorie (oder Test Response Analysis Model - IRT) und Modell


Item-Samples stellen die drei wichtigsten Typen testtheoretischer Modelle dar. Gegenstand der Betrachtung der Psychodiagnostik sind die ersten beiden Modelle.

Klassische Testtheorie. Basierend auf dieser Theorie wurden die meisten intellektuellen und Persönlichkeitstests entwickelt. Der zentrale Begriff dieser Theorie ist der Begriff der „Zuverlässigkeit“. Reliabilität bezieht sich auf die Konsistenz der Ergebnisse bei einer Neubewertung. In Referenzhandbüchern wird dieses Konzept normalerweise sehr kurz vorgestellt und dann gegeben detaillierte Beschreibung Apparat für mathematische Statistik. In diesem einführenden Kapitel werden wir eine kurze Beschreibung der Hauptbedeutung des erwähnten Konzepts präsentieren. In der klassischen Testtheorie wird unter Reliabilität die Wiederholbarkeit der Ergebnisse mehrerer Messverfahren (hauptsächlich Messungen mit Tests) verstanden. Das Konzept der Zuverlässigkeit beinhaltet die Berechnung des Messfehlers. Die während des Testverfahrens erhaltenen Ergebnisse können als Summe des wahren Ergebnisses und des Messfehlers dargestellt werden:

Xi = Ti+ Ej

wo Xi ist die Bewertung der erhaltenen Ergebnisse, Ti ist das wahre Ergebnis, und Ej- Messfehler.

Die Bewertung der erzielten Ergebnisse ist in der Regel die Anzahl der richtigen Antworten auf die Testaufgaben. Das wahre Ergebnis kann als wahre Bewertung im platonischen Sinne angesehen werden (Gulliksen, 1950). Das Konzept der erwarteten Ergebnisse ist weit verbreitet, d.h. Vorstellungen über Scores, die man durch eine große Anzahl von Wiederholungen von Messverfahren erhalten kann (Lord & Nowitsch, 1968). Die Durchführung des gleichen Bewertungsverfahrens mit einer Person ist jedoch nicht möglich. Daher ist es notwendig, nach anderen Lösungen für das Problem zu suchen (Witlman, 1988).

Innerhalb dieses Konzepts werden einige Annahmen über die wahren Ergebnisse und Messfehler getroffen. Letztere werden als unabhängiger Faktor angenommen, was natürlich eine vernünftige Annahme ist, da zufällige Schwankungen in den Ergebnissen keine Kovarianzen ergeben: r EE = 0.

Es wird davon ausgegangen, dass es keine Korrelation zwischen True Scores und Messfehlern gibt: rEE=0.


Der Gesamtfehler ist 0, weil als wahre Schätzung wird das arithmetische Mittel genommen:

Diese Annahmen führen uns zu der bekannten Definition der Zuverlässigkeit als Verhältnis des wahren Ergebnisses zur Gesamtvarianz oder zum Ausdruck: 1 minus Verhältnis, in dessen Zähler der Messfehler und in dessen Nenner die Gesamtvarianz steht:


, ODER

Aus dieser Formel zur Bestimmung der Zuverlässigkeit erhalten wir die Fehlervarianz S2 (E) ist gleich der Gesamtvarianz in der Anzahl der Fälle (1 – r XX "); also Standart Fehler Die Messung wird durch die Formel bestimmt:

Nach der theoretischen Begründung der Zuverlässigkeit und ihrer Ableitungen ist es notwendig, den Zuverlässigkeitsindex eines bestimmten Tests zu bestimmen. Es gibt praktische Verfahren zur Bewertung der Zuverlässigkeit von Tests, wie z. B. die Verwendung austauschbarer Formulare (parallele Tests), die Aufteilung von Items in zwei Teile, das erneute Testen und das Messen der internen Konsistenz. Jedes Verzeichnis enthält Indizes zur Konsistenz der Testergebnisse:

r XX ’ \u003d r (x 1, x 2)

wo rXX' ist der Stabilitätskoeffizient, und x 1 und x2 - Ergebnisse von zwei Messungen.

Das Konzept der Zuverlässigkeit austauschbarer Formen wurde von Gulliksen (1950) eingeführt und entwickelt. Dieses Verfahren ist recht aufwendig, da es mit der Notwendigkeit verbunden ist, eine parallele Reihe von Aufgaben zu erstellen.

r XX ’ \u003d r (x 1, x 2)

wo rXX' ist das Äquivalenzverhältnis, und x 1 und x2 - zwei parallele Tests.

Das nächste Verfahren – die Aufteilung des Haupttests in zwei Teile A und B – ist einfacher anzuwenden. Die aus beiden Teilen des Tests erhaltenen Ergebnisse werden korreliert. Anhand der Spearman-Brown-Formel wird die Zuverlässigkeit des gesamten Tests bewertet:

wobei A und B zwei parallele Teile des Tests sind.

Die nächste Methode besteht darin, die interne Konsistenz der Ausführung von Testelementen zu bestimmen. Diese Methode basiert auf der Bestimmung der Kovarianzen einzelner Items. Sg ist die Varianz eines zufällig ausgewählten Items und Sgh ist die Kovarianz zweier zufällig ausgewählter Items. Der am häufigsten verwendete Koeffizient zur Bestimmung der internen Konsistenz ist Cronbachs "Alpha". Die Formel wird auch verwendet КР20 und λ-2(Lambda-2).

Im klassischen Zuverlässigkeitsbegriff werden Messfehler definiert, die sowohl im Prüfprozess als auch im Beobachtungsprozess auftreten. Die Quellen dieser Fehler sind unterschiedlich: Das können persönliche Merkmale, Besonderheiten der Testbedingungen und die Testaufgaben selbst sein. Es gibt spezielle Methoden zur Berechnung von Fehlern. Wir wissen, dass sich unsere Beobachtungen als falsch herausstellen können, unsere methodischen Werkzeuge sind ebenso unvollkommen wie die Menschen selbst unvollkommen sind. (Wie man sich nicht an Shakespeare erinnert: "Unzuverlässig bist du, dessen Name Mensch ist"). Dass Messfehler in der klassischen Testtheorie expliziert und erklärt werden, ist ein wichtiger positiver Punkt.

Die klassische Testtheorie weist eine Reihe von wesentlichen Merkmalen auf, die als ihre Mängel angesehen werden können. Einige dieser Merkmale werden in Nachschlagewerken erwähnt, aber ihre Bedeutung (aus alltäglicher Sicht) wird selten betont, noch wird darauf hingewiesen, dass sie aus theoretischer oder methodologischer Sicht als Mängel angesehen werden sollten.

Zuerst. Die klassische Testtheorie und das Konzept der Zuverlässigkeit konzentrieren sich auf die Berechnung von Gesamttestindikatoren, die sich aus der Addition der in den einzelnen Aufgaben erzielten Noten ergeben. Ja, bei der Arbeit


Zweite. Der Zuverlässigkeitsfaktor beinhaltet eine Bewertung der Größe der Streuung der gemessenen Indikatoren. Daraus folgt, dass der Zuverlässigkeitskoeffizient niedriger ist, wenn (unter sonst gleichen Bedingungen) die Stichprobe homogener ist. Es gibt keinen einzelnen Koeffizienten der internen Konsistenz von Testelementen, dieser Koeffizient ist immer "kontextbezogen". Crocker und Algina (1986) bieten zum Beispiel eine spezielle "homogene Probenkorrektur"-Formel an, die für die höchsten und niedrigsten von Testteilnehmern erzielten Ergebnisse entwickelt wurde. Für den Diagnostiker ist es wichtig, die Charakteristika der Variationen in der Probe zu kennen, da er sonst nicht in der Lage ist, die im Handbuch angegebenen internen Konsistenzkoeffizienten für diesen Test zu verwenden.

Dritter. Das Phänomen der Reduktion auf das arithmetische Mittel ist eine logische Konsequenz aus dem klassischen Zuverlässigkeitsbegriff. Wenn die Punktzahl des Tests schwankt (d. h. nicht ausreichend zuverlässig ist), ist es möglich, dass bei einer Wiederholung des Verfahrens Probanden mit niedrigen Punktzahlen höhere Punktzahlen erhalten und umgekehrt Probanden mit hohen Punktzahlen niedrige Punktzahlen. Dieses Artefakt des Messverfahrens kann nicht mit einer echten Veränderung oder Manifestation von Entwicklungsprozessen verwechselt werden. Aber gleichzeitig ist es nicht einfach, zwischen ihnen zu unterscheiden, weil Änderungen im Laufe der Entwicklung sind nie auszuschließen. Zur absoluten Sicherheit ist ein Vergleich mit der Kontrollgruppe notwendig.

Das vierte Merkmal von Tests, die nach den Prinzipien der klassischen Theorie entworfen wurden, ist das Vorhandensein normativer Daten. Die Kenntnis der Testnormen ermöglicht es dem Forscher, die Testergebnisse angemessen zu interpretieren. Außerhalb der Normen sind Testergebnisse bedeutungslos. Die Entwicklung von Testnormen ist ein ziemlich kostspieliges Unterfangen, da der Psychologe Testergebnisse an einer repräsentativen Stichprobe einholen muss.

2 Ya ter Laak

Wenn wir über die Mängel des klassischen Konzepts der Zuverlässigkeit sprechen, dann ist es angebracht, die Aussage von Si-tsma (1992, S. 123-125) zu zitieren. Er stellt fest, dass die erste und wichtigste Annahme der klassischen Testtheorie darin besteht, dass Testergebnisse dem Intervallprinzip gehorchen. Es gibt jedoch keine Studien, die diese Annahme stützen. Im Wesentlichen ist dies „Messung nach einem willkürlichen etablierte Regel". Dieses Merkmal benachteiligt die klassische Testtheorie gegenüber Einstellungsmessskalen und natürlich gegenüber der modernen Testtheorie. Viele Methoden der Datenanalyse (Varianzanalyse. Regressionsanalyse, Korrelation und Faktorenanalyse) basieren auf der Annahme der Existenz einer Intervallskala. Es fehlt jedoch eine solide Grundlage. Betrachten Sie die Skala der wahren Ergebnisse als eine Werteskala psychologische Eigenschaften(z. B. Rechenfähigkeit, Intelligenz, Neurotizismus) kann nur vermutet werden.

Die zweite Bemerkung betrifft die Tatsache, dass die Ergebnisse des Tests keine absoluten Indikatoren für die eine oder andere psychologische Eigenschaft der Testperson sind, sondern nur als Ergebnisse der Durchführung eines bestimmten Tests betrachtet werden müssen. Zwei Tests können behaupten, dieselben psychologischen Merkmale zu messen (z. B. Intelligenz, verbale Fähigkeiten, Extraversion), aber das bedeutet nicht, dass diese beiden Tests gleichwertig sind und dieselben Fähigkeiten haben. Der Vergleich der Leistung von zwei Personen, die mit unterschiedlichen Tests getestet wurden, ist falsch. Gleiches gilt für die Absolvierung zweier unterschiedlicher Prüfungen durch einen Probanden. Eine dritte Bemerkung bezieht sich auf die Annahme, dass der Standardmessfehler für alle messbaren Fähigkeiten einer Person gleich ist. Allerdings gibt es keine empirische Überprüfung dieser Annahme. So gibt es beispielsweise keine Garantie dafür, dass ein Testteilnehmer mit guten mathematischen Fähigkeiten bei der Arbeit mit einem relativ einfachen Rechentest hohe Punktzahlen erzielt. In diesem Fall erhält eine Person mit geringen oder durchschnittlichen Fähigkeiten eher eine hohe Bewertung.

Im Rahmen der modernen Testtheorie oder Antwortanalysetheorie enthalten Testaufgaben eine Beschreibung eines großen


die Anzahl der Modelle möglicher Antworten der Befragten. Diese Modelle unterscheiden sich in ihren zugrunde liegenden Annahmen und Datenanforderungen. Das Rasch-Modell wird oft als Synonym für Theorien der Item-Response-Analyse (1RT) angesehen. Tatsächlich ist dies nur eines der Modelle. Die darin vorgestellte Formel zur Beschreibung der Kennlinie der Einstellung g lautet wie folgt:

wo g- eine separate Testaufgabe; exp- Exponentialfunktion (nichtlineare Abhängigkeit); δ ("Delta") - der Schwierigkeitsgrad des Tests.

Andere Prüfgegenstände wie z h, auch eigene Kennlinien bekommen. Erfüllung der Bedingung δh >δg (g bedeutet, dass h- schwierigere Aufgabe. Daher für jeden Wert des Indikators Θ ("Theta" - latente Eigenschaften der Fähigkeiten des Getesteten) die Wahrscheinlichkeit einer erfolgreichen Bewältigung der Aufgabe h kleiner. Dieses Modell wird als streng bezeichnet, da es offensichtlich ist, dass bei einem geringen Ausprägungsgrad des Merkmals die Wahrscheinlichkeit, die Aufgabe zu erfüllen, nahe Null liegt. In diesem Modell ist kein Platz für Vermutungen und Annahmen. Bei Items mit Auswahlmöglichkeiten müssen keine Annahmen über die Erfolgswahrscheinlichkeit getroffen werden. Außerdem ist dieses Modell streng in dem Sinne, dass alle Prüflinge die gleiche Diskriminationsfähigkeit haben müssen (hohe Diskrimination spiegelt sich in der Steilheit der Kurve wieder; hier lässt sich die Guttman-Skala aufbauen, nach der an jedem Punkt von der Kennlinie variiert die Wahrscheinlichkeit, ein Item zu erledigen, von O bis 1). Aufgrund dieser Bedingung können nicht alle Aufgaben in Tests aufgenommen werden, die auf der Grundlage des Rasch-Modells erstellt wurden.

Es gibt mehrere Varianten dieses Modells (z. B. Birnbaura, 1968, siehe Lord & Novik). Es erlaubt die Existenz von Aufgaben mit unterschiedlichen Diskriminativen

Fähigkeit.

Der niederländische Forscher Mokken (1971) hat zwei Modelle zur Analyse von Antworten auf Testaufgaben entwickelt, deren Anforderungen nicht so streng sind wie beim Rasch-Modell und daher vielleicht realistischer. Als Hauptbedingung

Viya Mokken vertritt die Position, dass die Kennlinie der Aufgabe monoton, ohne Unterbrechungen folgen soll. Alle Testaufgaben zielen darauf ab, dasselbe psychologische Merkmal zu untersuchen, an dem gemessen werden sollte in. Jede Form dieser Abhängigkeit ist erlaubt, solange sie nicht unterbrochen wird. Die Form der Kennlinie wird also nicht durch eine bestimmte Funktion bestimmt. Diese "Freiheit" ermöglicht Ihnen, mehr Testaufgaben zu verwenden, und das Bewertungsniveau ist nicht höher als normal.

Die Methodik von Test-Response-Modellen (IRT) unterscheidet sich von der der meisten experimentellen und Korrelationsstudien. Das mathematische Modell wurde entwickelt, um Verhaltens-, kognitive und emotionale Eigenschaften sowie Entwicklungsphänomene zu untersuchen. Diese betrachteten Phänomene beschränken sich oft auf Aufgabenantworten, was Mellenberg (1990) dazu veranlasste, die IRT-Theorie als „Mini-Theorie über Mini-Verhalten“ zu bezeichnen. Die Ergebnisse der Studie können bis zu einem gewissen Grad als Konsistenzkurven dargestellt werden, insbesondere in Fällen, in denen es keine theoretischen Vorstellungen über die untersuchten Merkmale gibt. Bisher stehen uns nur wenige Intelligenz-, Fähigkeits- und Persönlichkeitstests zur Verfügung, die auf der Grundlage zahlreicher Modelle der IRT-Theorie erstellt wurden. Varianten des Rasch-Modells werden häufiger in der Entwicklung von Leistungstests verwendet (Verhelst, 1993), während Mokken-Modelle eher für Entwicklungsphänomene geeignet sind (siehe auch Kapitel 6).

Die Antwort des Testteilnehmers auf die Testaufgaben ist die Grundeinheit der IRT-Modelle. Die Art der Reaktion wird durch den Grad der Ausprägung des untersuchten Merkmals bei einer Person bestimmt. Eine solche Eigenschaft können beispielsweise Rechen- oder räumliche Fähigkeiten sein. In den meisten Fällen handelt es sich dabei um den einen oder anderen Aspekt von Intelligenz, Leistungsmerkmalen oder Persönlichkeitsmerkmalen. Es wird angenommen, dass zwischen der Position dieser bestimmten Person in einem bestimmten Bereich der untersuchten Merkmale und der Wahrscheinlichkeit der erfolgreichen Erfüllung einer bestimmten Aufgabe ein nichtlinearer Zusammenhang besteht. Die Nichtlinearität dieser Abhängigkeit ist gewissermaßen intuitiv. Berühmte Redewendungen „Aller Anfang ist schwer“ (langsam un-


Zeilenanfang) und "Es ist nicht leicht, ein Heiliger zu werden" bedeutet, dass die weitere Kultivierung nach Erreichen einer bestimmten Stufe schwierig ist. Die Kurve nähert sich langsam, erreicht aber fast nie die Erfolgsquote von 100 %.

Manche Modelle widersprechen eher unserem intuitiven Verständnis. Nehmen wir dieses Beispiel. Eine Person mit einem beliebigen charakteristischen Schweregrad von 1,5 hat eine 60-prozentige Erfolgswahrscheinlichkeit bei der Bewältigung der Aufgabe. Dies widerspricht unserem intuitiven Verständnis einer solchen Situation, da Sie die Aufgabe entweder erfolgreich erledigen oder gar nicht bewältigen können. Nehmen wir dieses Beispiel: 100 mal versucht ein Mensch eine Höhe von 1m 50 cm zu nehmen, 60 mal begleitet ihn der Erfolg, d.h. es hat eine Erfolgsquote von 60 Prozent.

Um die Schwere eines Merkmals zu beurteilen, sind mindestens zwei Aufgaben erforderlich. Beim Rasch-Modell wird die Schwere von Merkmalen unabhängig von der Schwierigkeit der Aufgabe bestimmt. Dies widerspricht auch unserer Intuition: Angenommen, eine Person hat eine 80-prozentige Chance, über 1,30 m zu springen, die Wahrscheinlichkeit, über 1,70 m zu springen. Daher kann man unabhängig vom Wert der unabhängigen Variablen (Größe) die Fähigkeit von a schätzen Person hoch springen.

Es gibt etwa 50 IRT-Modelle (Goldstein & Wood, 1989) Es gibt viele nichtlineare Funktionen, die die Erfolgswahrscheinlichkeit beim Erfüllen einer Aufgabe oder einer Gruppe von Aufgaben beschreiben (erklären). Die Anforderungen und Einschränkungen dieser Modelle sind unterschiedlich, und diese Unterschiede können durch Vergleich des Rasch-Modells und der Mokken-Skala gefunden werden. Zu den Anforderungen für diese Modelle gehören:

1) die Notwendigkeit, das untersuchte Merkmal zu bestimmen und die Position einer Person im Bereich dieses Merkmals zu bewerten;

2) Bewertung der Aufgabenfolge;

3) prüfen spezifische Modelle. In der Psychometrie wurden viele Verfahren entwickelt, um das Modell zu testen.

Einige Nachschlagewerke behandeln die IRT-Theorie als eine Form der Testitemanalyse (siehe z. B.

Croker & Algina, J 986). Man kann jedoch argumentieren, dass die IRT-Theorie eine "Mini-Theorie über Mini-Verhalten" ist. Befürworter der IRT-Theorie stellen fest, dass, wenn die Konzepte (Modelle) der mittleren Ebene unvollkommen sind, was dann über komplexere Konstrukte in der Psychologie gesagt werden kann?

Klassische und moderne Testtheorie. Die Leute können nicht anders, als Dinge zu vergleichen, die fast gleich aussehen. (Vielleicht besteht das alltägliche Äquivalent der Psychometrie hauptsächlich darin, Menschen nach signifikanten Merkmalen zu vergleichen und zwischen ihnen zu wählen). Jede der vorgestellten Theorien – sowohl die Theorie der Messung von Schätzfehlern als auch das mathematische Modell der Antworten auf Testaufgaben – hat ihre Befürworter (Goldstein & Wood, 1986).

IRT-Modelle erregen nicht den Vorwurf, es handele sich im Gegensatz zur klassischen Testtheorie um ein „regelbasiertes Assessment“. Das IRT-Modell konzentriert sich auf die Analyse der geschätzten Merkmale. Persönlichkeitsmerkmale und Aufgabenmerkmale werden anhand von Skalen (Ordinal oder Intervall) bewertet. Darüber hinaus ist es möglich, Leistungsindikatoren verschiedener Tests zu vergleichen, die auf die Untersuchung ähnlicher Merkmale abzielen. Schließlich ist die Zuverlässigkeit nicht für jeden Wert auf der Skala gleich, und die Durchschnittswerte sind normalerweise zuverlässiger als die Werte am Anfang und am Ende der Skala. Damit sind die IRT-Modelle theoretisch überlegen. Auch in der praktischen Anwendung der modernen Testtheorie und der klassischen Theorie gibt es Unterschiede (Sijstma, 1992, S. 127-130). Die moderne Testtheorie ist komplexer als die klassische Theorie und wird daher weniger häufig von Laien verwendet. Darüber hinaus stellt das IRT besondere Anforderungen an die Aufgabenstellung. Das bedeutet, dass Items von der Prüfung ausgeschlossen werden sollten, wenn sie die Anforderungen des Modells nicht erfüllen. Diese Regel gilt weiterhin für diejenigen Aufgaben, die Teil der weit verbreiteten Tests waren, die auf den Prinzipien der klassischen Theorie aufgebaut sind. Der Test wird kürzer und damit weniger zuverlässig.

Das IRT bietet mathematische Modelle zur Untersuchung realer Phänomene. Modelle sollten uns dabei helfen, Schlüsselaspekte dieser Phänomene zu verstehen. Allerdings gibt es hier ein großes theoretisches Problem. Modelle können berücksichtigt werden


als Ansatz zum Studium der komplexen Realität, in der wir leben. Aber Modell und Wirklichkeit sind nicht dasselbe. Nach pessimistischer Sicht lassen sich nur einzelne (und zudem nicht die interessantesten) Verhaltensweisen modellieren. Man kann auch auf die Aussage stoßen, dass die Realität überhaupt keiner Modellierung unterliegt, weil. es gehorcht nicht allein den Gesetzen von Ursache und Wirkung. BEIM I'm besten fall es ist möglich, individuelle (ideale) Verhaltensphänomene zu modellieren. Es gibt eine andere, optimistischere Sicht auf die Möglichkeiten der Modellierung. Die obige Position blockiert die Möglichkeit eines tiefen Verständnisses der Natur der Phänomene des menschlichen Verhaltens. Die Anwendung des einen oder anderen Modells wirft einige allgemeine, grundlegende Fragen auf. Unserer Meinung nach ist IRT zweifellos ein Konzept, das der klassischen Testtheorie theoretisch und technisch überlegen ist.

Der praktische Zweck von Tests, auf welcher theoretischen Grundlage auch immer sie erstellt werden, besteht darin, signifikante Kriterien zu bestimmen und auf ihrer Grundlage die Eigenschaften bestimmter psychologischer Konstrukte festzustellen. Hat das IRT-Modell auch hier Vorteile? Es ist möglich, dass Tests, die auf diesem Modell basieren, keine genaueren Vorhersagen liefern als Tests, die auf der klassischen Theorie basieren, und dass ihr Beitrag zur Entwicklung psychologischer Konstrukte möglicherweise nicht signifikanter ist. Diagnostiker bevorzugen Kriterien, die sich direkt auf eine Person, Institution oder Gemeinschaft beziehen. Ein wissenschaftlich überlegenes Modell definiert „ipso facto“ kein angemesseneres Kriterium und ist bei der Erklärung wissenschaftlicher Konstrukte etwas eingeschränkt. Es ist offensichtlich, dass die Entwicklung von Tests auf der Grundlage der klassischen Theorie fortgesetzt wird, aber gleichzeitig neue IRT-Modelle geschaffen werden, die sich auf die Untersuchung einer größeren Anzahl psychologischer Phänomene erstrecken.

In der klassischen Testtheorie werden die Begriffe „Reliabilität“ und „Validität“ unterschieden. Die Testergebnisse müssen zuverlässig sein, d. h. die Ergebnisse der Erst- und Wiederholungstests sollten konsistent sein. Außerdem,

* ipso facto(Lack) - an sich (ca. übersetzt).

Die Ergebnisse sollten (soweit möglich) frei von Schätzfehlern sein. Das Vorhandensein von Validität ist eine der Anforderungen an die erzielten Ergebnisse. Gleichzeitig wird Reliabilität als notwendige, aber noch nicht hinreichende Bedingung für die Validität des Tests angesehen.

Der Begriff der Validität impliziert, dass sich die erzielten Ergebnisse auf etwas Praktisches oder Theoretisches beziehen. Schlussfolgerungen aus Testergebnissen müssen valide sein. Am häufigsten wird von zwei Arten von Validität gesprochen: prädiktiv (Kriterien) und konstruktiv. Es gibt auch andere Validitätsarten (siehe Kapitel 3). Darüber hinaus kann die Validität auch bei Quasi-Experimenten festgestellt werden (Cook & Campbell, 1976, Cook & Schatten, 1994). Die Hauptform der Validität ist jedoch immer noch die prädiktive Validität, worunter die Fähigkeit verstanden wird, anhand eines Testergebnisses etwas Signifikantes über zukünftiges Verhalten vorherzusagen, sowie die Möglichkeit eines tieferen Verständnisses der einen oder anderen psychologischen Eigenschaft oder Qualität.

Die vorgestellten Validitätstypen werden in jedem Handbuch diskutiert und von einer Beschreibung der Methoden zur Analyse der Validität eines Tests begleitet. Die Faktorenanalyse eignet sich eher zur Bestimmung der Konstruktvalidierung, während lineare Regressionsgleichungen zur Analyse der Vorhersagevalidität verwendet werden. Bestimmte Eigenschaften (Erfolg, Wirksamkeit der Therapie) können auf der Grundlage eines oder mehrerer Indikatoren vorhergesagt werden, die bei der Arbeit mit intellektuellen oder Persönlichkeitstests halb erlernt wurden. Datenverarbeitungsverfahren wie Korrelation, Regression, Varianzanalyse, Partialkorrelationsanalyse und Varianzanalyse dienen der Bestimmung der Vorhersagevalidität eines Tests.

Inhaltsvalidität wird auch oft beschrieben. Es wird davon ausgegangen, dass alle Aufgaben und Aufgaben des Tests einem bestimmten Bereich (mentale Eigenschaften, Verhalten etc.) angehören sollten. Das Konzept der Inhaltsvalidität charakterisiert die Übereinstimmung jeder Testaufgabe mit dem gemessenen Bereich. Inhaltsvalidität wird manchmal als Teil der Zuverlässigkeit oder "Generalisierbarkeit" angesehen (Cronbach, Gleser, Nanda & Rajaratnam, 1972). Allerdings wann


Bei der Auswahl von Items für Leistungstests in einem bestimmten Fachgebiet ist es außerdem wichtig, die Regeln für die Aufnahme von Items in den Test zu beachten.

In der klassischen Testtheorie werden Reliabilität und Validität relativ unabhängig voneinander betrachtet. Aber es gibt ein anderes Verständnis der Beziehung zwischen diesen Konzepten. Die moderne Testtheorie basiert auf der Anwendung von Modellen. Die Parameter werden innerhalb eines Modells ausgewertet. Entspricht die Aufgabe nicht den Anforderungen des Musters, so wird sie im Rahmen dieses Musters als ungültig anerkannt. Die Konstruktvalidierung ist Teil der Validierung des Modells selbst. Diese Validierung bezieht sich hauptsächlich auf das Testen auf das Vorhandensein eines eindimensionalen latenten interessierenden Merkmals mit bekannten Skaleneigenschaften. Skalenwerte können natürlich verwendet werden, um geeignete Kriterien zu definieren, und können mit Werten von anderen Konstrukten korreliert werden, um Informationen über konvergente und divergente Konstruktvalidität zu liefern.

Psychodiagnostik ist analog zur Sprache, beschrieben als eine Einheit von vier Komponenten, die auf drei Ebenen präsentiert werden. Die erste Komponente, die Testtheorie, ist analog zur Syntax, der Grammatik einer Sprache. Generierende (generative) Grammatik ist einerseits ein geistreiches Modell, andererseits ein System, das Regeln gehorcht. Mit Hilfe dieser Regeln werden komplexe auf der Basis einfacher bejahender Sätze aufgebaut. Gleichzeitig aber dieses Model vernachlässigt die Beschreibung, wie der Kommunikationsprozess organisiert ist (was übermittelt und was wahrgenommen wird) und zu welchen Zwecken er durchgeführt wird. Um dies zu verstehen, ist zusätzliches Wissen erforderlich. Dasselbe gilt für die Theorie der Tests: Sie ist in der Psychodiagnostik notwendig, kann aber nicht erklären, was der Psychodiagnostiker tut und was seine Ziele sind.

1.3.2. Psychologische Theorien und psychologische Konstrukte

Psychodiagnostik ist immer eine Diagnose von etwas Bestimmtem: Persönlichkeitsmerkmale, Verhalten, Denken, Emotionen. Die Tests dienen der Bewertung individueller Unterschiede. Es gibt mehrere Konzepte

individuelle Unterschiede, von denen jeder seine eigenen hat Unterscheidungsmerkmale. Wenn anerkannt wird, dass Psychodiagnostik nicht nur auf die Einschätzung individueller Unterschiede beschränkt ist, dann werden andere Theorien für die Psychodiagnostik unabdingbar. Ein Beispiel ist die Bewertung von Unterschieden in den Prozessen der psychischen Entwicklung und von Unterschieden im sozialen Umfeld. Obwohl die Bewertung individueller Unterschiede nicht der Fall ist ein unverzichtbares Attribut Psychodiagnostik gibt es jedoch gewisse Forschungstraditionen auf diesem Gebiet. Die Psychodiagnostik begann mit der Feststellung von Intelligenzunterschieden. Die Hauptaufgabe der Tests bestand darin, "die erbliche Vererbung des Genies zu bestimmen" (Gallon) oder die Auswahl von Kindern für die Ausbildung (Binet, Simon). Theoretisches Verständnis und praktische Entwicklung erhielt die Messung des IQ in den Arbeiten von Spearman (Großbritannien) und Thurstone (USA). Raymond B. Cattell ging bei der Beurteilung von Persönlichkeitsmerkmalen ähnlich vor. Psychodiagnostik wird untrennbar mit Theorien und Vorstellungen über individuelle Leistungsunterschiede (Einschätzung von Grenzfähigkeiten) und Verhaltensformen (Niveau der typischen Funktionsfähigkeit) verknüpft. Diese Tradition wirkt bis heute fort. BEIM Lehrmittel Unterschiede im sozialen Umfeld werden in der Psychodiagnostik deutlich seltener erfasst als bei der Betrachtung der Besonderheiten der Entwicklungsprozesse selbst. Dafür gibt es keine vernünftige Erklärung. Einerseits beschränkt sich die Diagnostik nicht auf bestimmte Theorien und Konzepte. Andererseits braucht es Theorien, denn in ihnen bestimmt sich der diagnostizierte Inhalt (also das „was“ diagnostiziert wird). So kann zum Beispiel Intelligenz als betrachtet werden allgemeine Charakteristiken, und als Basis für eine Vielzahl voneinander unabhängiger Fähigkeiten. Wenn die Psychodiagnostik versucht, von der einen oder anderen Theorie "wegzukommen", wird die Grundlage des psychodiagnostischen Prozesses zur Idee des gesunden Menschenverstandes. Die Forschung verwendet verschiedene Wege Datenanalyse und die allgemeine Forschungslogik bestimmen die Wahl eines bestimmten mathematischen Modells und bestimmen die Struktur der verwendeten psychologischen Konzepte. Solche Methoden der mathematischen Statistik


ki, wie Varianzanalysen, Regressionsanalysen, Faktorenanalysen, Korrelationsrechnungen legen nahe, dass es lineare Abhängigkeiten gibt. Bei falscher Anwendung dieser Methoden "bringen" sie ihre Struktur in die empfangenen Daten und die verwendeten Konstrukte.

Vorstellungen über Unterschiede im sozialen Umfeld und über die Entwicklung der Persönlichkeit hatten kaum Einfluss auf die Psychodiagnostik. Lehrbücher (siehe z. B. Murphy & Davidshofer, 1988) diskutieren die klassische Testtheorie und diskutieren die relevanten Methoden der statistischen Verarbeitung, beschreiben bekannte Tests, betrachten den Einsatz der Psychodiagnostik in der Praxis: in der Managementpsychologie, in der Personalauswahl, bei der Beurteilung der psychologischen Eigenschaften einer Person .

Theorien individueller Unterschiede (sowie Vorstellungen über Unterschiede zwischen sozialen Umgebungen und über geistige Entwicklung) sind analog zum Studium der Semantik der Sprache. Dies ist das Studium sowohl der Essenz als auch des Inhalts und der Bedeutung. Bedeutungen sind auf bestimmte Weise strukturiert (wie psychologische Konstrukte), zum Beispiel durch Ähnlichkeit oder Kontrast (Analogie, Konvergenz, Divergenz).

1.3.3. Psychologische Tests und andere methodische Mittel

Die dritte Komponente des vorgeschlagenen Schemas sind die Tests, Verfahren und methodischen Mittel, mit denen Informationen über Persönlichkeitsmerkmale gesammelt werden. Drene und Siitsma (1990, S. 31) definieren Tests wie folgt: „Ein psychologischer Test wird als eine Klassifizierung nach einem bestimmten System oder als ein Messverfahren angesehen, das es erlaubt, ein bestimmtes Urteil über einen oder mehrere empirisch oder theoretisch unterschiedene zu fällen basierend auf Merkmalen eines bestimmten Aspekts des menschlichen Verhaltens (für innerhalb der Testsituation). In diesem Fall wird die Reaktion der Befragten auf eine bestimmte Anzahl sorgfältig ausgewählter Stimuli betrachtet und die erhaltenen Antworten mit Testnormen verglichen.

Die Diagnose erfordert Tests und Techniken, um zuverlässige, genaue und gültige Informationen zu Funktionen zu sammeln

und Hauptmerkmale Persönlichkeit, Denken, Emotionen und menschliches Verhalten. Dieser Baustein umfasst neben der Entwicklung von Testverfahren auch folgende Fragen: wie Tests erstellt werden, wie Aufgaben formuliert und ausgewählt werden, wie der Testprozess abläuft, welche Anforderungen an Testbedingungen gestellt werden, wie Messfehler berücksichtigt werden, wie Testergebnisse werden berechnet und interpretiert.

Bei der Entwicklung von Tests werden rationale und empirische Strategien unterschieden. Die Anwendung einer rationalen Strategie beginnt mit der Definition von Grundbegriffen (z. B. den Begriffen Intelligenz, Extraversion) und entsprechend diesen Vorstellungen werden Testaufgaben formuliert. Ein Beispiel für eine solche Strategie ist das Konzept der Aspektanalyse (die Facettentheorie) Guttman (1957, 1968, 1978). Zuerst werden verschiedene Aspekte der Hauptkonstrukte bestimmt, dann werden Aufgaben und Aufgaben so ausgewählt, dass jeder dieser Aspekte berücksichtigt wird. Die zweite Strategie besteht darin, dass Aufgaben auf empirischer Basis ausgewählt werden. Wenn zum Beispiel ein Forscher versuchen würde, einen Test des beruflichen Interesses zu erstellen, der Mediziner von Ingenieuren unterscheiden würde, dann wäre das Verfahren wie folgt. Beide Gruppen von Befragten müssen alle Items des Tests beantworten, und diejenigen Items in den Antworten, bei denen statistisch signifikante Unterschiede festgestellt wurden, werden in die endgültige Version des Tests aufgenommen. Gibt es beispielsweise Unterschiede zwischen den Gruppen in den Antworten auf die Aussage „Ich gehe gerne fischen“, dann wird diese Aussage Bestandteil des Tests. Der Hauptpunkt dieses Buches ist, dass der Test mit einer konzeptuellen oder taxonomischen Theorie verbunden ist, die diese Merkmale definiert.

Der Zweck des Tests ist in der Regel in der Gebrauchsanweisung definiert. Der Test sollte standardisiert sein, damit er Unterschiede zwischen Personen und nicht zwischen Testbedingungen messen kann. Abweichungen von der Standardisierung gibt es jedoch bei Verfahren, die als „Testing the Limits“ (Grenzen testen) und „Lernpotenzialtests“ (Lernpotenzialtests) bezeichnet werden. Unter diesen Voraussetzungen wird der Antragsgegner im Verfahren unterstützt


testen und dann die Auswirkung eines solchen Verfahrens auf das Ergebnis bewerten. Die Berechnung der Punkte für Antworten auf Aufgaben ist objektiv, d.h. nach dem Standardverfahren durchgeführt. Auch die Interpretation der gewonnenen Ergebnisse ist streng definiert und erfolgt auf Basis von Prüfnormen.

Die dritte Komponente der Psychodiagnostik – psychologische Tests, Werkzeuge, Verfahren – enthält bestimmte Aufgaben, die die kleinsten Einheiten der Psychodiagnostik darstellen, und in diesem Sinne ähneln die Aufgaben den Phonemen der Sprache. Die Zahl der möglichen Kombinationen von Phonemen ist begrenzt. Nur bestimmte phonemische Strukturen können Wörter und Sätze bilden, die dem Zuhörer Informationen liefern. Ebenfalls undTestaufgaben: nur in einer bestimmten Kombination miteinander können sie werden wirksames Werkzeug Schätzungen des entsprechenden Konstrukts.

Mathematische Grundlagen der Theorie des Testdesigns

Arten von Testobjekten

Es gibt zwei deutlich unterschiedliche Formen von Aufgaben: geschlossene (wenn dem Probanden Antworten zur Auswahl angeboten werden) und offene (der Proband muss selbst eine Antwort erhalten). Offene Aufgaben lassen sich wiederum in zwei Gruppen einteilen:

    Aufgaben mit einer kurzen geregelten Antwort, deren Formulierung nur eine vom Entwickler geplante Antwort erzeugen soll;

    Aufgaben mit einer frei konstruierten Antwort, die keine Beschränkungen hinsichtlich Inhalt und Form der Darstellung der Antworten haben.

Es gibt fünf Haupttypen von Aufgaben. Alle anderen Typen sind Variationen oder Kombinationen dieser fünf Typen.

    Wahlaufgabe. Der Aufgabentext besteht aus einer Frage. Es stehen mehrere Antworten zur Auswahl, von denen eine oder mehrere richtig sind.

    Aufgabe ergänzen. In der Formulierung der Aufgabe fehlt ein bestimmtes Textfragment, was durch Unterstreichung (oder mehrere Unterstreichungen gleicher Länge, wenn mehrere Wörter fehlen) angezeigt wird. Die Lücke kann in jedem Teil des Textes sein, aber es wird empfohlen, sie am Ende zu machen. In der Antwort muss der Proband die fehlenden Wörter schreiben.

    Die Aufgabe, die richtige Reihenfolge festzulegen.

    Compliance-Aufgabe. Der Wortlaut der Aufgabe enthält zwei Listen. Links sind in der Regel die Elemente der Menge angegeben, die die Problemstellung enthalten, rechts die auszuwählenden Elemente. Die Elemente der linken Menge sind nummeriert, die rechten sind mit Buchstaben bezeichnet. Es ist wünschenswert, dass der zweite Satz enthält mehr Elemente im Vergleich zum ersten Satz. Dabei entspricht jedes Element der ersten Menge einem oder mehreren Elementen der zweiten Menge.

    Frage mit ausführlicher Antwort.

Phasen der Testentwicklung

    Formulierung von Zweck und Gegenstand der Forschung.

Wer, was und warum wird getestet

    Entwicklung von Testinhalten.

Anforderungsstudie Bildungsstandard, Lehrbuchinhalt.

Erstellung der Testspezifikation:

    Auswahl der Abschnitte (Themen) und deren Prozentsatz im Test

    Jobtypen auswählen

    Bestimmung der Beherrschung von Wissen und Fähigkeiten:

    1 Ebene

    Kenntnis der Definitionen der Hauptbegriffe des Faches, sowie der Hauptaussagen zu den Methoden des Faches

    2 Ebene

    Kenntnis grundlegender Formeln und Algorithmen; Fähigkeit, sie bei der Lösung von Standardproblemen anzuwenden

    3 Ebene

    Anwendung des erworbenen Wissens zur Lösung atypischer Probleme

  1. Ermittlung der ungefähren Anzahl der Aufgaben im Test und die Verteilung dieser Anzahl nach Aufgabentypen.

    Aufgabenentwicklung.

Da die erste Version des Tests die Mängel der Aufgaben (einschließlich der vorgeschlagenen Distraktoren) aufdecken sollte, wurde bei jeder Aufgabe suggeriert, dass dies möglich ist größte Zahl Ablenker, damit beim Keulen genügend davon übrig bleiben.

    Untersuchung von Rohteig.

Zweck der Prüfung ist es, fehlerhafte und unverständliche Formulierungen zu erkennen und zu korrigieren. Infolgedessen können einige Aufgaben aus dem Test entfernt werden (daher werden Aufgaben empfohlen).

    Billigung.

    Berechnung der Eigenschaften von Aufgaben und Tests.

Basierend auf den Testergebnissen werden die folgenden Berechnungen durchgeführt: statistische Merkmale Aufgaben und Prüfungen.

Die Spanne der einzelnen Noten misst die Distanz, über die sich alle Indikatorwerte in der Verteilung (Einzelscores) ändern.

Mit durchschnittlich selektiv(arithmetische Mittel) für die Summe der Einzelergebnisse X 1 , X 2 , …, X K Gruppen K Themen wird durch die Formel berechnet

.

Anzahl Streuung basiert auf der Berechnung der Abweichungen jedes Indikatorwerts vom arithmetischen Mittel in der Verteilung:

.

Niedrige Varianz zeigt an geringe Qualität Test, da eine schwache Streuung der Ergebnisse auf eine schwache Differenzierung der Probanden nach Ausbildungsstand hindeutet. Eine zu hohe Varianz ist typisch für den Fall, dass sich alle Studierenden in der Anzahl der bearbeiteten Aufgaben unterscheiden, was auch eine Überarbeitung des Tests erfordert.

Die Bewertung der Zuverlässigkeit des Tests schließt die Berechnung der Testmerkmale ab. Um den Zuverlässigkeitsfaktor zu berechnen, können Sie die Formel verwenden Kuder-Richardson-Koeffizient(nur wenn alle Aufgabengewichte gleich eins sind) :

.

Um eine qualitative Einschätzung der Zuverlässigkeit des Tests durch den Wert des Koeffizienten zu geben, verwenden Sie die folgende Tabelle:

Der Wert des Sicherheitsfaktors

Zuverlässigkeitsbewertung

ungenügend

zufriedenstellend

Ausgezeichnet

Bewertung der Schwierigkeit der j-ten Aufgabe nach der Formel berechnet

.

Beachten Sie, dass je einfacher die Aufgabe ist, desto größer ist der Anteil richtiger Antworten darauf ( p j), daher wäre es natürlicher, diesen Anteil als Leichtigkeit der Aufgabe zu interpretieren. In einem Test mit ausgewogenem Schwierigkeitsgrad sollte es mehrere schwierige und mehrere leichte Aufgaben geben, aber der Großteil der Aufgaben sollte einen Schwierigkeitsgrad von 0,3 bis 0,7 haben; Gleichzeitig ist es wünschenswert, die Aufgaben nach ihrer Schwierigkeit zu ordnen.

Gültigkeit von Testobjekten wird durch den Grad der Übereinstimmung der Aufgabe mit dem Ziel der Differenzierung der Fächer bestimmt. Dazu werden die Korrelationskoeffizienten der Bewertung für die Aufgabe mit der Punktzahl für den gesamten Test ermittelt. Dies geschieht mit dem Korrelationskoeffizienten gemäß der Formel

,

wo X ich- Prüfungsergebnis ich-tes Testobjekt, Y ich- Punktzahl ich Testperson für die Aufgabe. Beachten Sie, dass bei der dichotomen Aufgabenbewertung die Berechnung des Koeffizienten etwas vereinfacht wird. Wenn ein r< 0, то задание следует удалить из теста, т. к. в нем побеждают слабые ученики, а сильные выбирают неверный ответ либо пропускают задание при выполнении теста. Positive Werte, aber nahe Null (nicht signifikant), weisen auf eine geringe Vorhersagefähigkeit der Testaufgabe hin; solche Aufgaben erfordern eine inhaltliche Verbesserung.

Die Fähigkeit, Themen in die besten und schlechtesten Shows zu unterscheiden differenzierender Leistungsfaktor(oder Diskriminierungsindex) Aufgaben. Der einfachste Weg, einen solchen Index zu berechnen, wird Kontrastgruppenmethode genannt und ist wie folgt. Aus der gesamten Probandengruppe ragt ein bestimmter Teil der besten Probanden (wir nennen sie die starke Untergruppe) und die gleiche Anzahl der schlechtesten (schwache Untergruppe) heraus. Dann wird für jede dieser Untergruppen der Anteil richtiger Antworten in der Untergruppe berechnet. Bezeichne mit p 1 j Anteil der richtigen Antworten auf j-te Aufgabe in einer starken Untergruppe, und durch p 0 j- der Anteil richtiger Antworten in der schwachen Teilgruppe. Dann der Diskriminierungsindex ich-te Aufgabe wird durch die Formel bestimmt:

(r das) j =S 1 jp 0 j .

Für eine Aufgabe, die alle starken Probanden abgeschlossen haben und keine der schwachen, der Diskriminierungsindex r dis wird gleich 1 sein; in diesem Fall hat die Aufgabe die maximale Differenzierungswirkung. Für eine Aufgabe, die alle schwachen Probanden abgeschlossen haben und keine der starken, ist der Diskriminanzindex gleich -1. In anderen Fällen nimmt der Index Werte zwischen -1 und 1 an. Items mit Null- und negativen Werten des Diskriminationsindex differenzieren Schüler schlecht und sollten daher aus dem Test entfernt werden. Ist der Index positiv, aber kleiner als 0,2, dann erfordert eine solche Aufgabe eine gründliche inhaltliche Analyse.

Gemäß diesen Merkmalen können einige Aufgaben aus dem Test herausgenommen werden, andere unterliegen der Korrektur. Danach müssen die Schritte 5, 6 wiederholt werden.

Formeln zur Berechnung der Wahrscheinlichkeit des Schätzens

Beim Entwerfen eines Tests müssen Sie festlegen, wie viele Antworten für jede Frage angeboten werden sollen, damit die Wahrscheinlichkeit, den Test erfolgreich zu bestehen, indem Sie einfach die richtigen Antworten erraten, weniger als 0,05 (dh weniger als 5 %) beträgt. Die Prüfung gilt als erfolgreich bestanden, wenn der Prüfling mindestens richtig antwortet Q% Fragen. Wenn der Test beinhaltet N Fragen, dann wird die folgende Formel verwendet, um die Wahrscheinlichkeit für „erfolgreiches Raten“ zu berechnen:

,

wo m- die Anzahl der Antworten, die für jede Frage angeboten werden.

Für den Fall, dass die Anzahl der vorgeschlagenen Antworten auf Fragen in verschiedenen Aufgaben unterschiedlich ist, hat die Formel eine komplexere Form:

,

wo - die Wahrscheinlichkeit, die Antworten zu erraten j Fragen, die wie folgt berechnet werden. Lassen Sie alle Fragen im Test in unterteilt werden r so gruppieren, dass Fragen mit gleicher Wahrscheinlichkeit zu einer Gruppe zusammengefasst werden. Bezeichnen p ich , 0< p ich <1 - вероятность угадывания и k ich - die Anzahl der Fragen in ich- zu dieser Gruppe (
) , und

.

Dann für j aus
zu N:

,

wo t r = j  (t 1 + t 2 +…+ t r-1) , und wenn t r > k r, dann nehmen wir an
= 0 .

Beispiele.

N=10, Q=2/3: m=2, P<0,2; m=3, P<0,02; m=4, P<0,004

Literatur

    Chelyshkova M. B. Theorie und Praxis der Gestaltung pädagogischer Tests: Lehrbuch. – M.: Logos, 2002. – 432 S.

    Malygin A. A., Svettsov V. I., Shchanitsina S. V. Praktische Empfehlungen für die Herstellung von Kontroll- und Messmaterialien: Methode. Zulage / Ivan. Zustand chem.-techn. un-t. - Iwanowo, 2005. - 30 p.

    Wie man einen Test macht // Sloyer K. Mathematische Fantasien. - M.: Mir, 1993. - S.116-118.

Eine Messung oder ein Test, der durchgeführt wird, um den Zustand oder die Fähigkeit eines Sportlers zu bestimmen, wird als bezeichnet Prüfung. Nicht alle Messungen können als Tests verwendet werden, sondern nur solche, die besondere Anforderungen erfüllen: Standardisierung, Verfügbarkeit eines Bewertungssystems, Zuverlässigkeit, Informationsgehalt, Objektivität. Tests, die den Anforderungen an Zuverlässigkeit, Aussagekraft und Objektivität genügen, werden genannt Klang.

Der Testprozess wird aufgerufen testen, und die als Ergebnis der Messung erhaltenen numerischen Werte sind Testergebnis.

Tests basierend auf motorischen Aufgaben werden aufgerufen Motor- oder Motor-. Je nach Aufgabenstellung des Forschers werden drei Gruppen motorischer Tests unterschieden.

Sorten von motorischen Tests

Testname

Aufgabe für den Sportler

Testergebnis

Kontrollübung

Motorische Leistungen

1500m Laufzeit

Standard-Funktionstests

Für alle gleich, dosiert: 1) nach geleisteter Arbeit; 2) durch das Ausmaß der physiologischen Veränderungen

Die physiologischen oder biochemischen Kennziffern bei der standardmäßigen Arbeit Die motorischen Kennziffern bei der standardmäßigen Bedeutung der physiologischen Verschiebungen

Herzfrequenzregistrierung bei Standardarbeit 1000 kGm/min Laufgeschwindigkeit bei Herzfrequenz 160 Schläge/min

Maximale Funktionsprüfungen

Maximales Ergebnis anzeigen

Physiologische oder biochemische Parameter

Bestimmung der maximalen Sauerstoffschuld bzw. des maximalen Sauerstoffverbrauchs

Manchmal werden nicht nur ein, sondern mehrere Tests verwendet, die ein einziges Endziel haben. Diese Gruppe von Tests wird aufgerufen Batterie von Tests.

Es ist bekannt, dass selbst bei strengster Standardisierung und präziser Ausrüstung die Testergebnisse immer etwas variieren. Eine der wichtigsten Voraussetzungen für die Auswahl guter Tests ist daher deren Zuverlässigkeit.

Zuverlässigkeit testen ist der Grad der Übereinstimmung zwischen den Ergebnissen, wenn dieselben Personen wiederholt unter denselben Bedingungen getestet werden. Es gibt vier Hauptgründe, die zu individuellen oder gruppeninternen Abweichungen bei den Testergebnissen führen:

    Änderung des Zustands der Probanden (Müdigkeit, Änderung der Motivation usw.); unkontrollierte Änderungen der äußeren Bedingungen und der Ausrüstung;

    eine Änderung des Zustands der Person, die den Test durchführt oder auswertet (Gesundheit, Ersatz des Experimentators usw.);

    Unvollkommenheit des Tests (z. B. offensichtlich unvollkommene und unzuverlässige Tests - Freiwürfe in den Basketballkorb vor dem ersten Fehlschuss usw.).

Das Prüfzuverlässigkeitskriterium kann sein Zuverlässigkeitsfaktor, berechnet als Verhältnis der wahren Varianz zur im Experiment aufgezeichneten Varianz: r = wahres s 2 / aufgezeichnetes s 2, wobei unter dem wahren Wert die Varianz verstanden wird, die bei einer unendlichen Anzahl von Beobachtungen unter denselben Bedingungen erhalten wird; die angegebene Varianz wird aus experimentellen Studien abgeleitet. Mit anderen Worten, der Zuverlässigkeitskoeffizient ist einfach der Anteil der wahren Variation in der Variation, die im Experiment registriert wird.

Zusätzlich zu diesem Koeffizienten verwenden wir auch Zuverlässigkeitsindex, der als theoretischer Korrelationskoeffizient oder Zusammenhang zwischen den registrierten und wahren Werten desselben Tests angesehen wird. Diese Methode wird am häufigsten als Kriterium zur Beurteilung der Qualität (Reliabilität) eines Tests verwendet.

Eines der Merkmale der Testzuverlässigkeit ist seine Gleichwertigkeit, der den Grad der Übereinstimmung zwischen Testergebnissen gleicher Qualität (z. B. physikalisch) verschiedener Tests widerspiegelt. Die Einstellung zur Testäquivalenz hängt von der konkreten Aufgabenstellung ab. Wenn zwei oder mehr Tests gleichwertig sind, erhöht ihre kombinierte Verwendung einerseits die Zuverlässigkeit der Schätzungen; Andererseits scheint es möglich, nur einen gleichwertigen Test anzuwenden, was das Testen vereinfacht.

Wenn alle Tests in einer Testbatterie hochgradig äquivalent sind, werden sie aufgerufen homogen(z. B. um die Qualität des Sprungvermögens zu beurteilen, homogen, vermutlich wird es Sprünge von einem Platz in die Länge, nach oben, dreifach geben). Wenn es im Komplex keine gleichwertigen Tests gibt (z. B. zur Beurteilung der allgemeinen körperlichen Fitness), messen alle darin enthaltenen Tests unterschiedliche Eigenschaften, d. H. im Wesentlichen ist der Komplex heterogen.

Die Zuverlässigkeit von Tests kann bis zu einem gewissen Grad verbessert werden durch:

    strengere Standardisierung der Tests;

    Erhöhung der Anzahl der Versuche;

    Erhöhung der Zahl der Bewerter und Erhöhung der Einheitlichkeit ihrer Meinungen;

    Erhöhung der Anzahl gleichwertiger Tests;

    bessere Motivation der Testpersonen.

Objektivität testen Es gibt einen Spezialfall der Zuverlässigkeit, d.h. Unabhängigkeit der Testergebnisse von der Person, die den Test durchführt.

Aussagekraft des Tests ist der Genauigkeitsgrad, mit dem es die Eigenschaft (Qualität eines Sportlers) misst, für die es verwendet wird. In verschiedenen Fällen können dieselben Tests unterschiedliche Aussagekraft haben. Die Frage nach dem Informationsgehalt des Tests gliedert sich in zwei Teilfragen:

Was ändert dieser Test? Wie genau misst es?

Kann beispielsweise ein Indikator wie MOC verwendet werden, um die Bereitschaft von Langstreckenläufern zu beurteilen, und wenn ja, mit welcher Genauigkeit? Kann dieser Test im Kontrollprozess verwendet werden?

Wenn der Test verwendet wird, um den Zustand des Athleten zum Zeitpunkt der Untersuchung zu bestimmen, dann sagen sie ungefähr diagnostisch Aussagekraft des Tests. Wenn sie anhand der Testergebnisse einen Rückschluss auf die mögliche zukünftige Leistungsfähigkeit eines Sportlers ziehen wollen, sprechen sie darüber vorausschauend informativ. Ein Test kann diagnostisch informativ, aber nicht prognostisch sein und umgekehrt.

Der Grad der Aussagekraft lässt sich quantitativ charakterisieren - anhand experimenteller Daten (sog empirisch informativ) und qualitativ - basierend auf einer aussagekräftigen Situationsanalyse ( logisch informativ). Obwohl in der praktischen Arbeit die logische oder sinnvolle Analyse immer der mathematischen vorausgehen sollte. Der Indikator für den Informationsgehalt des Tests ist der Korrelationskoeffizient, der für die Abhängigkeit des Kriteriums vom Testergebnis berechnet wird, und umgekehrt (ein Indikator, der offensichtlich die Eigenschaft widerspiegelt, die mit dem Test gemessen werden soll, wird angenommen ein Kriterium).

Bei unzureichendem Informationsgehalt eines Tests wird eine Testbatterie verwendet. Letzteres erlaubt jedoch selbst bei Vorhandensein hoher separater Informationskriterien (nach den Korrelationskoeffizienten zu urteilen) nicht, eine einzige Zahl zu erhalten. Hier kann eine komplexere Methode der mathematischen Statistik Abhilfe schaffen - Faktorenanalyse. Dadurch können Sie bestimmen, wie viele und welche Tests bei einem bestimmten Faktor zusammenarbeiten und wie hoch ihr Beitrag zu jedem Faktor ist. Und dann ist es einfach, Tests (oder Kombinationen davon) auszuwählen, die einzelne Faktoren am genauesten bewerten.

1 Was ist eine Prüfung?

2 Was ist Testen?

Quantifizierung der Qualität oder des Zustands eines Athleten Eine Messung oder ein Test zur Bestimmung des Zustands oder der Fähigkeiten eines Athleten Ein Testprozess, bei dem die Qualität oder der Zustand eines Athleten quantifiziert wird. Keine Definition erforderlich

3 Was ist das Ergebnis des Tests?

Quantifizierung der Qualität oder des Zustands eines Athleten Eine Messung oder ein Test zur Bestimmung des Zustands oder der Fähigkeiten eines Athleten Ein Testprozess, bei dem die Qualität oder der Zustand eines Athleten quantifiziert wird. Keine Definition erforderlich

4 Welche Art von Test ist 100 m Lauf?

5 Welche Art von Test ist Karpaldynamometrie?

Kontrollübung FunktionstestMaximaler Funktionstest

6 Zu welcher Art von Tests gehört die Probe? IPC?

Kontrollübung FunktionstestMaximaler Funktionstest

7 Welche Art von Test ist 3 Minuten Metronomlauf?

Kontrollübung FunktionstestMaximaler Funktionstest

8 Welche Art von Test ist maximale Anzahl Klimmzüge an der Stange?

Kontrollübung FunktionstestMaximaler Funktionstest

9 Wann gilt der Test als aussagekräftig?

10 Wann gilt ein Test als zuverlässig?

Die Fähigkeit eines Tests, Ergebnisse bei Wiederholungstests zu replizieren. Die Fähigkeit eines Tests, die Interessenslage eines Athleten zu messen. Unabhängigkeit der Testergebnisse von der Person, die den Test durchführt

11 Wann gilt ein Test als objektiv?

Die Fähigkeit eines Tests, Ergebnisse bei Wiederholungstests zu replizieren. Die Fähigkeit eines Tests, die Interessenslage eines Athleten zu messen. Unabhängigkeit der Testergebnisse von der Person, die den Test durchführt

12 Welches Kriterium wird benötigt, um einen Test auf Aussagekraft zu bewerten?

13 Welches Kriterium wird bei der Bewertung eines Zuverlässigkeitstests benötigt?

Student's T-Test F-Fisher's Test Korrelationskoeffizient Determinationskoeffizient Varianz

14 Welches Kriterium wird bei der Bewertung eines Objektivitätstests benötigt?

Student's T-Test F-Fisher's Test Korrelationskoeffizient Determinationskoeffizient Varianz

15 Wie nennt man die Aussagekraft des Tests, wenn er zur Beurteilung des Fitnessgrades eines Sportlers dient?

16 Welchen Informationsgehalt der Kontrollübungen steuert der Trainer bei der Auswahl der Kinder in seiner Sportabteilung?

Logische prädiktive empirische Diagnostik

17 Ist eine Korrelationsanalyse notwendig, um den Informationsgehalt von Tests zu beurteilen?

18 Ist eine Faktorenanalyse notwendig, um den Informationsgehalt von Tests zu beurteilen?

19 Kann die Korrelationsanalyse die Zuverlässigkeit eines Tests beurteilen?

20 Kann die Objektivität des Tests mittels Korrelationsanalyse beurteilt werden?

21 Sind Tests zur Beurteilung der allgemeinen Fitness gleichwertig?

22 Wenn die gleiche Qualität mit verschiedenen Tests gemessen wird, werden Tests verwendet ...

Entwickelt, um die gleiche Qualität zu messen Hohe Korrelation untereinander Niedrige Korrelation untereinander

GRUNDLAGEN DER THEORIE DER BEWERTUNG

Zur Auswertung von Sportergebnissen werden oft spezielle Score-Tabellen verwendet. Der Zweck solcher Tabellen besteht darin, das angezeigte Sportergebnis (ausgedrückt in objektiven Maßen) in bedingte Punkte umzuwandeln. Das Gesetz der Umrechnung von Sportergebnissen in Punkte heißt Bewertungsskala. Die Skala kann als mathematischer Ausdruck, Tabelle oder Grafik angegeben werden. Es gibt 4 Haupttypen von Waagen, die im Sport und Sportunterricht verwendet werden.

Proportionale Skalen

Rückläufige Skalen

progressive Skalen.

Proportionale Skalen Gehen Sie davon aus, dass bei gleicher Ergebnissteigerung die gleiche Punktzahl erreicht wird (z. B. für jede Verbesserung des Ergebnisses um 0,1 s bei einem 100-m-Lauf werden 20 Punkte vergeben). Solche Waagen werden im modernen Fünfkampf, Eisschnelllauf, Langlauf, Nordische Kombination, Biathlon und anderen Sportarten verwendet.

Rückläufige Skalen gehen davon aus, dass bei gleicher Ergebnissteigerung mit zunehmender sportlicher Leistung immer weniger Punkte anfallen (z. B. für eine Verbesserung des Ergebnisses im 100-m-Lauf von 15,0 auf 14,9 s kommen 20 Punkte hinzu, und für 0,1 s im Bereich 10,0-9,9 s - nur 15 Punkte).

progressive Skalen. Dabei gilt: Je höher das Sportergebnis, desto mehr Punkte gibt es für dessen Verbesserung (z. B. für eine Verbesserung der Laufzeit von 15,0 auf 14,9 s werden 10 Punkte addiert und von 10,0 auf 9,9 s werden 100 Punkte addiert). Progressive Waagen werden beim Schwimmen, bei bestimmten Arten der Leichtathletik und beim Gewichtheben verwendet.

Sigmaschuppen selten im Sport verwendet, aber weit verbreitet bei der Beurteilung der körperlichen Fitness (so sieht beispielsweise die Skala der körperlichen Fitnessstandards der US-Bevölkerung aus). In diesen Skalen wird eine Verbesserung in den sehr niedrigen und sehr hohen Leistungsbereichen sparsam gefördert; Die meisten Punkte werden durch die Steigerung der Ergebnisse im mittleren Leistungsbereich erzielt.

Die Hauptaufgaben der Bewertung sind:

    verschiedene Leistungen in derselben Aufgabe vergleichen;

    Leistungen in verschiedenen Aufgaben vergleichen;

    Maßstäbe definieren.

Norma in der Sportmesstechnik wird der Grenzwert des Ergebnisses genannt, der als Grundlage für die Zuordnung eines Sportlers zu einer der Klassifikationsgruppen dient. Es gibt drei Arten von Normen: vergleichend, individuell, fällig.

Vergleichende Normen basieren auf einem Vergleich von Personen, die derselben Bevölkerungsgruppe angehören. Zum Beispiel die Einteilung von Menschen in Untergruppen nach dem Grad der Resistenz (hoch, mittel, niedrig) oder Reaktivität (hyperreaktiv, normreaktiv, hyporeaktiv) gegenüber Hypoxie.

Unterschiedliche Abstufungen von Bewertungen und Normen

Prozentsatz der Testpersonen

Normen in Skalen

verbal

in Punkten

Perzentil

Sehr niedrig

Unter M - 2

Von M - 2 bis M - 1

unterdurchschnittlich

Von M-1 bis M-0,5

Von Ì–0,5 bis Ì+0,5

überdurchschnittlich

Von Ì+0.5 bis Ì+1

Von M+1 bis M+2

Sehr hoch

Über M+2

Diese Normen charakterisieren nur den relativen Erfolg der Probanden in einer bestimmten Population, sagen aber nichts über die Population als Ganzes (oder im Durchschnitt) aus. Daher sollten Vergleichsnormen mit Daten aus anderen Bevölkerungsgruppen verglichen und in Verbindung mit individuellen und angemessenen Normen verwendet werden.

Individuelle Normen basierend auf dem Vergleich der Leistung desselben Athleten in verschiedenen Staaten. Beispielsweise besteht bei vielen Sportarten kein Zusammenhang zwischen Körpergewicht und sportlicher Leistung. Jeder Athlet hat ein individuell optimales Gewicht entsprechend der sportlichen Form. Diese Rate kann in verschiedenen Stadien des Sporttrainings gesteuert werden.

fällige Standards basierend auf einer Analyse dessen, was ein Mensch in der Lage sein sollte, die Aufgaben, die ihm das Leben stellt, erfolgreich zu bewältigen. Ein Beispiel dafür können die Standards einzelner Komplexe für das körperliche Training, die richtigen Werte von VC, Grundumsatz, Körpergewicht und -größe usw. sein.

1 Kann man die Qualität der Ausdauer direkt messen?

2 Kann man die Geschwindigkeitsqualität direkt messen?

3 Kann man die Qualität der Geschicklichkeit direkt messen?

4 Kann die Qualität der Flexibilität durch eine direkte Methode gemessen werden?

5 Kann man die Kraft einzelner Muskeln direkt messen?

6 Kann eine Bewertung in einem qualitativen Merkmal (gut, befriedigend, schlecht, bestanden etc.) ausgedrückt werden?

7 Gibt es einen Unterschied zwischen einer Messskala und einer Bewertungsskala?

8 Was ist eine Bewertungsskala?

Das System zur Messung von Sportergebnissen Das Gesetz der Umrechnung von Sportergebnissen in Punkte Das System zur Bewertung von Normen

9 Die Skala geht davon aus, dass bei gleicher Ergebnissteigerung die gleiche Punktzahl erreicht wird. Das …

10 Bei gleicher Ergebnissteigerung werden mit zunehmender sportlicher Leistung immer weniger Punkte vergeben. Das …

Progressive Skala Regressive SkalaProportionale SkalaSigmoid-Skala

11 Je höher das Sportergebnis, desto mehr Punkte gibt es für die Beurteilung der Verbesserung. Das …

Progressive Skala Regressive SkalaProportionale SkalaSigmoid-Skala

12 Verbesserung in den sehr niedrigen und sehr hohen Leistungsbereichen wird sparsam belohnt; Die meisten Punkte werden durch die Steigerung der Ergebnisse im mittleren Leistungsbereich erzielt. Das …

Progressive Skala Regressive SkalaProportionale SkalaSigmoid-Skala

13 Normen, die auf einem Vergleich von Personen derselben Bevölkerungsgruppe beruhen, heißen ...

14 Normen, die auf dem Vergleich der Leistung desselben Athleten unter verschiedenen Bedingungen basieren, werden als ...

Individuelle Standards Fällige Standards Vergleichende Standards

15 Normen, die auf einer Analyse dessen beruhen, was eine Person können sollte, um die ihr übertragenen Aufgaben zu bewältigen, werden als ...

Individuelle Standards Fällige Standards Vergleichende Standards

GRUNDLEGENDE KONZEPTE DER QUALIMETRIE

Qualimetrie(lat. qualitas - Qualität, metron - Maß) untersucht und entwickelt quantitative Methoden zur Erfassung qualitativer Merkmale.

Die Qualimetrie basiert auf mehreren Ausgangspunkten:

Jede Qualität kann gemessen werden;

Die Qualität hängt von einer Reihe von Eigenschaften ab, die einen „Qualitätsbaum“ bilden (zum Beispiel besteht der Qualitätsbaum der Übungen im Eiskunstlauf aus drei Ebenen – hoch, mittel, niedrig);

Jede Eigenschaft wird durch zwei Zahlen definiert: relativer Index und Gewicht; die Summe der Gewichtungen der Eigenschaften auf jeder Ebene ist gleich eins (oder 100 %).

Methodische Methoden der Qualimetrie werden in zwei Gruppen eingeteilt:

Heuristisch (intuitiv), basierend auf Experteneinschätzungen und Fragebögen;

Instrumental.

Experte eine Bewertung genannt, die durch Einholen der Meinungen von Spezialisten erhalten wurde. Typische Beispiele für Expertise: Richten im Turnen und Eiskunstlaufen, Wettbewerb um die beste wissenschaftliche Arbeit etc.

Die Durchführung einer Prüfung umfasst die folgenden Hauptphasen: die Formulierung ihres Ziels, die Auswahl von Experten, die Wahl der Methodik, die Durchführung einer Umfrage und die Verarbeitung der erhaltenen Informationen, einschließlich einer Bewertung der Konsistenz der einzelnen Expertenbewertungen. Bei der Prüfung wird der Grad der Übereinstimmung von Expertenmeinungen durch den Wert geschätzt Rangkorrelationskoeffizient(bei mehreren Sachverständigen). Es sei darauf hingewiesen, dass die Rangkorrelation der Lösung vieler Qualimetrieprobleme zugrunde liegt, da sie mathematische Berechnungen mit qualitativen Merkmalen ermöglicht.

Ein Indikator für die Qualifikation eines Sachverständigen ist in der Praxis häufig die Abweichung seiner Einschätzungen von den durchschnittlichen Einschätzungen einer Expertengruppe.

Befragung nannte die Methode des Sammelns von Meinungen durch Ausfüllen von Fragebögen. Fragen, zusammen mit Interviews und Gesprächen, beziehen sich auf Erhebungsmethoden. Anders als bei Interviews und Gesprächen handelt es sich bei Befragungen um schriftliche Antworten des Fragebogenausfüllers – des Befragten – auf ein System standardisierter Fragen. Es ermöglicht Ihnen, die Motive des Verhaltens, Absichten, Meinungen usw.

Fragebögen können verwendet werden, um viele praktische Probleme im Sport zu lösen: Beurteilung des psychologischen Zustands eines Athleten; seine Einstellung zur Art und Richtung von Trainingseinheiten; zwischenmenschliche Beziehungen im Team; eigene Einschätzung der technischen und taktischen Bereitschaft; Ernährungsbewertung und viele andere.

1 Was untersucht die Qualimetrie?

Untersucht die Qualität von Tests Untersucht die qualitativen Eigenschaften eines Merkmals Untersucht und entwickelt quantitative Methoden zur Bewertung der Qualität

2 Mathematische Methoden in der Qualimetrie?

Paarkorrelation Rangkorrelation Varianzanalyse

3 Welche Methoden werden zur Beurteilung des Leistungsniveaus verwendet?

4 Mit welchen Methoden wird die Vielfalt technischer Elemente bewertet?

Fragebogenmethode Methode der Expertenbeurteilung Methode nicht spezifiziert

5 Mit welchen Methoden wird die Komplexität technischer Elemente bewertet?

Fragebogenmethode Methode der Expertenbeurteilung Methode nicht spezifiziert

6 Welche Methoden werden verwendet, um den psychischen Zustand eines Sportlers zu beurteilen?

Fragebogenmethode Methode der Expertenbeurteilung Methode nicht spezifiziert

Beschreibung der Präsentation auf einzelnen Folien:

1 Folie

Beschreibung der Folie:

2 Folie

Beschreibung der Folie:

Es ist üblich, körperliche Eigenschaften angeborene (genetisch vererbte) morphofunktionelle Eigenschaften zu nennen, aufgrund derer die körperliche (materiell ausgedrückte) Aktivität einer Person möglich ist, die ihre volle Manifestation in zweckmäßiger motorischer Aktivität erhält. Die wichtigsten körperlichen Qualitäten sind Kraft, Schnelligkeit, Ausdauer, Flexibilität und Geschicklichkeit.

3 Folie

Beschreibung der Folie:

Motorische Fähigkeiten sind individuelle Merkmale, die das Niveau der menschlichen motorischen Fähigkeiten bestimmen (V. I. Lyakh, 1996). Die Grundlage der motorischen Fähigkeiten einer Person sind körperliche Qualitäten, und die Form der Manifestation sind motorische Fähigkeiten und Fähigkeiten. Zu den motorischen Fähigkeiten gehören Kraft, Schnelligkeit, Geschwindigkeitskraft, motorische Koordinationsfähigkeiten, allgemeine und spezifische Ausdauer.

4 Folie

Beschreibung der Folie:

Schema der Systematisierung der körperlichen (motorischen) Fähigkeiten Körperliche (motorische) Fähigkeiten Konditional (Energie) Kraft Kombinationen konditionaler Fähigkeiten Ausdauer Schnelligkeit Flexibilität Koordination (Information) CS bezogen auf separate Gruppen motorischer Aktionen, spezielle CS Spezifische CS Kombinationen von Koordinationsfähigkeiten Kombinationen der konditionellen und koordinativen Fähigkeiten

5 Folie

Beschreibung der Folie:

GENAUE INFORMATIONEN ÜBER DEN ENTWICKLUNGSSTAND DER MOTORISCHEN FÄHIGKEITEN /hoch, mittel, niedrig/ ZU ERHALTEN, IST MIT HILFE VON TESTS /oder Kontrollübungen/ MÖGLICH.

6 Folie

Beschreibung der Folie:

Mit Hilfe von Kontrolltests (Tests) kann man die absoluten (expliziten) und relativen (verborgenen, latenten) Indikatoren dieser Fähigkeiten identifizieren. Absolute Indikatoren charakterisieren den Entwicklungsstand bestimmter motorischer Fähigkeiten, ohne deren Einfluss aufeinander zu berücksichtigen. Relative Indikatoren ermöglichen es, die Manifestation motorischer Fähigkeiten unter Berücksichtigung dieses Einflusses zu beurteilen.

7 Folie

Beschreibung der Folie:

Die oben genannten körperlichen Fähigkeiten können als potenziell vorhanden dargestellt werden, d.h. vor Beginn einer oder mehrerer motorischer Aktivitäten (sie können als potenzielle Fähigkeiten bezeichnet werden) und als in der Realität zu Beginn (einschließlich bei der Durchführung motorischer Tests) und im Verlauf manifestiert werden Durchführung dieser Tätigkeiten (tatsächliche körperliche Fähigkeiten).

8 Folie

Beschreibung der Folie:

Mit einem gewissen Maß an Konventionalität können wir von ELEMENTAREN und KOMPLEXEN körperlichen Fähigkeiten sprechen

9 Folie

Beschreibung der Folie:

FORSCHUNGSERGEBNISSE ERLAUBEN DIE FOLGENDEN KÖRPERLICHEN FÄHIGKEITEN SPEZIELL SPEZIFISCH ALLGEMEIN CS

10 Folie

Beschreibung der Folie:

Besondere körperliche Fähigkeiten beziehen sich auf homogene Gruppen ganzheitlicher motorischer Aktionen oder Aktivitäten: Laufen, akrobatische und gymnastische Übungen an Geräten, Wurfmotorik, Sportspiele (Basketball, Volleyball).

11 Folie

Beschreibung der Folie:

Wir können von spezifischen Manifestationen körperlicher Fähigkeiten als Komponenten sprechen, die ihre innere Struktur ausmachen.

12 Folie

Beschreibung der Folie:

Daher sind die Hauptkomponenten der Koordinationsfähigkeiten einer Person: die Fähigkeit, Bewegungsparameter zu orientieren, auszugleichen, zu reagieren und zu differenzieren; Rhythmusfähigkeit, Umstrukturierung der Motorik, vestibuläre Stabilität, willkürliche Muskelentspannung. Diese Fähigkeiten sind spezifisch.

13 Folie

Beschreibung der Folie:

Die Hauptkomponenten der Struktur der Geschwindigkeitsfähigkeiten sind die Reaktionsgeschwindigkeit, die Geschwindigkeit einer einzelnen Bewegung, die Bewegungsfrequenz und die Geschwindigkeit, die sich in integralen motorischen Aktionen manifestiert.

14 Folie

Beschreibung der Folie:

Die Manifestationen von Kraftfähigkeiten umfassen: statische (isometrische) Kraft, dynamische (isotonische) Kraft - Explosiv-, Dämpfungskraft.

15 Folie

Beschreibung der Folie:

Die Struktur der Ausdauer zeichnet sich durch große Komplexität aus: aerob, für ihre Manifestation Sauerstoffquellen für die Energiespaltung erforderlich; anaerob (glykolytische, Kreatinphosphat-Energiequellen - ohne Beteiligung von Sauerstoff); Ausdauer verschiedener Muskelgruppen in statischen Posen - statische Ausdauer; Ausdauer in dynamischen Übungen, die mit einer Geschwindigkeit von 20-90% des Maximums durchgeführt werden.

16 Folie

Beschreibung der Folie:

Weniger komplex sind die Erscheinungsformen (Formen) der Flexibilität, wobei zwischen aktiver und passiver Flexibilität unterschieden wird.

17 Folie

Beschreibung der Folie:

Unter allgemeinen körperlichen Fähigkeiten sind die potentiellen und realisierten Fähigkeiten eines Menschen zu verstehen, die seine Bereitschaft zur erfolgreichen Umsetzung von Bewegungshandlungen unterschiedlicher Herkunft und Bedeutung bestimmen. Besondere körperliche Fähigkeiten sind die Fähigkeiten eines Menschen, die seine Bereitschaft zur erfolgreichen Durchführung von Bewegungshandlungen ähnlicher Herkunft und Bedeutung bestimmen. Tests geben daher vor allem Auskunft über den Grad der Ausbildung spezieller und spezifischer körperlicher (Schnelligkeit, Koordination, Kraft, Ausdauer, Beweglichkeit) Fähigkeiten.

18 Folie

Beschreibung der Folie:

Besondere körperliche Fähigkeiten sind die Fähigkeiten eines Menschen, die seine Bereitschaft zur erfolgreichen Durchführung von Bewegungshandlungen ähnlicher Herkunft und Bedeutung bestimmen. Tests geben daher vor allem Auskunft über den Grad der Ausbildung spezieller und spezifischer körperlicher (Schnelligkeit, Koordination, Kraft, Ausdauer, Beweglichkeit) Fähigkeiten.

19 Folie

Beschreibung der Folie:

Die Aufgaben des Testens bestehen darin, den Entwicklungsstand der konditionellen und koordinativen Fähigkeiten aufzuzeigen und die Qualität der technischen und taktischen Bereitschaft zu bewerten. Basierend auf den Testergebnissen können Sie: die Bereitschaft sowohl einzelner Schüler als auch ganzer Gruppen, die in verschiedenen Regionen und Ländern leben, vergleichen; Durchführung einer Sportauswahl für die Ausübung einer bestimmten Sportart, für die Teilnahme an Wettkämpfen; weitgehend objektive Kontrolle über die Ausbildung (Training) von Schülern und jungen Sportlern ausüben; die Vor- und Nachteile der eingesetzten Mittel, Lehrmethoden und Formen der Unterrichtsorganisation erkennen; schließlich die Normen (Alter, Individuum) der körperlichen Fitness von Kindern und Jugendlichen zu konkretisieren.

20 Folie

Beschreibung der Folie:

Neben den oben genannten Aufgaben in der Praxis verschiedener Länder laufen die Testaufgaben auf Folgendes hinaus: den Schülern selbst beizubringen, das Niveau ihrer körperlichen Fitness zu bestimmen und die für sie notwendigen Komplexe körperlicher Übungen zu planen; Ermutigen Sie die Schüler, ihre körperliche Verfassung (Form) weiter zu verbessern. nicht so sehr das anfängliche Entwicklungsniveau der motorischen Fähigkeiten zu kennen, als vielmehr ihre Veränderung über eine bestimmte Zeit; Schüler mit hohen Leistungen zu stimulieren, aber nicht so sehr für ein hohes Niveau, sondern für die geplante Steigerung der persönlichen Ergebnisse.

21 Folie

Beschreibung der Folie:

Ein Test ist eine Messung oder ein Test, der durchgeführt wird, um die Fähigkeit oder den Zustand einer Person zu bestimmen.

22 Folie

Beschreibung der Folie:

Als Prüfungen können nur solche Prüfungen (Proben) herangezogen werden, die besonderen Anforderungen genügen: Der Zweck der Anwendung einer Prüfung (oder Prüfungen) muss festgelegt werden; eine standardisierte Messmethodik und ein standardisiertes Testverfahren sollten entwickelt werden; es ist notwendig, die Zuverlässigkeit und Aussagekraft von Tests zu bestimmen; Testergebnisse können im entsprechenden Bewertungssystem dargestellt werden

23 Folie

Beschreibung der Folie:

Prüfen. Testen. Testergebnis Das System der aufgabengerechten Anwendung von Tests, der Organisation der Bedingungen, der Durchführung der Tests durch die Testpersonen, der Auswertung und Analyse der Ergebnisse wird Test genannt. Der bei den Messungen erhaltene Zahlenwert ist das Ergebnis der Prüfung (Prüfung).

24 Folie

Beschreibung der Folie:

Die in der Körperkultur verwendeten Tests basieren auf motorischen Aktionen (Körperübungen, motorische Aufgaben). Solche Tests werden als Bewegungs- oder Motortests bezeichnet.

25 Folie

Beschreibung der Folie:

Die Einteilung der Tests nach ihrer Struktur ist bekannt, und nach ihren überwiegenden Indikationen werden Einzel- und Komplextests unterschieden. Der Unit Test dient der Messung und Bewertung eines Attributs (Koordinations- oder Konditionierungsfähigkeit).

26 Folie

Beschreibung der Folie:

27 Folie

Beschreibung der Folie:

Mit Hilfe eines komplexen Tests werden mehrere Zeichen oder Komponenten unterschiedlicher oder gleicher Fähigkeit bewertet. zum Beispiel von einer Stelle hochspringen (mit einer Handbewegung, ohne Handbewegung, auf eine bestimmte Höhe).

28 Folie

Beschreibung der Folie:

29 Folie

Beschreibung der Folie:

TESTS können Konditionstests sein, um Kraftfähigkeiten zu beurteilen, um Ausdauer zu beurteilen; um Geschwindigkeitsfähigkeiten zu beurteilen; zur Bewertung der Flexibilität, Koordinationstests zur Bewertung der Koordinationsfähigkeiten in Bezug auf separate unabhängige Gruppen motorischer Aktionen, die spezielle Koordinationsfähigkeiten messen; zur Beurteilung spezifischer koordinativer Fähigkeiten - Gleichgewichtsfähigkeit, Orientierung im Raum, Reaktion, Differenzierung von Bewegungsparametern, Rhythmus, Umstrukturierung motorischer Aktionen, Koordination (Verbindung), vestibuläre Stabilität, willkürliche Muskelentspannung).

30 Folie

Beschreibung der Folie:

Jede Klassifizierung ist eine Art Richtlinie für die Auswahl (oder Erstellung) der Testtypen, die für die Testaufgaben relevanter sind.

31 Folie

Beschreibung der Folie:

QUALITÄTSKRITERIEN VON BEWEGUNGSTESTS Das Konzept „motorischer Test“ erfüllt seinen Zweck, wenn der Test die relevanten Grundkriterien: Zuverlässigkeit, Stabilität, Äquivalenz, Objektivität, Aussagekraft (Validität) sowie die zusätzlichen Kriterien: Normierung, Vergleichbarkeit und Ökonomie erfüllt. Tests, die die Anforderungen an Zuverlässigkeit und Aussagekraft erfüllen, werden als gut oder authentisch (zuverlässig) bezeichnet.

32 Folie

Beschreibung der Folie:

Unter der Reliabilität eines Tests wird der Grad der Genauigkeit verstanden, mit dem er eine bestimmte motorische Fähigkeit bewertet, unabhängig von den Anforderungen des Auswerters. Reliabilität zeigt sich im Grad der Übereinstimmung zwischen den Ergebnissen, wenn dieselben Personen wiederholt unter denselben Bedingungen getestet werden; es ist die Stabilität oder Stabilität des Testergebnisses einer Person, wenn eine Kontrollübung wiederholt wird. Mit anderen Worten: Ein Kind im Kreis der Befragten, die aufgrund der Ergebnisse wiederholter Tests (z. B. Sprungleistung, Laufzeit, Wurfweite) befragt werden, behält seinen Rangplatz stetig. Die Reliabilität des Tests wird mittels korrelationsstatistischer Analyse durch Berechnung des Reliabilitätskoeffizienten ermittelt. In diesem Fall werden verschiedene Methoden verwendet, anhand derer die Zuverlässigkeit des Tests beurteilt wird.

33 Folie

Beschreibung der Folie:

Die Stabilität des Tests basiert auf der Beziehung zwischen dem ersten und dem zweiten Versuch, die nach einer bestimmten Zeit unter denselben Bedingungen von demselben Experimentator wiederholt werden. Die Methode des wiederholten Testens zur Bestimmung der Zuverlässigkeit wird als Wiederholungstest bezeichnet. Die Stabilität des Tests hängt von der Art des Tests, dem Alter und Geschlecht der Probanden, dem Zeitintervall zwischen dem Test und dem Wiederholungstest ab. Beispielsweise sind Indikatoren von Konditionstests oder morphologischen Merkmalen in kurzen Zeitabständen stabiler als die Ergebnisse von Koordinationstests; bei älteren Kindern sind die Ergebnisse stabiler als bei jüngeren. Der Wiederholungstest wird in der Regel spätestens eine Woche später durchgeführt. In längeren Abständen (z. B. nach einem Monat) wird die Stabilität auch bei Tests wie 1000 m Laufen oder Weitsprung aus dem Stand merklich geringer.

34 Folie

Beschreibung der Folie:

Testäquivalenz Testäquivalenz ist die Korrelation eines Testergebnisses mit den Ergebnissen anderer gleichartiger Tests. Zum Beispiel, wenn es darum geht zu wählen, welcher Test die Geschwindigkeitsfähigkeiten besser widerspiegelt: 30, 50, 60 oder 100 Meter laufen Die Einstellung zu gleichwertigen (homogenen) Tests hängt von vielen Gründen ab. Wenn es notwendig ist, die Zuverlässigkeit der Schätzungen oder Schlussfolgerungen der Studie zu erhöhen, ist es ratsam, zwei oder mehr gleichwertige Tests zu verwenden. Und wenn die Aufgabe darin besteht, eine Batterie zu erstellen, die ein Minimum an Tests enthält, sollte nur einer der äquivalenten Tests verwendet werden. Eine solche Batterie ist, wie bereits erwähnt, heterogen, da die darin enthaltenen Tests unterschiedliche motorische Fähigkeiten messen. Ein Beispiel für eine heterogene Testbatterie ist ein 30-m-Lauf, ein Klimmzug, eine Vorwärtsbeuge und ein 1000-m-Lauf.

35 Folie

Beschreibung der Folie:

Die Zuverlässigkeit von Tests wird auch bestimmt, indem die durchschnittlichen Punktzahlen von geraden und ungeraden Versuchen verglichen werden, die im Test enthalten sind. Beispielsweise wird die durchschnittliche Zielgenauigkeit von 1, 3, 5, 7 und 9 Versuchen mit der durchschnittlichen Genauigkeit von Schüssen von 2, 4, 6, 8 und 10 Versuchen verglichen. Diese Methode zur Bewertung der Zuverlässigkeit wird als Verdopplungsmethode oder Splitting bezeichnet. Es wird hauptsächlich verwendet, wenn die koordinativen Fähigkeiten bewertet werden und wenn die Anzahl der Versuche, die das Testergebnis bilden, nicht weniger als sechs beträgt.

36 Folie

Beschreibung der Folie:

Unter der Objektivität (Konsistenz) des Tests Unter der Objektivität (Konsistenz) des Tests wird der Grad der Konsistenz der Ergebnisse verstanden, die von verschiedenen Experimentatoren (Lehrern, Richtern, Experten) an denselben Probanden erzielt wurden. Um die Objektivität der Tests zu erhöhen, müssen die Standardtestbedingungen eingehalten werden: Testzeit, Ort, Wetterbedingungen; einheitliche Material- und Hardwareunterstützung; psychophysiologische Faktoren (Belastungsvolumen und -intensität, Motivation); Präsentation von Informationen (genaue mündliche Formulierung der Testaufgabe, Erklärung und Demonstration). Dies ist die sogenannte Objektivität des Tests. Sie sprechen auch von interpretativer Objektivität, die sich auf den Grad der Unabhängigkeit der Interpretation von Testergebnissen durch verschiedene Experimentatoren bezieht.

37 Folie

Beschreibung der Folie:

Im Allgemeinen kann die Zuverlässigkeit von Tests, wie Experten anmerken, auf verschiedene Weise verbessert werden: strengere Standardisierung der Tests, Erhöhung der Anzahl der Versuche, bessere Motivation der Probanden, Erhöhung der Zahl der Gutachter (Richter, Experten) , eine Zunahme der Konsistenz ihrer Meinungen, eine Zunahme der Anzahl gleichwertiger Tests. Es gibt keine festen Werte für Testzuverlässigkeitsindikatoren. In den meisten Fällen werden die folgenden Empfehlungen verwendet: 0,95 - 0,99 - ausgezeichnete Zuverlässigkeit; 0,90 - 0,94 - gut; 0,80 - 0,89 - akzeptabel; 0,70 - 0,79 - schlecht; 0,60 - 0,69 - zweifelhaft für Einzelbeurteilungen, der Test ist nur zur Charakterisierung einer Probandengruppe geeignet.

38 Folie

Beschreibung der Folie:

Die Aussagekraft eines Tests ist der Grad an Genauigkeit, mit dem er die bewerteten motorischen Fähigkeiten oder Fertigkeiten misst. In der ausländischen (und einheimischen) Literatur wird anstelle des Wortes "informativeness" der Begriff "Gültigkeit" verwendet (von der englischen Gültigkeit - Gültigkeit, Gültigkeit, Legalität). Tatsächlich beantwortet der Forscher zwei Fragen, wenn er über Aussagekraft spricht: Was misst dieser spezielle Test (eine Reihe von Tests) und wie hoch ist der Grad der Messgenauigkeit? Es gibt verschiedene Arten von Validität: logisch (aussagekräftig), empirisch (basierend auf experimentellen Daten) und prädiktiv.

39 Folie

Beschreibung der Folie:

Wichtige zusätzliche Prüfkriterien sind, wie erwähnt, Standardisierung, Vergleichbarkeit und Wirtschaftlichkeit. Das Wesen der Normalisierung besteht darin, dass es möglich ist, auf der Grundlage der Testergebnisse Normen zu erstellen, die für die Praxis von besonderer Bedeutung sind. Die Vergleichbarkeit eines Tests ist die Fähigkeit, die Ergebnisse zu vergleichen, die durch eine oder mehrere Formen paralleler (homogener) Tests erzielt wurden. In der Praxis verringert die Verwendung vergleichbarer motorischer Tests die Wahrscheinlichkeit, dass durch die regelmäßige Verwendung desselben Tests nicht nur und weniger das Leistungsniveau, sondern der Grad der Fertigkeit bewertet wird. Gleichzeitig vergleichbare Testergebnisse erhöhen die Aussagesicherheit. Das Wesen der Wirtschaftlichkeit als Testqualitätskriterium besteht darin, dass der Test keine lange Zeit, keine großen Materialkosten und die Teilnahme vieler Assistenten erfordert.

40 Folie

Beschreibung der Folie:

ORGANISATION DER PRÜFUNG DER FITNESS VON KINDERN IM SCHULALTER Das zweite wichtige Problem beim Testen der motorischen Fähigkeiten (denken Sie daran, dass das erste die Auswahl informativer Tests ist, ist die Organisation ihrer Anwendung. Der Lehrer für Körperkultur muss bestimmen: Wann ist es besser zu organisieren Prüfung, wie sie im Unterricht durchgeführt wird und wie oft Prüfung Die Prüfungsbedingungen stimmen mit dem Schulprogramm überein, das eine obligatorische zweimalige Prüfung der körperlichen Eignung der Schüler vorsieht.

41 Folie

Beschreibung der Folie:

Die Kenntnis der jährlichen Veränderungen in der Entwicklung der motorischen Fähigkeiten von Kindern ermöglicht es dem Lehrer, den Prozess der Körperkultur für das nächste Schuljahr angemessen anzupassen. Allerdings muss und kann der Lehrer häufigere Prüfungen durchführen, die sogenannte Betriebskontrolle durchführen. Dies ist sinnvoll, um beispielsweise eine Veränderung des Geschwindigkeits-, Kraft- und Ausdauerniveaus unter dem Einfluss des Leichtathletikunterrichts im ersten Quartal festzustellen. Zu diesem Zweck kann der Lehrer Tests zur Beurteilung der koordinativen Fähigkeiten von Kindern zu Beginn und am Ende der Bewältigung des Programmstoffs, beispielsweise in Sportspielen, anwenden, um Veränderungen in der Entwicklung dieser Fähigkeiten zu erkennen.

42 Folie

Beschreibung der Folie:

Es ist zu berücksichtigen, dass die Vielfalt der zu lösenden pädagogischen Aufgaben es nicht erlaubt, dem Lehrer eine einheitliche Testmethodik, dieselben Regeln für die Durchführung von Tests und die Bewertung von Testergebnissen zur Verfügung zu stellen. Dies erfordert von den Experimentatoren (Lehrkräften) Unabhängigkeit bei der Lösung theoretischer, methodischer und organisatorischer Fragen des Testens. Das Testen im Unterricht muss mit dessen Inhalt verknüpft sein. Mit anderen Worten, der oder die angewandten Tests sollten, vorbehaltlich der entsprechenden Anforderungen (als Forschungsmethode), organisch in die geplanten körperlichen Übungen einbezogen werden. Wenn Kinder beispielsweise den Entwicklungsstand der Schnelligkeit oder Ausdauer bestimmen müssen, sollten die erforderlichen Tests in dem Teil des Unterrichts geplant werden, in dem die Aufgaben zur Entwicklung der entsprechenden körperlichen Fähigkeiten gelöst werden.

43 Folie

Beschreibung der Folie:

Die Häufigkeit der Tests wird weitgehend durch das Entwicklungstempo bestimmter körperlicher Fähigkeiten, Alter und Geschlecht und individuelle Merkmale ihrer Entwicklung bestimmt. Um beispielsweise eine deutliche Steigerung der Schnelligkeit, Ausdauer oder Kraft zu erreichen, sind mehrere Monate regelmäßiges Training (Training) erforderlich. Gleichzeitig sind nur 4-12 Trainingseinheiten erforderlich, um eine deutliche Steigerung der Flexibilität oder der individuellen Koordinationsfähigkeit zu erreichen. Es ist möglich, in kürzerer Zeit eine Verbesserung der körperlichen Qualität zu erreichen, wenn Sie bei Null anfangen. Und um die gleiche Qualität zu verbessern, wenn ein Kind ein hohes Niveau hat, braucht es mehr Zeit. In diesem Zusammenhang sollte der Lehrer die Merkmale der Entwicklung und Verbesserung verschiedener motorischer Fähigkeiten bei Kindern in verschiedenen Alters- und Geschlechtsperioden eingehender untersuchen.

44 Folie

Beschreibung der Folie:

Bei der Beurteilung der allgemeinen körperlichen Leistungsfähigkeit von Kindern können verschiedenste Testbatterien zum Einsatz kommen, deren Auswahl von den konkreten Testaufgaben und der Verfügbarkeit der notwendigen Voraussetzungen abhängt. Da die Testergebnisse jedoch nur im Vergleich ausgewertet werden können, empfiehlt es sich, Tests zu wählen, die in Theorie und Praxis des Kindersports weit verbreitet sind. Verlassen Sie sich beispielsweise auf die im FC-Programm empfohlenen. Um das allgemeine Niveau der körperlichen Fitness eines Schülers oder einer Gruppe von Schülern anhand einer Reihe von Tests zu vergleichen, greifen sie auf die Umrechnung der Testergebnisse in Punkte oder Punkte zurück. Die Veränderung der Punktesumme bei wiederholten Tests ermöglicht es, den Fortschritt sowohl eines einzelnen Kindes als auch einer Gruppe von Kindern zu beurteilen.

49 Folie

Beschreibung der Folie:

Ein wichtiger Aspekt des Testens ist das Problem der Auswahl eines Tests zur Beurteilung einer bestimmten körperlichen Leistungsfähigkeit und der allgemeinen körperlichen Fitness.

50 Folie

Beschreibung der Folie:

Praktische Empfehlungen und Ratschläge. WICHTIG: Bestimmen (wählen) Sie eine Batterie (oder einen Satz) notwendiger Tests mit einer detaillierten Beschreibung aller Details ihres Verhaltens; Legen Sie den Testzeitpunkt fest (besser - 2-3 Wochen im September - 1. Test, 2-3 Wochen im Mai - 2. Test); Bestimmen Sie wie empfohlen das Alter der Kinder am Testtag und ihr Geschlecht genau; Entwicklung einheitlicher Protokolle für die Datenregistrierung (möglicherweise basierend auf dem Einsatz von IKT); Bestimmen Sie den Kreis der Assistenten und führen Sie das Testverfahren selbst durch; Führen Sie die mathematische Verarbeitung der Testdaten sofort durch - Berechnung der wichtigsten statistischen Parameter (arithmetisches Mittel, arithmetischer mittlerer Fehler, Standardabweichung, Variationskoeffizient und Schätzungen der Zuverlässigkeit von Unterschieden zwischen arithmetischen Mittelwerten, z. B. parallele Klassen gleicher und unterschiedlicher Klassen). Schulen für Kinder eines bestimmten Alters und Geschlechts); Einer der wesentlichen Arbeitsschritte kann die Umrechnung von Testergebnissen in Punkte oder Punkte sein. Bei regelmäßigen Tests (zweimal im Jahr, über mehrere Jahre) kann sich der Lehrer so ein Bild vom Fortschritt der Ergebnisse machen.

51 Folie

Beschreibung der Folie:

Moskau „Aufklärung“ 2007 Das Buch enthält die gängigsten motorischen Tests zur Beurteilung der konditionellen und koordinativen Fähigkeiten von Schülern. Das Handbuch sieht eine individuelle Herangehensweise eines Sportlehrers an jeden einzelnen Schüler unter Berücksichtigung seines Alters und seines Körperbaus vor.


Leitfragen: Test als Messinstrument. Grundlegende Testtheorien. Funktionen, Möglichkeiten und Grenzen des Testens. Der Einsatz von Tests in der Personalbeurteilung. Vor- und Nachteile der Verwendung von Tests. Formen und Arten von Testaufgaben. Aufgabe Bautechnik. Bewertung der Testqualität. Zuverlässigkeit und Gültigkeit. Entwicklungssoftware testen. 2




Test als Messinstrument Grundbegriffe der Testologie: Messung, Test, Inhalt und Form der Aufgaben, Reliabilität und Validität von Messergebnissen. Darüber hinaus verwendet die Testologie Konzepte der statistischen Wissenschaft wie Stichproben und allgemeine Bevölkerung, Durchschnitte, Variation, Korrelation, Regression usw. 4




Eine Prüfungsaufgabe ist eine didaktisch und technisch wirksame Einheit von Kontrollmaterial, ein Prüfungsteil, der den Anforderungen der fachlichen Reinheit des Inhalts (bzw die Aufgabe. 6




Der traditionelle Test ist ein standardisiertes Verfahren zur Diagnose von Bereitschaftsgrad und -struktur. Bei einem solchen Test beantworten alle Probanden die gleichen Aufgaben zur gleichen Zeit, unter den gleichen Bedingungen und mit den gleichen Regeln zur Bewertung der Antworten. Um das Ziel des Testens zu erreichen, können Sie eine unendliche Anzahl von Tests erstellen, und alle können die Erfüllung der Aufgabe erfüllen. acht


Professiogramm (von lat. Professio Spezialität + Gramma-Eintrag) ist ein System von Merkmalen, die einen bestimmten Beruf beschreiben, und enthält auch eine Liste von Normen und Anforderungen an einen Mitarbeiter dieses Berufs oder Fachgebiets. Das Professiogramm kann insbesondere eine Liste psychologischer Merkmale enthalten, die Vertreter bestimmter Berufsgruppen erfüllen müssen. neun


Grundlegende Testtheorie Die ersten wissenschaftlichen Arbeiten zur Testtheorie erschienen zu Beginn des 20. Jahrhunderts an der Schnittstelle von Psychologie, Soziologie, Pädagogik und anderen sogenannten Verhaltenswissenschaften. Ausländische Psychologen nennen diese Wissenschaft Psychometrie (Psychometrika) und Lehrer - pädagogische Messung (Educational Measurement). Ungetrübt von Ideologie und Politik ist die Interpretation des Namens „Testologie“ einfach und transparent: die Wissenschaft der Tests. zehn


Die erste Stufe - die Vorgeschichte - von der Antike bis zum Ende des 19. Jahrhunderts, als vorwissenschaftliche Formen der Kontrolle von Wissen und Fähigkeiten weit verbreitet waren; die zweite Periode, die klassische, dauerte von Anfang der 20er bis Ende der 60er Jahre, während der die klassische Testtheorie entstand; die dritte Periode - technologisch - die in den 70er Jahren begann - die Zeit der Entwicklung von Methoden zum adaptiven Testen und Lernen, der Methodik zur effektiven Entwicklung von Tests und Testaufgaben zur parametrischen Bewertung von Probanden durch die gemessene latente Qualität. elf


Funktionen, Möglichkeiten und Grenzen der Tests Die bei der Auswahl verwendeten Tests dienen dazu, ein psychologisches Porträt des Kandidaten zu erhalten, seine Fähigkeiten sowie seine beruflichen Kenntnisse und Fähigkeiten zu beurteilen. Tests ermöglichen es Ihnen, Kandidaten miteinander oder mit Standards zu vergleichen, dh mit einem idealen Kandidaten. Tests werden verwendet, um die Qualitäten einer Person zu messen, die für die effektive Ausübung einer Tätigkeit erforderlich sind. Einige Tests sind so konzipiert, dass der Arbeitgeber den Test selbst durchführt und die Ergebnisse berechnet. Andere benötigen die Dienste erfahrener Berater, um ihre korrekte Anwendung sicherzustellen. 12


Die Einschränkungen bei der Verwendung von Tests hängen zusammen - mit ihrer teuren Verwaltung; - mit Eignung zur Beurteilung der Fähigkeiten einer Person; - Tests sind erfolgreicher bei der Vorhersage des Erfolgs in einer Arbeit, die kurzfristige berufliche Aufgaben enthält, und sind nicht sehr nützlich, wenn die Lösung von Aufgaben bei der Arbeit mehrere Tage oder Wochen dauert. dreizehn








2. Die verwendete Terminologie sollte auf der Grundlage einer bestimmten Zielgruppe ausgewählt werden. Redundante Artikel oder Artikel, die zwei oder mehr Fragen enthalten, sollten ebenfalls ausgeschlossen werden, da sie den Befragten manchmal verwirren und die Interpretation erschweren. 17


3. Um all diesen Anforderungen gerecht zu werden, sollten Sie den gesamten Fragenkatalog Artikel für Artikel durchgehen und analysieren, welchen Zweck jede von ihnen erfüllt. Wenn beispielsweise ein Test entwickelt wird, um die analytische Fähigkeit von Buchhalterlehrlingen zu messen, lohnt es sich zu überlegen, was "analytische Fähigkeit" in diesem Fall bedeutet. achtzehn




5. Wenn Fragen und Bewertungsformate ausgewählt werden, sollten sie in ein benutzerfreundliches Format umgewandelt werden, mit klar geschriebenen Anweisungen und Beispielfragen; damit die Testteilnehmer vollständig verstehen, was von ihnen verlangt wird. 20


6. Sehr oft werden in diesem Stadium der Entwicklung mehr Fragen in den Test aufgenommen als nötig. Schätzungen zufolge dreimal so viel, wie im endgültigen Test- oder Messsystem verbleiben wird. Der Ausgangspunkt wäre dann, den zu entwickelnden Test an einer relativ großen Stichprobe bestehender Arbeitnehmer zu testen, um sicherzustellen, dass alle Fragen leicht verständlich sind. 21


7. Wissenstests beginnen in der Regel mit einfachen Fragen und werden gegen Ende immer komplexer. Wenn die Tests soziale Einstellungen und Persönlichkeitsmerkmale messen sollen, kann es sinnvoll sein, negativ und positiv formulierte Artikel abzuwechseln, um unüberlegte Antworten zu vermeiden. 22


8. Der letzte Schritt ist die Anwendung des Tests auf eine breite repräsentative Stichprobe, um Standards für Leistung, Gültigkeit und Validität festzulegen, bevor er als Auswahlinstrument verwendet wird. Darüber hinaus muss die Fairness des Tests bestimmt werden, um sicherzustellen, dass keine Untergruppen der Bevölkerung diskriminiert werden (z. B. ethnische Unterschiede). 23


Bewertung der Testqualität Damit Auswahlverfahren effektiv genug sind, müssen sie zuverlässig, valide und zuverlässig sein. Die Zuverlässigkeit des Auswahlverfahrens ist gekennzeichnet durch seine Unanfälligkeit gegenüber systematischen Fehlern bei der Messung, dh seine Konsistenz unter verschiedenen Bedingungen. 24


In der Praxis wird eine verlässliche Beurteilung erreicht, indem die Ergebnisse von zwei oder mehr ähnlichen Tests verglichen werden, die an verschiedenen Tagen durchgeführt wurden. Eine weitere Möglichkeit, die Zuverlässigkeit zu erhöhen, besteht darin, die Ergebnisse mehrerer alternativer Auswahlverfahren (z. B. Test und Interview) zu vergleichen. Wenn die Ergebnisse ähnlich oder gleich sind, können sie als richtig angesehen werden. 25


Zuverlässigkeit bedeutet, dass die durchgeführten Messungen das gleiche Ergebnis wie die vorherigen liefern, dh die Ergebnisse der Bewertung werden nicht durch externe Faktoren beeinflusst. Validität bedeutet, dass die Methode genau das misst, was sie beabsichtigt. Die maximal mögliche Genauigkeit von Informationen, die durch speziell entwickelte Methoden in der wissenschaftlichen Forschung gewonnen werden, ist durch technische Faktoren begrenzt und überschreitet 0,8 nicht. 26


In der Praxis der Personalauswahl wird festgestellt, dass die Zuverlässigkeit verschiedener Bewertungsmethoden in den Intervallen angesiedelt ist: 0,1 - 0,2 - traditionelles Interview; 0,2 - 0,3 - Empfehlungen; 0,3 - 0,5 - professionelle Tests; 0,5 - 0,6 - strukturiertes Interview, kompetenzbasiertes Interview; 0,5 - 0,7 - kognitive und Persönlichkeitstests; 0,6 - 0,7 - kompetenzbasierter Ansatz (Assessment - Center). 27


Validität bezieht sich auf den Grad der Genauigkeit, mit dem ein bestimmtes Ergebnis, eine Methode oder ein Kriterium die zukünftige Leistung der getesteten Person „vorhersagt“. Die Validität von Methoden bezieht sich auf die Schlussfolgerungen, die aus einem Verfahren gezogen werden, nicht auf das Verfahren selbst. Das heißt, das Auswahlverfahren kann selbst zuverlässig sein, aber nicht einer bestimmten Aufgabe entsprechen: nicht das zu messen, was in diesem Fall erforderlich ist. 28


Software zur Entwicklung von Tests In der heimischen Praxis werden verschiedene integrierte Programme mit dem Modul „Psychodiagnostik“ vorgestellt, beispielsweise das gemeinsam mit einer Gruppe von Lehrkräften entwickelte Programm „1 C: Gehalts- und Personalmanagement 8.0“ mit dem Modul „Psychodiagnostik“. der Abteilung für Persönlichkeitspsychologie und Allgemeine Psychologie der Fakultät für Psychologie der Staatlichen Universität Moskau M. V. Lomonosov unter der Leitung von Dr. psych. Wissenschaften, Prof. A. N. Guseva. Ein Trainingssimulator zur Entwicklung von Personalbeurteilungssystemen und Adaption von Testmethoden der Fakultät für Psychologie der TSU, ebenfalls entwickelt auf Basis von „1 C: Enterprise 8.2“ von Personnel Soft. 29


Referenzen: Auswahl und Rekrutierung: Test- und Bewertungstechnologien / Dominic Cooper, Ivan T. Robertson, Gordon Tinline. - M., Verlag "Vershina", - 156 p. Psychologische Unterstützung der beruflichen Tätigkeit: Theorie und Praxis / Ed. Prof.. G. S. Nikiforova. - St. Petersburg: Rede, - 816 p. dreißig