Startseite » HPLC Tipps des Jahres
AllgemeinJahrestippsNachweisgrenze

Die kleine Frage zur Validierung …

„Die Kalibrierung wird bei uns nicht von allen gleich durchgeführt. Wir alle erreichen aber meistens einen Korrelationskoeffizient von r = 0,999. Ist dann alles in Ordnung? Oder kann es sein, dass unsere Kalibrierungen doch nicht alle gleich „gut“ sind?“

Vorbemerkung:
Der Korrelationskoeffizient – aber auch das Bestimmtheitsmaß, r2, – ist kein wirklich gutes, oder sagen wir, eher kein besonders aussagekräftiges Kriterium für die Güte einer kalibrierfähigen Methode. Damit werden wir uns jedoch in einem zukünftigen Tipp näher beschäftigen.

Wenden wir uns jetzt der Frage zu: Sollte man/frau bei einem Korrelationskoeffizienten von r = 0,999 sich doch Gedanken machen? Oh ja, denn es sind ja unterschiedliche Praxen zur Aufnahme von Kalibriergeraden denkbar. Und: Diese unterschiedlichen Vorgehensweisen haben kaum einen Einfluss auf den Wert des erhaltenen Korrelationskoeffizienten, zwei bis drei „9“ sind fast immer „drin“. Somit sagen gleiche/ähnliche Werte für r/r2 nichts über die „Qualität“ von Kalibrierungen aus, wenn die entsprechenden Kalibriergeraden anders aufgenommen worden sind. Nachfolgend einige Praxen, die statistisch/analytisch nicht in Ordnung sind, aber dennoch problemlos gute Werte für r/r2 liefern können. Merke: Bei Nicht-Äquidistanz (siehe weiter unten) kann sich sogar ein besserer Korrelationskoeffizient ergeben als die Methode eigentlich hergibt!

  1. Keine äquidistante (gleichmäßige) Abstände der Konzentrationsniveaus, hier einige häufig verwendete Varianten:
  • Zunehmend größer werdender Abstand, z. B:
    2, 5, 10, 20, 50,100
  • Messungen nur im unteren und nur im oberen Konzentrationsbereich, z. B:
    4, 8, 12 und 44, 48, 52. Eine mögliche Begründung – „Ich messe am sinnvollsten bei den problematischen Konzentrationen, also „unten“ und „oben“ – klingt nachvollziehbar, ist aber statistisch nicht korrekt
  • Nicht einmal annähernd gleichmäßige Verteilung der Werte, z. B:
    1, 2, 3, 4, 50, 100. Auch hier eine logisch anmutende, aber statistisch fragwürdige Argumentation: „Bei starken Verdünnungen ist die Streuung der Werte erwartungsgemäß größer, bei höherer Konzentration eher weniger – also nehme ich mehr Werte im unteren Bereich der Geraden auf“
  1. Neun Werte „3,3,3“, d.h. drei Konzentrationen, drei Werte pro Konzentration suggeriert Sicherheit: Drei Werte pro Konzentration und Ermittlung des Mittelwerts; statistische Relevanz bei drei Werten ist jedoch nicht gegeben. Und: Drei    Konzentrationen sind zu wenig, fünf sollten es schon sein
  2. Ein-Punkt-Kalibrierung
    – 0-Punkt wird angenommen und nicht gemessen
    – 0-Punkt wird zwar gemessen, aber nur mit Lösungsmittel und nicht mi einer Placebo-/Matrix-enthaltenen Lösung
  3. Die Gerade wird extrapoliert
    Es werden Lösungen bestimmter Konzentrationen gemessen, dann „zieht“ der Rechner die Gerade bis zum 0-Punkt; gerade Werte bei niedrigen Konzentrationen sollten jedoch gemessene und keine errechnete/extrapolierte Werte sein!

Ich möchte zum Schluss noch auf folgende Sache hinweisen: Oft werden für die Kalibriergerade Standardlösungen verwendet. Gehen wir zunächst davon aus, dass spätestens bei der Validierung der Einfluss der Matrix auf das Signal nachträglich überprüft wird. Denn passiert dies nicht, so wird bei Verwendung von lediglich Standardlösungen die Linearität des Detektors oder bestenfalls des Gerätes aber nicht der Methode ermittelt. Ein evtl. vorhandener Matrix-Effekt bliebe im Verborgenem.
Nun, wie ist die Handhabe bei der anschließenden Messung von realen Lösungen? Wird die Wiederfindungsrate nur bei einer (Ziel)Konzentration oder bei mehreren überprüft? Welche mögliche Differenz der zwei Signale „Standard- vs. realer Lösung“ wird akzeptiert: Eine absolute Differenz, so und so viel Prozent Abweichung oder wird überprüft, ob der Wert der realen Lösung sich im Vertrauensbereich des Wertes der Standardlösung bei gleicher Konzentration befindet? Und wenn letzteres passiert, wird der Vertrauensbereich bei 95 % oder 99 % berücksichtigt? Nun, das alles ist dem Korrelationskoeffizienten (oder r2) recht „egal“, er liefert weiterhin brav sein zwei bis drei „9“ …

Fazit:
Der Korrelationskoeffizient ist eine zähe Zahl. Unterschiedliche Praxen beeinflussen diese Zahl minimal. Sollen Ergebnisse, auch in einem etwas erweiterten Zusammenhang verglichen werden, z. B. Ringversuche, gleiche Methode aber einmal Gehalt, einmal Reinheit, unterschiedliche Matrices etc.? Wenn ja, und wenn wirklich analytische Gesichtspunkte im Vordergrund stehen sollten:
In solchen Fällen sollte erstens das Handling inkl. den Kriterien z. B. bzgl. Abweichungen völlig identisch sein.
Zur Beurteilung bedürfte es zweitens anderen Tests und statistischen Kriterien als lediglich dem Korrelationskoeffizienten z. B. VK, F-Test, Trendtest, Wiederholbarkeit.
Wenn andererseits seit „ewig“ geltenden, formalen Vorgaben nicht zur Disposition stehen: Natürlich bleibt in solchen Fällen als Kriterium der Korrelationskoeffizient. Denn alle Beteiligte lieben ihn, akzeptieren ihn, kommen seit langem mit ihm aus  verständlichen Gründen (…) hervorragend aus – „so, what?“ Hier besprochene Problematik ist übrigens vor allem im unteren Konzentrationsbereich, also in der Nähe der Bestimmungsgrenze (LOQ) besonders kritisch. Aber unter Umständen auch bei hohen Konzentrationen, d.h. kurz vor Überladung des Detektors.

sk
2. Februar 2026
AllgemeinJahrestipps

Die kleine Frage zur Validierung …

Unser Kunde sagte: „Ich brauche für meinen Kunden eine Methode mit einer guten Präzision und ohne Ausreißer – alles andere interessiert mich nicht.“ Dieser Kunde ist wichtig, hat keine Ahnung und wir wollen ihn zufrieden stellen. Wie machen wir das?“

Zusammenfassung:
Gute Präzision? So klappt´s:
Hervorragende Werte für die Präzision werden bekannterweise durch eine große Anzahl an Werten erreicht; ferner auch, wenn Messpräzision (Streuung der Werte bedingt lediglich durch das Gerät) statt Methodenpräzision ermittelt wird. Noch „krasser“: Keine Injektion aus sechs vials mit je einer Standardlösung, sondern sechs (drei) Wiederholinjektionen aus einem vial.
Sind Ausreißer vorhanden? So sind keine zu befürchten:
Es sollte als Ausreißertest natürlich der Dixon-Test verwendet werden
a) Kleine Anzahl an Werten: Egal wie stark ein Wert abweicht, wird er kaum als Ausreißer zu deklarieren sein
b) Starke Streuung der Werte – keine Probleme
c) Große Anzahl an Werten (mehr als sechs); da der Dixon-Test hier ungeeignet ist, sind auch hier kaum Ausreißer zu „befürchten“

Die Story:
Anfang des Jahres hat manch eine(r) gute Vorsätze für das neue Jahr; einige wollen vielleicht gar „bessere“ Menschen werden. Lasst uns dennoch für einen Moment ein raffiniertes, böses Teufelchen spielen und uns überlegen, wie man einen Unwissenden begeistern kann. Neben legalen, seien einmal ausnahmsweise auch halblegale und moralisch „grenzwertige“ Tricks/Aussagen erlaubt, die jedoch auf den ersten Blick wahrhaftig erscheinen.

Garantiert „gute“ Präzision:

Klassische, legale Vorgehensweise: Viele Werte? Ein kleiner Variationskoeffizient, VK ist mehr als sicher.
Injektion lediglich von Standardlösungen? Da die Geräte heute in der Regel einen hohen technischen Standard aufweisen, ist ein kleiner VK ebenfalls ziemlich leicht zu erreichen.

Test auf Ausreißer – keine Probleme zu befürchten

Ein bekannter Test auf Ausreißer ist der Dixon-Test

Vorgehen: Man bildet die Größe Q nach

Q = | x1 – x2 | / R

x1: ausreißverdächtiger Wert

x2: benachbarter Wert

R : Spannweite (Differenz zwischen kleinstem und größtem
Wert)

Der Ausreißer gilt als erwiesen, wenn der berechnete Wert Q größer ist als ein entsprechender Tabellenwert: Q > Q(P) in der Dixon-Tabelle. Deswegen „Betrag“ in der Formel, weil es um die absolute Differenz zwischen ausreißverdächtigem und benachbartem Wert geht – egal ob sie negativ oder positiv ist.

Die berechnete Größe Q stellt man dem Tabellenwert Q (P) gegenüber:

niP = 0.90P = 0.95P = 0.99
30.890.940.99
40.680.770.89
50.560.640.76
60.480.560.70
70.430.510.64
80.400.480.58

 

P: Signifikanzniveau, d. h. Wahrscheinlichkeit für die Richtigkeit der getroffenen Aussage

ni: Anzahl der Werte

Es hat sich eingebürgert, dass die Werte der Spalte „P=0.99“ zurate gezogen werden: Ein Wert wäre als Ausreißer zu deklarieren, wenn dieser größer als der entsprechende Wert in der Dixon-Tabelle ist: Dieser Wert ist eben zu 99 % ein Ausreißer. Und bei der relativ kleinen Anzahl an Werten, die wir in der Labor-Welt haben, sollte man für eine bestimmte Aussage schon zu 99 % sicher sein (statistische Relevanz bewahrt!)

Beispiel 1

3 Werte: 4,0   6,0   12,0; der Ausreißer-verdächtige Wert ist definitiv die „12“.

Dixon-Text:

6 – 12 : 8 = 0,75

0,75 ist kleiner als 0,99, also muss die „12“ nicht eliminiert werden

Beispiel 2

7 Werte, die recht stark streuen (kleinster Wert 5, größter Wert 14):

7,0   7,8   5,0   8,3   9,0   6,9   14,0
Ausreißer-verdächtiger Wert ist die „14“

Dixon-Text:

9 – 14: 9 = 0,56

0,56 ist kleiner als 0,64, die „14“ ist „kein“ Ausreißer

Beispiel 3

8 Werte, die nicht so stark streuen
:

7,0   7,5   8,0   8,5   7,9   8,9   10,0   14,0
Ausreißer-verdächtigter Wert ist die „14“

Dixon-Text:

10 – 14 : 7 = 0,57

0,57 ist kleiner als 0,58, die „14“ ist „kein“ Ausreißer

Bemerkungen:

  • Drei Werte sind zu wenig, um von einer statistischen Relevanz zu sprechen
  • Je stärker Werte streuen, um so unwahrscheinlicher wird es, eine starke Abweichung als Ausreißer zu deklarieren
  • Je größer die Anzahl der Werte, um so ungeeigneter wird der Dixon-Test; bei diesem Test werden ja nur drei Werte für die Berechnung der Prüfgröße Q berücksichtigt: der Ausreißer-verdächtigte Wert, sein benachbarter Wert und der kleinste Wert. Wie viele Werte dazwischen liegen, ist irrelevant. Deswegen sollte ab ca. sechs Werte der Grubbs-Text verwendet werden (Mittelwert, Standardabweichung für die Berechnung)

Eine analytisch seriös, wahrhaftig klingende Aussage vom Teufelchen könnte in etwa wie folgt lauten:

„Lieber Kunde,
wir haben unsere Methode wirklich sehr gründlich getestet: Die Präzision ist wie du hier siehst, hervorragend. Ferner haben wir die Methode selbstverständlich sowohl für eine kleine Zahl (Beispiel 1) als auch für eine große Anzahl an Werten (Beispiel 3) getestet. Wir haben unsere Methode sogar für die schwierigste Matrix getestet, also nicht nur für Apfelsaft, sondern auch für Spinat (Beispiel 2). Es ergab in keinem einzigen Fall ein Ausreißer, unsere Methode ist somit für dich gut geeignet.“

Jetzt verwandeln wir uns von einem Teufelchen zu einem(r) kritischen Beobachter(in): Wenn Sie Daten erhalten, werfen Sie einen kritischen Blick auf diese sowie auf den verwendeten statistischen Test:

  • Anzahl der Werte?
  • Sind diese normal/gleichmäßig verteilt?
  • Passt der Test zu der Intention, zu den Werten: Wie streng will/muss ich sein (Signifikanzniveau 95 % oder 99 %)?

Präzision:
Wenn Sie das Ergebnis eines Tests zur Präzision mit auffallend vielen Werten bekommen: Handelt es sich um eine Methode mit beispielsweise komplexer Probenaufarbeitung (Extraktion, Derivatisierung)? Oder liegt vielleicht eine komplexe Matrix vor (biologische, Lebensmittel- oder Umweltmatrix)? Dann kann eine große Anzahl an Werten gerechtfertigt sein. Ist das nicht der Fall, liegt womöglich ein unnötiger Fleiß vor, oder … Jedenfalls sollte man schon nach dem Grund fragen.

Ausreißertest:
Bei einer kleinen Anzahl an Werten und/oder starker Streuung ebendieser ist das Fehlen von Ausreißern keinesfalls ein Qualitätsattribut der Methode. Und wenn für ab ca. sechs Werten der Dixon-Text verwendet wird, würde ich der Aussage keinen sonderlichen Wert beimessen.

Meine Erfahrung aus diversen Projekten:
– Nicht-zu-Ende gedachten Vorgaben (Notwendigkeit für diese?),
– starker Focus auf formale Anforderungen zu Lasten analytischer Relevanz und
– mangelndes Wissen um die Aussagekraft von statistisch „sauber“ ermittelten Größen …
… führen des Öfteren dazu, dass die Routineeignung einer Methode zu positiv eingeschätzt wird. Seien Sie kritisch und versuchen Sie praxis-nah zu denken (mir fällt es auch oft schwer).

sk
2. Januar 2026