„Die Kalibrierung wird bei uns nicht von allen gleich durchgeführt. Wir alle erreichen aber meistens einen Korrelationskoeffizient von r = 0,999. Ist dann alles in Ordnung? Oder kann es sein, dass unsere Kalibrierungen doch nicht alle gleich „gut“ sind?“
Vorbemerkung:
Der Korrelationskoeffizient – aber auch das Bestimmtheitsmaß, r2, – ist kein wirklich gutes, oder sagen wir, eher kein besonders aussagekräftiges Kriterium für die Güte einer kalibrierfähigen Methode. Damit werden wir uns jedoch in einem zukünftigen Tipp näher beschäftigen.
Wenden wir uns jetzt der Frage zu: Sollte man/frau bei einem Korrelationskoeffizienten von r = 0,999 sich doch Gedanken machen? Oh ja, denn es sind ja unterschiedliche Praxen zur Aufnahme von Kalibriergeraden denkbar. Und: Diese unterschiedlichen Vorgehensweisen haben kaum einen Einfluss auf den Wert des erhaltenen Korrelationskoeffizienten, zwei bis drei „9“ sind fast immer „drin“. Somit sagen gleiche/ähnliche Werte für r/r2 nichts über die „Qualität“ von Kalibrierungen aus, wenn die entsprechenden Kalibriergeraden anders aufgenommen worden sind. Nachfolgend einige Praxen, die statistisch/analytisch nicht in Ordnung sind, aber dennoch problemlos gute Werte für r/r2 liefern können. Merke: Bei Nicht-Äquidistanz (siehe weiter unten) kann sich sogar ein besserer Korrelationskoeffizient ergeben als die Methode eigentlich hergibt!
- Keine äquidistante (gleichmäßige) Abstände der Konzentrationsniveaus, hier einige häufig verwendete Varianten:
- Zunehmend größer werdender Abstand, z. B:
2, 5, 10, 20, 50,100 - Messungen nur im unteren und nur im oberen Konzentrationsbereich, z. B:
4, 8, 12 und 44, 48, 52. Eine mögliche Begründung – „Ich messe am sinnvollsten bei den problematischen Konzentrationen, also „unten“ und „oben“ – klingt nachvollziehbar, ist aber statistisch nicht korrekt - Nicht einmal annähernd gleichmäßige Verteilung der Werte, z. B:
1, 2, 3, 4, 50, 100. Auch hier eine logisch anmutende, aber statistisch fragwürdige Argumentation: „Bei starken Verdünnungen ist die Streuung der Werte erwartungsgemäß größer, bei höherer Konzentration eher weniger – also nehme ich mehr Werte im unteren Bereich der Geraden auf“
- Neun Werte – „3,3,3“, d.h. drei Konzentrationen, drei Werte pro Konzentration – suggeriert Sicherheit: Drei Werte pro Konzentration und Ermittlung des Mittelwerts; statistische Relevanz bei drei Werten ist jedoch nicht gegeben. Und: Drei Konzentrationen sind zu wenig, fünf sollten es schon sein
- Ein-Punkt-Kalibrierung
– 0-Punkt wird angenommen und nicht gemessen
– 0-Punkt wird zwar gemessen, aber nur mit Lösungsmittel und nicht mi einer Placebo-/Matrix-enthaltenen Lösung - Die Gerade wird extrapoliert
Es werden Lösungen bestimmter Konzentrationen gemessen, dann „zieht“ der Rechner die Gerade bis zum 0-Punkt; gerade Werte bei niedrigen Konzentrationen sollten jedoch gemessene und keine errechnete/extrapolierte Werte sein!
Ich möchte zum Schluss noch auf folgende Sache hinweisen: Oft werden für die Kalibriergerade Standardlösungen verwendet. Gehen wir zunächst davon aus, dass spätestens bei der Validierung der Einfluss der Matrix auf das Signal nachträglich überprüft wird. Denn passiert dies nicht, so wird bei Verwendung von lediglich Standardlösungen die Linearität des Detektors oder bestenfalls des Gerätes aber nicht der Methode ermittelt. Ein evtl. vorhandener Matrix-Effekt bliebe im Verborgenem.
Nun, wie ist die Handhabe bei der anschließenden Messung von realen Lösungen? Wird die Wiederfindungsrate nur bei einer (Ziel)Konzentration oder bei mehreren überprüft? Welche mögliche Differenz der zwei Signale „Standard- vs. realer Lösung“ wird akzeptiert: Eine absolute Differenz, so und so viel Prozent Abweichung oder wird überprüft, ob der Wert der realen Lösung sich im Vertrauensbereich des Wertes der Standardlösung bei gleicher Konzentration befindet? Und wenn letzteres passiert, wird der Vertrauensbereich bei 95 % oder 99 % berücksichtigt? Nun, das alles ist dem Korrelationskoeffizienten (oder r2) recht „egal“, er liefert weiterhin brav sein zwei bis drei „9“ …
Fazit:
Der Korrelationskoeffizient ist eine zähe Zahl. Unterschiedliche Praxen beeinflussen diese Zahl minimal. Sollen Ergebnisse, auch in einem etwas erweiterten Zusammenhang verglichen werden, z. B. Ringversuche, gleiche Methode aber einmal Gehalt, einmal Reinheit, unterschiedliche Matrices etc.? Wenn ja, und wenn wirklich analytische Gesichtspunkte im Vordergrund stehen sollten:
In solchen Fällen sollte erstens das Handling inkl. den Kriterien z. B. bzgl. Abweichungen völlig identisch sein.
Zur Beurteilung bedürfte es zweitens anderen Tests und statistischen Kriterien als lediglich dem Korrelationskoeffizienten z. B. VK, F-Test, Trendtest, Wiederholbarkeit.
Wenn andererseits seit „ewig“ geltenden, formalen Vorgaben nicht zur Disposition stehen: Natürlich bleibt in solchen Fällen als Kriterium der Korrelationskoeffizient. Denn alle Beteiligte lieben ihn, akzeptieren ihn, kommen seit langem mit ihm aus verständlichen Gründen (…) hervorragend aus – „so, what?“ Hier besprochene Problematik ist übrigens vor allem im unteren Konzentrationsbereich, also in der Nähe der Bestimmungsgrenze (LOQ) besonders kritisch. Aber unter Umständen auch bei hohen Konzentrationen, d.h. kurz vor Überladung des Detektors.

