Modern Delhi

Tips, Recommendations, Ideas

Konfidenzintervall Formel?

Konfidenzintervall Formel
Die Normalverteilung

P(z 1 ≤ X ≤ z 2 ) = Φ(z 2 ) – Φ(z 1 )
P(X ≤ z) = Φ(z)
P(X ≥ z) = 1 – Φ(z)

Wie berechnet man das Konfidenzintervall?

Konfidenzintervall 95% – Für die Berechnung des Konfidenzintervalls muss die Wahrscheinlichkeit festgelegt werden, mit der der Mittelwert der Grundgesamtheit innerhalb des Intervalls liegt. Als Wahrscheinlichkeit wird sehr häufig das Konfidenzniveau von 95% oder 99% verwendet.

Konfidenzniveau 95% 99%
z-Wert 1,96 2,58

Wenn ein Konfidenzintervall von 95 % angegeben wird, kann man zu 95 % sicher sein, dass der wahre Wert des Parameters innerhalb dieses Intervalls liegt.

Warum 95 Konfidenzintervall?

95 Konfidenzintervall Die Breite des Konfidenzintervalls, das heißt der Bereich, in dem der wahre Mittelwert der Grundgesamtheit erwartet wird, muss wie bereits erwähnt vor der Berechnung festgelegt werden. In den meisten Fällen ist es sinnvoll, mit einem Konfidenzintervall von 95% zu arbeiten.

Was ist z bei Konfidenzintervall?

Die meisten statistischen Tests beginnen damit, dass eine NULL-Hypothese identifiziert wird. Die NULL-Hypothese für die Musteranalysewerkzeuge ( Toolset “Analysen von Mustern” und Toolset “Cluster-Zuordnung” ) ist eine zufällige räumliche Verteilung (Complete Spatial Randomness, CSR), entweder von den Features selbst oder von den mit diesen Features verknüpften Werten.

  • Die Z-Werte und p-Werte, die von den Musteranalysewerkzeugen zurückgegeben werden, geben Aufschluss darüber, ob Sie diese NULL-Hypothese ablehnen können oder nicht.
  • Häufig werden Sie eines der Musteranalysewerkzeuge ausführen und hoffen, dass der Z-Wert und der p-Wert angeben, dass Sie die NULL-Hypothese ablehnen können, da dies darauf hindeuten würde, dass die Features (bzw.

die mit den Features verknüpften Werte) eine statistisch signifikante Cluster-Bildung oder Streuung und kein zufälliges Muster aufweisen. Jedes Mal, wenn Sie eine räumliche Struktur, z.B. eine Cluster-Bildung, in der Landschaft (oder in den räumlichen Daten) sehen, ist dies der Beweis für zugrunde liegende räumliche Prozesse, die arbeiten.

Als Geograph oder GIS-Analyst ist dies häufig das, woran Sie am meisten interessiert sind. Der p-Wert ist eine Wahrscheinlichkeit. Für die Musteranalysewerkzeuge stellt dieser Wert die Wahrscheinlichkeit dar, dass das beobachtete räumliche Muster von einem zufälligen Prozess erzeugt wurde. Wenn der p-Wert sehr klein ist, bedeutet dies, dass es sehr unwahrscheinlich (kleine Wahrscheinlichkeit) ist, dass das beobachtete räumliche Muster das Ergebnis zufälliger Prozesse ist, deshalb können Sie die NULL-Hypothese ablehnen.

Sicherlich fragen Sie sich: Was bedeutet klein? Gute Frage. Sehen Sie sich die folgende Tabelle und die Erläuterung dazu an. Z-Werte sind Standardabweichungen. Wenn ein Werkzeug beispielsweise ein Z-Wert von +2,5 zurückgibt, würde das bedeuten, dass die Standardabweichungen 2,5 ist. Sehr hohe oder sehr niedrige (negative) Z-Werte, die mit sehr kleinen p-Werten verknüpft sind, sind an den Enden der Normalverteilung zu finden. Wenn Sie ein Feature-Musteranalysewerkzeug ausführen und dabei niedrige p-Werte und entweder ein sehr hoher oder sehr niedriger Z-Wert zurückgegeben werden, deutet dies darauf hin, dass es unwahrscheinlich ist, dass das beobachtete räumliche Muster das theoretische zufällige Muster widerspiegelt, das von der NULL-Hypothese (CSR) dargestellt wird.

  • Um die NULL-Hypothese abzulehnen, müssen Sie ein subjektives Urteil bezüglich des Risikos fällen, das Sie bereit sind einzugehen, für den Fall, dass Sie falsch liegen (und die NULL-Hypothese fälschlicherweise ablehnen).
  • Bevor Sie die räumliche Statistik ausführen, wählen Sie daher ein Konfidenzniveau aus.

Typische Konfidenzniveaus liegen bei 90, 95 oder 99 Prozent. Ein Konfidenzniveau von 99 Prozent wäre in diesem Fall das konservativste und gibt an, dass Sie die NULL-Hypothese nicht ablehnen möchten, außer die Wahrscheinlichkeit, dass das Muster zufällig erstellt wurde, ist äußerst gering (weniger als 1 Prozent).

Wie schreibt man Konfidenzintervall?

Konfidenzintervalle zum Niveau 95 % für 100 Stichproben vom Umfang 30 aus einer normalverteilten Grundgesamtheit. Davon überdecken 94 Intervalle den exakten Erwartungswert μ = 5; die übrigen 6 tun das nicht. Ein Konfidenzintervall, kurz KI, (auch Vertrauensintervall, Vertrauensbereich oder Erwartungsbereich genannt) ist in der Statistik ein Intervall, das die Präzision der Lageschätzung eines Parameters (z.B.

Eines Mittelwerts ) angeben soll. Das Konfidenzintervall gibt den Bereich an, der mit einer gewissen Wahrscheinlichkeit (der Überdeckungswahrscheinlichkeit ) den Parameter einer Verteilung einer Zufallsvariablen einschließt. Ein häufig verwendetes Konfidenzniveau ist 95 %. Die häufig anzutreffende Formulierung, dass der wahre Wert mit 95 % Wahrscheinlichkeit im für die vorliegende Stichprobe berechneten Konfidenzintervall liegt, ist streng genommen nicht korrekt, da der wahre Wert keine Zufallsgröße, d.h.

nicht stochastisch ist. Stochastisch sind vielmehr die obere und untere Grenze des Konfidenzintervalls. Folglich lautet die korrekte Formulierung: Bei der Berechnung eines Konfidenzintervalls mit einem bestimmten Schätzverfahren enthält das Intervall den wahren Wert mit 95 % Wahrscheinlichkeit. näherungsweise mit einer dem Konfidenzniveau entsprechenden relativen Häufigkeit überdecken. Das Schätzen von Parametern mit Hilfe von Konfidenzintervallen wird Intervallschätzung genannt, die entsprechende Schätzfunktion ein Bereichs- oder Intervallschätzer, Ein Vorteil gegenüber Punktschätzern ist, dass man an einem Konfidenzintervall direkt die Signifikanz ablesen kann: Ein für ein vorgegebenes Konfidenzniveau breites Intervall weist auf einen geringen Stichprobenumfang oder auf eine starke Variabilität in der Grundgesamtheit hin.

Wie hängen p Wert und Konfidenzintervall zusammen?

INTERNATIONAL STUDIEREN

Artikel Autoren Grafiken/Tabellen Literatur Kommentare/Briefe Statistik Zitiert

Einleitung: Kenntnisse zu p-Werten und Konfidenzintervallen sind zur Beurteilung wissenschaftlicher Artikel notwendig. Dieser Artikel will den Leser ber die Bedeutung und Interpretation beider statistischen Konzepte informieren. Methode: Auf der Grundlage einer selektiven Literaturrecherche zur Methodik in wissenschaftlichen Artikeln wird der Stellenwert von und die Unterschiede zwischen beiden statistischen Konzepten in einer bersicht dargelegt.

Ergebnisse/Diskussion: Der p-Wert ermglicht in Studien eine Entscheidung zur Verwerfung oder Beibehaltung einer vorab formulierten Nullhypothese. In explorativen Studien lsst er statistisch auffllige Ergebnisse erkennen. Konfidenzintervalle liefern Informationen ber einen Bereich, in dem der wahre Wert mit einer gewissen Wahrscheinlichkeit liegt sowie ber Effektrichtung und -strke.

Damit werden Aussagen zur statistischen Plausibilitt und klinischen Relevanz der Studienergebnisse mglich. Die Angabe beider statistischen Mae in wissenschaftlichen Artikeln ist oft sinnvoll, da sie einander ergnzende Informationen enthalten. Dtsch Arztebl 2009; 106(19): 3359 DOI: 10.3238/arztebl.2009.0335 Schlsselwrter: Publikation, klinische Forschung, p-Wert, Statistik, Konfidenzintervall Leser wissenschaftlicher Artikel mssen sich bei der Beurteilung der Ergebnisse statistischer Auswertungen mit der Interpretation von p-Werten und Konfidenzintervallen (Vertrauensbereichen) befassen. Mancher wird sich schon gefragt haben, warum in einigen Untersuchungen als Ma der statistischen Wahrscheinlichkeit ein p-Wert angegeben wird, in anderen aber ein Vertrauensbereich, mitunter auch beide. Auf der Grundlage einer selektiven Literaturrecherche erklren die Autoren die beiden Mae und beschreiben, wann p-Werte oder Konfidenzintervalle angegeben werden sollen. Es folgen ein Vergleich und die Beurteilung beider statistischen Konzepte. Was ist ein p-Wert? In konfirmatorischen (Beweis fhrenden) Studien werden Nullhypothesen formuliert, die mithilfe von statistischen Tests verworfen oder beibehalten werden. Beim p-Wert handelt es sich um eine Wahrscheinlichkeit, die das Ergebnis eines solchen statistischen Tests ist. Diese Wahrscheinlichkeit gibt das Ausma der Evidenz gegen die Nullhypothese wieder. Kleine p-Werte stellen eine starke Evidenz dar. Ab einem bestimmten p-Wert werden die Ergebnisse als statistisch signifikant bezeichnet ( 1 ). In explorativen Untersuchungen spricht man auch von statistisch aufflligen Ergebnissen. Soll gezeigt werden, dass ein neues Medikament besser als ein altes ist, so gilt es zunchst zu beweisen, dass beide Medikamente nicht gleich sind. Die Hypothese der Gleichheit soll also abgelehnt werden. Daher wird die Nullhypothese (H0), die abgelehnt werden soll, in diesem Fall wie folgt formuliert: Es gibt keinen Unterschied (Effekt) zwischen den beiden Behandlungen, zum Beispiel zeigen zwei Antihypertonika keinen Unterschied in ihrer blutdrucksenkenden Wirkung. Die Alternativhypothese (H1) besagt dann, dass es einen Unterschied zwischen den beiden Therapien gibt. Dabei kann die Alternativhypothese zweiseitig (Unterschied) oder aber einseitig (positiver oder auch negativer Effekt) formuliert werden. Einseitig heit in diesem Fall, dass man bei Formulierung der Alternativhypothese Vorgaben bezglich der Richtung des erwarteten Effekts macht. Hat man etwa aus Voruntersuchungen schon deutliche Hinweise dafr, dass ein Antihypertonikum im Mittel eine strker blutdrucksenkende Wirkung hat als das zu Vergleichende, kann man die Alternativhypothese beispielsweise so formulieren: Die Differenz der mittleren Blutdrucksenkung von Antihypertonikum 1 und der mittleren Blutdrucksenkung von Antihypertonikum 2 ist positiv. Da hierzu aber plausible Annahmen hinsichtlich der Effektrichtung erforderlich sind, wird die Hypothese oft zweiseitig formuliert. Beispielsweise soll aus Daten einer randomisierten klinischen Studie das fr die Fragestellung relevante Effektma, zum Beispiel die Differenz der mittleren Blutdrucksenkung zwischen einem neuen und dem etablierten Antihypertonikum geschtzt werden. Darauf basierend wird die vorab formulierte Nullhypothese mithilfe eines Signifikanztests berprft. Der p-Wert gibt dann die Wahrscheinlichkeit an, mit der man das vorliegende Testergebnis oder ein noch extremeres erhlt, wenn die Nullhypothese richtig ist. Ein kleiner p-Wert besagt, dass die Wahrscheinlichkeit, dass der Unterschied alleine dem Zufall zugeschrieben werden kann, klein ist. Eine beobachtete Differenz des mittleren systolischen Blutdrucks in unserem Beispiel knnte nicht auf einem echten Unterschied in der blutdrucksenkenden Wirkung der beiden Antihypertonika beruhen, sondern zufllig sein. Bei einem p-Wert < 0,05 liegt die Wahrscheinlichkeit dafr allerdings unter 5 %. Um eine Entscheidung zwischen Nullhypothese und Alternativhypothese zu ermglichen, wird vorab oft eine sogenannte Signifikanzgrenze auf einem Signifikanzniveau a festgelegt. Hufig wird ein Signifikanzniveau von 0,05 (beziehungsweise 5 %) gewhlt. Unterschreitet der p-Wert diesen Grenzwert (= signifikantes Ergebnis), wird vereinbarungsgem die Nullhypothese verworfen und die Alternativhypothese (es gibt einen Unterschied) angenommen. Mit Festlegung des Signifikanzniveaus ist auch die Wahrscheinlichkeit vorgegeben, die Nullhypothese zu Unrecht abzulehnen. p-Werte alleine erlauben keine direkte Aussage ber die Richtung oder Gre einer Differenz oder eines relativen Risikos zwischen unterschiedlichen Gruppen ( 1 ). Das wre aber insbesondere dann ntzlich, wenn Ergebnisse nicht signifikant sind ( 2 ). Hier beinhalten Vertrauensbereiche mehr Informationen. Neben p-Werten muss zumindest ein Ma der Effektstrke (zum Beispiel Differenz der mittleren Blutdrucksenkung in zwei Behandlungsgruppen) berichtet werden ( 3 ). Die Definition einer Signifikanzgrenze ist letztendlich willkrlich und die Angabe von p-Werten ist auch ohne Wahl dieser Signifikanzgre sinnvoll. Je kleiner der p-Wert ist, umso weniger plausibel wird die Nullhypothese, dass es keinen Unterschied zwischen den Behandlungsgruppen gibt. Vertrauensbereich Von der dichotomen Test-Entscheidung zum Effektbereichsschtzer Ein Vertrauensbereich (Konfidenzintervall) ist ein mithilfe statistischer Methoden berechneter Wertebereich, der den gesuchten, wahren Parameter (zum Beispiel arithmetisches Mittel, Differenz zweier Mittelwerte, Odds Ratio) mit einer vorab definierten Wahrscheinlichkeit (berdeckungswahrscheinlichkeit, Vertrauenswahrscheinlichkeit oder Konfidenzniveau) berdeckt. Meist wird ein Konfidenzniveau von 95 % gewhlt. Das bedeutet, dass in 95 von 100 durchgefhrten Studien das Konfidenzintervall den wahren Wert berdecken wird ( 4, 5 ). Vorteil der Konfidenzintervalle im Vergleich zu p-Werten ist, dass Konfidenzintervalle die Ergebnisse auf der Ebene der Datenmessung wiedergeben ( 6 ). In unserem Beispiel werden etwa die untere und obere Konfidenzgrenze der mittleren systolischen Blutdruckdifferenz zwischen beiden Therapiegruppen ebenfalls in mmHg angegeben. Die Weite des Vertrauensbereichs hngt von Stichprobengre und Standardabweichung der untersuchten Gruppen ab ( 5 ). Eine groe Stichprobe fhrt zu mehr Vertrauen also zu einem engen Konfidenzintervall. Ein breites Konfidenzintervall kann von einer kleinen Stichprobe herrhren. Bei groer Streuung der Werte wird die Aussage unsicherer, das heit, das Konfidenzintervall wird breiter. Schlielich trgt die Wahl des Konfidenzniveaus zur Weite des Konfidenzintervalls bei. Ein 99-%-Vertrauensbereich ist breiter als ein 95-%-Vertrauensbereich. Oder allgemeiner formuliert: Je mehr Sicherheit man garantieren mchte, desto weiter wird der Vertrauensbereich. Konfidenzintervalle geben im Unterschied zum p-Wert Aufschluss ber die Richtung des zu untersuchenden Effekts. Rckschlsse auf die statistische Signifikanz sind mithilfe des Konfidenzintervalls mglich. Enthlt ein Vertrauensbereich den Wert des Null-Effekts nicht, so kann man von einem statistisch signifikanten Ergebnis ausgehen. Im Beispiel mit der Differenz des mittleren systolischen Blutdrucks zwischen beiden Therapiegruppen ist die Frage, ob der Wert 0 mmHg innerhalb (= nicht signifikant) oder auerhalb (= signifikant) des 95-%-Konfidenzintervalls liegt. Entsprechend gilt fr das RR (relatives Risiko), dass ein KI, das die 1 enthlt, einem nicht signifikanten Ergebnis entspricht. Zu unterscheiden wre dann, ob das Konfidenzintervall fr das relative Risiko vollstndig unterhalb der 1 liegt (= protektiver Effekt) oder vollstndig oberhalb (= Risikoerhhung). Grafik 1 ( gif ppt ) zeigt den Zusammenhang am Beispiel der mittleren systolischen Blutdruckdifferenz zwischen zwei Kollektiven. Das Konfidenzintervall der mittleren Blutdruckdifferenz wird schmal bei kleiner Variabilitt innerhalb der Stichproben (= kleine Streuung) (Grafik 1b), kleiner Vertrauenswahrscheinlichkeit (Grafik 1d) und groer Fallzahl (Grafik 1f). In diesem Beispiel unterscheiden sich bei groer Streuung (Grafik 1c), hohem Konfidenzniveau (Grafik 1e) oder kleiner Fallzahl (Grafik 1g) die mittleren systolischen Blutdrucke nicht mehr signifikant, da der Wert Null im Konfidenzintervall enthalten ist. Punktschtzer (zum Beispiel arithmetisches Mittel, Differenz zweier Mittelwerte oder Odds ratio) liefern zwar die beste Annherung an den wahren Wert, jedoch keine Information darber, wie genau sie sind. Dazu dienen Vertrauensbereiche. Exakte Angaben darber, wie stark der geschtzte Parameter der Stichprobe vom wahren Wert der Grundgesamtheit abweicht, sind natrlich nicht mglich, weil der wahre Wert unbekannt ist. Man mchte aber gerne eine gewisse Sicherheit darber haben, dass sich der Schtzwert in der Nhe des wahren Wertes befindet ( 7 ). Konfidenzintervalle eignen sich zur Beschreibung der Wahrscheinlichkeit, in welchem Bereich sich der wahre Wert befindet. Durch Angabe eines Vertrauensbereichs lassen sich mehrere Schlsse ableiten: Zunchst sind Werte unterhalb der unteren beziehungsweise oberhalb der oberen Konfidenzgrenze nicht ausgeschlossen, aber unwahrscheinlich. Bei Verwendung eines 95-%-Vertrauensbereichs betrgt die Wahrscheinlichkeit jeweils nur 2,5 %. Werte, die innerhalb des Vertrauensbereichs, aber nahe der Vertrauensgrenzen liegen, sind meist weniger wahrscheinlich als Werte, die nahe dem Punktschtzer (in unserem Beispiel mit den beiden Antihypertonika wre das der Mittelwertsunterschied der Blutdrucksenkung in beiden Behandlungsgruppen in mmHg) liegen. Unabhngig von der Weite des Konfidenzintervalls, ist der Punktschtzer auf der Grundlage der Stichprobe die beste Annherung an den wahren Wert der Grundgesamtheit. Werte in der Nhe des Punktschtzers sind meist plausible Werte. Das gilt insbesondere dann, wenn man eine Normalverteilung der Werte zugrunde legen kann. Es ist zwar hufige Praxis, Vertrauensbereiche nach dem Kriterium, ob sie eine bestimmte Grenze einschlieen oder nicht, ausschlielich hinsichtlich eines signifikanten Ergebnisses zu beurteilen. Besser ist es aber, die genannten zustzlichen Informationen von Konfidenzintervallen zu nutzen und gerade bei knappen Ergebnissen, die Mglichkeit eines signifikanten Ergebnisses bei hherer Fallzahl in die Beurteilung der Ergebnisse mit einzubeziehen. Bedeutende internationale medizinisch-wissenschaftliche Journals wie Lancet oder British Medical Journal wie auch das Internationale Komitee der Journaleditoren empfehlen die Verwendung von Vertrauensbereichen ( 6 ). Insbesondere bei der Beurteilung von randomisierten, klinischen Studien und Metaanalysen helfen Konfidenzintervalle wesentlich bei der Interpretation der Ergebnisse. So wird in internationalen Vereinbarungen wie dem CONSORT-Statement ( 8 ) fr die Berichterstattung in randomisierten, klinischen Studien und dem QUORUM-Statement ( 9 ) fr die Berichterstattung in systematischen Reviews und Metaanalysen die Verwendung von Konfidenzintervallen ausdrcklich gefordert. Statistische Signifikanz versus klinische Relevanz Zwischen statistischer Signifikanz (statistical significance) und klinischer Relevanz (clinical significance) muss man klar unterscheiden. Neben der Effektstrke gehen in p-Werte auch die Fallzahl und die Variabilitt der Daten in der Stichprobe ein. Ein vorab festgelegter Grenzwert der statistischen Signifikanz erspart es dem Leser nicht, statistisch signifikante Ergebnisse hinsichtlich ihrer klinischen Relevanz zu beurteilen. Der gleiche numerische Wert fr die Differenz kann statistisch signifikant bei Wahl einer groen Stichprobe und nicht signifikant bei kleiner Stichprobe sein. Andererseits sind Ergebnisse mit hoher klinischer Relevanz aufgrund fehlender statistischer Signifikanz nicht automatisch bedeutungslos. Urschlich knnte hier eine zu kleine Stichprobe oder eine zu groe Streuung der Daten (zum Beispiel durch eine sehr heterogene Patientengruppe) sein. Deshalb ist die Entscheidung auf Basis des p-Wertes in signifikant oder nicht signifikant oft zu einfach. Das sei am Beispiel mit der systolischen Blutdruckdifferenz verdeutlicht: In Grafik 2 ( gif ppt ) wird eine Relevanzgrenze r festgelegt: Ein systolischer Blutdruckunterschied von mindestens 4 mmHg zwischen den beiden Behandlungsgruppen wird damit als klinisch relevant definiert. Wenn der Blutdruckunterschied dann weder statistisch signifikant noch klinisch relevant (Grafik 2a) oder aber statistisch signifikant und klinisch relevant (Grafik 2b) ist, fllt die Interpretation leicht. Statistisch signifikante Blutdruckunterschiede knnen aber auch unter der klinischen Relevanzgrenze liegen und sind dann klinisch bedeutungslos (Grafik 2c). Andererseits knnen echte Unterschiede im systolischen Blutdruck zwischen den Behandlungsgruppen mit hoher klinischer Relevanz trotz fehlender statistischer Signifikanz (Grafik 2d) gegebenenfalls bedeutungsvoll sein. Leider wird oft statistische Signifikanz mit klinischer Relevanz gleichgesetzt. Viele Forscher, Leser und auch Journals schenken klinisch potenziell ntzlichen Ergebnissen nur deswegen keine Aufmerksamkeit, weil sie statistisch nicht signifikant sind ( 4 ). An dieser Stelle sei die Praxis einiger wissenschaftlicher Journals kritisiert, signifikante Ergebnisse bevorzugt zu verffentlichen. Nach einer Untersuchung war das vor allem bei Journals mit hohem Impactfaktor zu beobachten ( 10 ). Dies fhrt zu einer einseitigen Verzerrung tatschlicher Begebenheiten (Publikationsbias). Hufig ist zudem zu beobachten, dass ein nicht signifikantes Ergebnis in klinischen Studien so interpretiert wird, dass es keinen Unterschied, zum Beispiel zwischen zwei Therapiegruppen, gibt. Ein p-Wert von > 0,05 besagt lediglich, dass die Evidenz nicht ausreicht, die Nullhypothese (zum Beispiel unterscheiden sich zwei alternative Therapien nicht) zu verwerfen. Das bedeutet aber nicht, dass beide Therapien deswegen quivalent sind. Die quantitative Zusammenfassung von vergleichbaren Studien in Form von systematischen Reviews oder Metaanalysen kann dann weiterhelfen, aufgrund einer zu niedrigen Fallzahl nicht erkannte Unterschiede aufzudecken. Diesem Thema ist ein eigener Artikel in dieser Serie gewidmet. p-Wert versus Konfidenzintervall Was sind die Unterschiede? Die wesentlichen Unterschiede zwischen p-Werten und Vertrauensbereichen sind: – Der Vorteil von Konfidenzintervallen im Vergleich zur Angabe von p-Werten nach Hypothesentestung ist, dass Ergebnisse direkt auf der Ebene der Datenmessung angegeben werden. Konfidenzintervalle geben Informationen sowohl ber die statistische Signifikanz als auch ber die Richtung und Gre des Effekts ( 11 ). Damit kann man auch ber die klinische Relevanz der Ergebnisse entscheiden. In die Breite des Vertrauensbereichs bei vorgegebener Irrtumswahrscheinlichkeit gehen zudem die Variabilitt der Daten und die Fallzahl der untersuchten Stichprobe ein ( 12 ). – p-Werte sind bersichtlicher als Konfidenzintervalle. Ein Wert kann hinsichtlich des ber- oder Unterschreitens eines vorher bestimmten Grenzwertes beurteilt werden. Damit wird eine schnelle Entscheidungsfindung in statistisch signifikant oder nicht signifikant mglich. Eine solche Blickdiagnose kann aber auch dazu verleiten, eine klinische Entscheidung nur unter statistischen Gesichtspunkten zu treffen. – Die Reduktion der statistischen Inferenz (= induktives Schlieen von einer Stichprobe auf die Grundgesamtheit) auf einen Prozess der binren Entscheidungsfindung, wie das bei Hypothesentestung mithilfe des p-Wertes geschieht, kann zu einfach sein. Die reine Unterscheidung zwischen signifikant oder nicht signifikant ist fr sich genommen noch nicht sehr aussagekrftig. Bezglich der Evidenzlage unterscheidet sich zum Beispiel ein p-Wert von 0,04 nicht viel von einem p-Wert von 0,06. Durch eine binre Entscheidungsfindung werden aufgrund solcher geringen Unterschiede aber gegenlufige Schlsse gezogen ( 1, 13 ). Aus diesem Grund sollten p-Werte immer vollstndig (Vorschlag: immer mit drei Dezimalstellen) angegeben werden ( 14 ). – Mit Punktschtzern (zum Beispiel Mittelwertsdifferenz, relatives Risiko) wird mit nur einem einzigen Wert versucht von der Stichprobe auf die Situation in der Zielpopulation zu schlieen. Wenn diese Zahl auch die bestmgliche Annherung an den wahren Wert ist, so ist eine exakte bereinstimmung nicht sehr wahrscheinlich. Konfidenzintervalle liefern hingegen einen Bereich mit mglichen plausiblen Werten fr die Zielpopulation und eine Wahrscheinlichkeit mit der dieser Bereich den wahren Wert berdeckt. – p-Werte geben im Unterschied zu Konfidenzintervallen den Abstand von einem vorher festgelegten statistischen Grenzwert, dem Signifikanzniveau a, an ( 15 ). Damit fllt die Beurteilung eines knappen Ergebnisses leicht. – Statistische Signifikanz ist von medizinischer Relevanz oder biologischer Bedeutsamkeit zu unterscheiden: Durch Wahl einer gengend groen Stichprobe knnen auch sehr kleine Unterschiede statistisch signifikant sein ( 16, 17 ). Andererseits knnen auch groe Unterschiede bei unzureichender Fallzahl zu nicht signifikanten Ergebnissen fhren ( 12 ). In klinischen Studien sollten die Untersucher aufgrund der Bedeutung fr den spteren Behandlungserfolg aber mehr an der Gre eines Unterschieds im Therapieeffekt zwischen zwei Behandlungsgruppen interessiert sein, als nur daran ob ein signifikantes oder nicht signifikantes Ergebnis vorliegt ( 18 ). Schlussfolgerung p-Werte alleine liefern ein Ma fr die statistische Plausibilitt eines Unterschieds. In Verbindung mit einem definierten Signifikanzniveau ermglichen sie bei konfirmatorischen Studien eine Entscheidung ber Verwerfung oder Beibehaltung einer vorab formulierten Nullhypothese. Aussagen ber die Effektstrke sind auf Grund von p-Werten nur sehr eingeschrnkt mglich. Konfidenzintervalle liefern einen ausreichend plausiblen Bereich fr den wahren Wert auf der Messebene des Punktschtzers. Aussagen zu Effektrichtung und -strke sowie zum Vorliegen eines statistisch signifikanten Ergebnisses sind mglich. Abschlieend ist festzustellen, dass es sich bei p-Werten und Konfidenzintervallen nicht um gegenlufige statistische Konzepte handelt. Bei Kenntnis der Stichprobengre und der Streuung oder des Punktschtzers lassen sich aus p-Werten Konfidenzintervalle berechnen, und umgekehrt. Beide statistischen Konzepte ergnzen sich. Interessenkonflikt Die Autoren erklren, dass kein Interessenkonflikt im Sinne der Richtlinien des International Committee of Medical Journal Editors besteht. Manuskriptdaten eingereicht: 23.7.2008, revidierte Fassung angenommen: 21.8.2008 Anschrift fr die Verfasser Dr. med. Jean-Baptist du Prel, MPH Zentrum fr Kinder- und Jugendmedizin Zentrum Prventive Pdiatrie Mainz Langenbeckstrae 1 55101 Mainz E-Mail: [email protected] Summary Confidence Interval or P-Value? Part 4 of a Series on Evaluation of Scientific Publications Introduction: An understanding of p-values and confidence intervals is necessary for the evaluation of scientific articles. This article will inform the reader of the meaning and interpretation of these two statistical concepts. Methods: The uses of these two statistical concepts and the differences between them are discussed on the basis of a selective literature search concerning the methods employed in scientific articles. Results/Discussion: P-values in scientific studies are used to determine whether a null hypothesis formulated before the performance of the study is to be accepted or rejected. In exploratory studies, p-values enable the recognition of any statistically noteworthy findings. Confidence intervals provide information about a range in which the true value lies with a certain degree of probability, as well as about the direction and strength of the demonstrated effect. This enables conclusions to be drawn about the statistical plausibility and clinical relevance of the study findings. It is often useful for both statistical measures to be reported in scientific articles, because they provide complementary types of information. Dtsch Arztebl 2009; 106( 19 ): 3359 DOI: 10.3238/arztebl.2009.0335 Key words: publications, clinical research, p-value, statistics, confidence interval 1. Bland M, Peacock J: Interpreting statistics with confidence. The Obstetrician and Gynaecologist 2002; 4: 17680.2. Houle TT: Importance of effect sizes for the accumulation of knowledge. Anesthesiology 2007; 106: 4157. MEDLINE 3. Faller, H: Signifikanz, Effektstrke und Konfidenzintervall. Rehabilitation 2004; 43: 1748. MEDLINE 4. Greenfield ML, Kuhn JE, Wojtys EM: A statistics primer. Confidence intervals. AmJ Sports Med 1998; 26: 1459. No abstract available. Erratum in: Am J Sports Med 1999; 27: 544. MEDLINE 5. Bender R, Lange St: Was ist ein Konfidenzintervall? Dtsch Med Wschr 2001; 126: 41. MEDLINE 6. Altman DG: Confidence intervals in practice. In: Altman DG, Machin D, Bryant TN, Gardner MJ. BMJ Books 2002; 69.7. Weiss C: Intervallschtzungen. Die Bedeutung eines Konfidenzintervalls: In: Wei C: Basiswissen Medizinische Statistik. Springer Verlag 1999; 1912.8. Moher D, Schulz KF, Altman DG fr die CONSORT Gruppe: Das COSORT Statement: berarbeitete Empfehlungen zur Qualittsverbesserung von Reports randomisierter Studien im Parallel-Design. Dtsch Med Wschr 2004; 129: 1620.9. Moher D, Cook DJ, Eastwood S, Olkin I, Rennie D, Stroup DF: Improving the quality of reports of meta-analyses of randomized controlled trials: the QUOROM statement. Quality of Reporting of Meta-analyses. Lancet 1999; 354: 1896900. MEDLINE 10. Easterbrook PJ, Berlin JA, Gopalan R, Matthews DR: Publication bias in clinical research. Lancet 1991; 337: 86772. MEDLINE 11. Shakespeare TP, Gebski VJ, Veness MJ, Simes J: Improving interpretation of clinical studies by use of confidence levels, clinical significance curves, and riskbenefit contours. Lancet 2001; 357: 134953. Review. MEDLINE 12. Gardner MJ, Altman DG: Confidence intervals rather than P-values: estimation rather than hypothesis testing. Br Med J 1986; 292: 74650. MEDLINE 13. Guyatt G, Jaeschke R, Heddle N, Cook D, Shannon H, Walter S: Basic statistics for clinicians: 1. hypothesis testing. CMAJ 1995; 152: 2732. Review. MEDLINE 14. ICH 9: Statisticlal Principles for Clinical Trials. London UK: International Conference on Harmonization 1998; Adopted by CPMP July 1998 (CPMP/ICH/363/96) 15. Feinstein AR: P-values and confidence intervals: two sides of the same unsatisfactory coin. J Clin Epidemiol 1998; 51: 35560. MEDLINE 16. Guyatt G, Jaeschke R, Heddle N, Cook D, Shannon H, Walter S: Basic statistics for clinicians: 2. interpreting study results: confidence intervals. CMAJ 1995; 152: 16973. MEDLINE 17. Sim J, Reid N: Statistical inference by confidence intervals: issues of interpretation and utilization. Phys Ther 1999; 79: 18695. MEDLINE 18. Gardner MJ, Altman DG. Confidence intervals rather than P values. In: Altman DG, Machin D, Bryant TN, Gardner MJ: Statistics with confidence. Confidence intervals and statistical guidelines. Second Edition. BMJ Books 2002; 1527. Johannes Gutenberg-Universitt Mainz: Zentrum fr Kinder- und Jugendmedizin, Zentrum Prventive Pdiatrie: Dr. med. du Prel, MPH Johannes Gutenberg-Universitt Mainz: Institut fr Medizinische Biometrie, Epidemiologie und Informatik: Prof. Dr. rer. nat. Hommel, Dr. rer. nat. Rhrig, Prof. Dr. rer. nat. Blettner

1. Bland M, Peacock J: Interpreting statistics with confidence. The Obstetrician and Gynaecologist 2002; 4: 17680.
2. Houle TT: Importance of effect sizes for the accumulation of knowledge. Anesthesiology 2007; 106: 4157. MEDLINE
3. Faller, H: Signifikanz, Effektstrke und Konfidenzintervall. Rehabilitation 2004; 43: 1748. MEDLINE
4. Greenfield ML, Kuhn JE, Wojtys EM: A statistics primer. Confidence intervals. AmJ Sports Med 1998; 26: 1459. No abstract available. Erratum in: Am J Sports Med 1999; 27: 544. MEDLINE
5. Bender R, Lange St: Was ist ein Konfidenzintervall? Dtsch Med Wschr 2001; 126: 41. MEDLINE
6. Altman DG: Confidence intervals in practice. In: Altman DG, Machin D, Bryant TN, Gardner MJ. BMJ Books 2002; 69.
7. Weiss C: Intervallschtzungen. Die Bedeutung eines Konfidenzintervalls: In: Wei C: Basiswissen Medizinische Statistik. Springer Verlag 1999; 1912.
8. Moher D, Schulz KF, Altman DG fr die CONSORT Gruppe: Das COSORT Statement: berarbeitete Empfehlungen zur Qualittsverbesserung von Reports randomisierter Studien im Parallel-Design. Dtsch Med Wschr 2004; 129: 1620.
9. Moher D, Cook DJ, Eastwood S, Olkin I, Rennie D, Stroup DF: Improving the quality of reports of meta-analyses of randomized controlled trials: the QUOROM statement. Quality of Reporting of Meta-analyses. Lancet 1999; 354: 1896900. MEDLINE
10. Easterbrook PJ, Berlin JA, Gopalan R, Matthews DR: Publication bias in clinical research. Lancet 1991; 337: 86772. MEDLINE
11. Shakespeare TP, Gebski VJ, Veness MJ, Simes J: Improving interpretation of clinical studies by use of confidence levels, clinical significance curves, and riskbenefit contours. Lancet 2001; 357: 134953. Review. MEDLINE
12. Gardner MJ, Altman DG: Confidence intervals rather than P-values: estimation rather than hypothesis testing. Br Med J 1986; 292: 74650. MEDLINE
13. Guyatt G, Jaeschke R, Heddle N, Cook D, Shannon H, Walter S: Basic statistics for clinicians: 1. hypothesis testing. CMAJ 1995; 152: 2732. Review. MEDLINE
14. ICH 9: Statisticlal Principles for Clinical Trials. London UK: International Conference on Harmonization 1998; Adopted by CPMP July 1998 (CPMP/ICH/363/96)
15. Feinstein AR: P-values and confidence intervals: two sides of the same unsatisfactory coin. J Clin Epidemiol 1998; 51: 35560. MEDLINE
16. Guyatt G, Jaeschke R, Heddle N, Cook D, Shannon H, Walter S: Basic statistics for clinicians: 2. interpreting study results: confidence intervals. CMAJ 1995; 152: 16973. MEDLINE
17. Sim J, Reid N: Statistical inference by confidence intervals: issues of interpretation and utilization. Phys Ther 1999; 79: 18695. MEDLINE
18. Gardner MJ, Altman DG. Confidence intervals rather than P values. In: Altman DG, Machin D, Bryant TN, Gardner MJ: Statistics with confidence. Confidence intervals and statistical guidelines. Second Edition. BMJ Books 2002; 1527.

ul> Damiens, Joan; Schnor, Christine Demographic Research, 2022 10.4054/DemRes.2022.46.16 Esteban‐Serna, Celia; Eisenstadt, Mia; Gardner, Eli; Liverpool, Shaun Journal of Community Psychology, 2023 10.1002/jcop.22917 Stenkrona, Per; Matheson, Granville J.; Cervenka, Simon; Sigray, Pontus Plavén; Halldin, Christer; Farde, Lars EJNMMI Research, 2018 10.1186/s13550-018-0416-2 Estabrook, Ryne Gerontology, 2020 10.1159/000504574 Yamanoi, Takahiro; Soga, Masashi; Evans, Maldwyn J.; Tsuchiya, Kazuaki; Koyanagi, Tomoyo F.; Kanai, Tadashi Sustainability, 2021 10.3390/su13179663 Haghani, Sara; Karia, Maharshee; Cheng, Ruey-Kuang; Mathuru, Ajay S. Frontiers in Behavioral Neuroscience, 2019 10.3389/fnbeh.2019.00180 Bartolomeo, Sara Di; Zhang, Yixuan; Sheng, Fangfang; Dunne, Cody IEEE Transactions on Visualization and Computer Graphics, 2021 10.1109/TVCG.2020.3030442 Monsalve, Mauricio; Pemmaraju, Sriram; Polgreen, Philip M. Proceedings of the 4th Conference on Wireless Health 10.1145/2534088.2534105 Gupta, Sonam; Jordan, Kayla Psychology of Language and Communication, 2022 10.2478/plc-2022-0002 Gekière, Antoine; Semay, Irène; Gérard, Maxence; Michez, Denis; Gerbaux, Pascal; Vanderplanck, Maryse Biology, 2022 10.3390/biology11040545 Zhang, Xiyang; Yu, Ronglan; Xie, Yanqing; Yu, Ri-Qing; Wu, Yuping Environmental Science & Technology, 2022 10.1021/acs.est.2c02780 Guo, Qian; Ola, Oreoluwa; Benjamin, Emmanuel O. Sustainability, 2020 10.3390/su12083276 Tartu, Sabrina; Aars, Jon; Andersen, Magnus; Polder, Anuschka; Bourgeon, Sophie; Merkel, Benjamin; Lowther, Andrew D.; Bytingsvik, Jenny; Welker, Jeffrey M.; Derocher, Andrew E.; Jenssen, Bjørn Munro; Routti, Heli Environmental Science & Technology, 2018 10.1021/acs.est.7b06137 Li, Miaoyun; Lu, Chun; Yang, Harrison H.; Wu, Di; Yang, Xiao Educational technology research and development, 2023 10.1007/s11423-023-10245-w Röhrig, Bernd; Prel, Jean-Baptist du; Wachtlin, Daniel; Kwiecien, Robert; Blettner, Maria Deutsches Ärzteblatt international, 2010 10.3238/arztebl.2010.0552 Wellek, Stefan; Blettner, Maria Deutsches Ärzteblatt international, 2012 10.3238/arztebl.2012.0276 Neilson, Elizabeth C.; Gilmore, Amanda K.; Stappenbeck, Cynthia A.; Gulati, Natasha K.; Neilon, Erin; George, William H.; Davis, Kelly C. Journal of Interpersonal Violence, 2021 10.1177/0886260519857160 Svejcar, Lauren N.; Kerby, Jay D.; Svejcar, Tony J.; Mackey, Bruce; Boyd, Chad S.; Baughman, Owen W.; Madsen, Matthew D.; Davies, Kirk W. Restoration Ecology, 2023 10.1111/rec.13750 Palena, Nicola; Caso, Letizia; Vrij, Aldert Frontiers in Psychology, 2019 10.3389/fpsyg.2018.02775 Sørensen, Jesper; Demir, Özlem; Swift, Robert V.; Feher, Victoria A.; Amaro, Rommie E. Book, 2015 10.1007/978-1-4939-1465-4_20 du Prel, Jean-Baptist; Röhrig, Bernd; Hommel, Gerhard; Blettner, Maria Deutsches Ärzteblatt international, 2010 10.3238/arztebl.2010.0343 Behrens, Martin; Zschorlich, Volker; Mittlmeier, Thomas; Bruhn, Sven; Husmann, Florian Frontiers in Physiology, 2020 10.3389/fphys.2020.00371 Bell, Chance A.; Dumitrascu, Nicolae; Sandage, Steven J.; Hall, Eugene L.; Jankowski, Peter J.; Waldheter, Miriam Journal of Psychology and Theology, 2022 10.1177/00916471211011592 Fertan, Emre; Gendron, William H.; Wong, Aimée A.; Hanson, Gabrielle M.; Brown, Richard E.; Weaver, Ian C.G. Scientific Reports, 2023 10.1038/s41598-023-29248-x Suzuki, Junichi Physiological Reports, 2022 10.14814/phy2.15534 Dawson, Blake M.; Wallman, James F.; Evans, Maldwyn J.; Butterworth, Nathan J.; Barton, Philip S. Oecologia, 2022 10.1007/s00442-022-05175-y AlMulhem, Jawaher Tariq A.; Zuaiter, Farah A.O.A. Dermatology, 2022 10.1159/000520298 Ressing, Meike; Blettner, Maria; Klug, Stefanie J. Deutsches Ärzteblatt international, 2010 10.3238/arztebl.2010.0187 Karvounis, Evangelos; Kappas, Ioannis; Angelousi, Anna; Makris, George-Marios; Siamatras, Thomas D.; Kassi, Eva Oncology Reviews, 2021 10.4081/oncol.2020.439 Lombardo, Elia; Kurz, Christopher; Marschner, Sebastian; Avanzo, Michele; Gagliardi, Vito; Fanetti, Giuseppe; Franchin, Giovanni; Stancanello, Joseph; Corradini, Stefanie; Niyazi, Maximilian; Belka, Claus; Parodi, Katia; Riboldi, Marco; Landry, Guillaume Scientific Reports, 2021 10.1038/s41598-021-85671-y Seidel, David H.; Ditchen, Dirk M.; Hoehne-Hückstädt, Ulrike M.; Rieger, Monika A.; Steinhilber, Benjamin International Journal of Environmental Research and Public Health, 2019 10.3390/ijerph16010130 Misra, Durga Prasanna; Zimba, Olena; Gasparyan, Armen Yuri Rheumatology International, 2021 10.1007/s00296-020-04740-z Junid, Ramli; Siregar, Januar Parlaungan; Endot, Nor Azam; Razak, Jeefferie Abd; Wilkinson, Arthur N. Polymers, 2021 10.3390/polym13193304 Chadwick, Sara B.; van Anders, Sari M. Archives of Sexual Behavior, 2022 10.1007/s10508-021-02162-x DLUDLA, P.V.; GABUZA, K.B.; MULLER, C.J.F.; JOUBERT, E.; LOUW, J.; JOHNSON, R. Physiological Research, 2018 10.33549/physiolres.933891 Wibowo, Rakhmat Ari; Nurámalia, Riskah; Nurrahma, Herlin Ajeng; Oktariani, Eva; Setiawan, Jajar; Icanervilia, Ajeng Viska; Agustiningsih, Denny International Journal of Environmental Research and Public Health, 2022 10.3390/ijerph19074199 Morsa, Denis; Baiwir, Dominique; La Rocca, Raphaël; Zimmerman, Tyler A.; Hanozin, Emeline; Grifnée, Elodie; Longuespée, Rémi; Meuwis, Marie-Alice; Smargiasso, Nicolas; Pauw, Edwin De; Mazzucchelli, Gabriel Journal of Proteome Research, 2019 10.1021/acs.jproteome.9b00044 Inie, Nanna; Barkhuus, Louise; Brabrand, Claus SSRN Electronic Journal, 2021 10.2139/ssrn.3864769 Karboub, Kaouter; Tabaa, Mohamed; Monteiro, Fabrice; Dellagi, Sofiene; Moutaouakkil, Fouad; Dandache, Abbas IEEE Sensors Journal, 2021 10.1109/JSEN.2020.3019668 Nilsson, Pascal D.; Newsome, Jacklyn M.; Santos, Henry M.; Schiller, Martin R. International Journal of Molecular Sciences, 2019 10.3390/ijms20143516 Kwiecien, Robert; Kopp-Schneider, Annette; Blettner, Maria Deutsches Ärzteblatt international, 2011 10.3238/arztebl.2011.0515 Diehl, Elisabeth; Rieger, Sandra; Letzel, Stephan; Schablon, Anja; Nienhaus, Albert; Escobar Pinzon, Luis Carlos; Dietz, Pavel BMC Palliative Care, 2020 10.1186/s12904-020-00589-y Ahmed, Ishtiaq International Journal of Research -GRANTHAALAYAH, 2021 10.29121/granthaalayah.v9.i3.2021.3779 Vivion, Maryline; Anassour Laouan Sidi, Elhadji; Betsch, Cornelia; Dionne, Maude; Dubé, Eve; Driedger, S. Michelle; Gagnon, Dominique; Graham, Janice; Greyson, Devon; Hamel, Denis; Lewandowsky, Stephan; MacDonald, Noni; Malo, Benjamin; Meyer, Samantha B.; Schmid, Philipp; Steenbeek, Audrey; van der Linden, Sander; Verger, Pierre; Witteman, Holly O.; Yesilada, Mushin Journal of Communication in Healthcare, 2022 10.1080/17538068.2022.2044606 Ajay, Kamalapriya; Azevedo, Liane B.; Haste, Anna; Morris, Alexander John; Giles, Emma; Gopu, Banu Preethi; Subramanian, Murali Perumbakkam; Zohoori, Fatemeh Vida Frontiers in Oral Health, 2023 10.3389/froh.2023.1125070 TURGUT, Sebahattin Serhat Mühendislik Bilimleri ve Tasarım Dergisi, 2021 10.21923/jesd.929974 Salmon, Eric S. Journal of the California Dental Association, 2018 10.1080/19424396.2018.12222072 Soria, Krista M. New Directions for Student Leadership, 2022 10.1002/yd.20521 KOLLOCK, Roger O.; LYONS, Madeline; SANDERS, Gabe; HALE, Davis Industrial Health, 2019 10.2486/indhealth.2018-0086 Hoeberg, Emma; Haga, Henning Andreas; Lervik, Andreas Frontiers in Veterinary Science, 2022 10.3389/fvets.2022.1007345 Deeb, Haneen; Vrij, Aldert; Leal, Sharon; Fallon, Mark; Mann, Samantha; Luther, Kirk; Granhag, Pär Anders Applied Cognitive Psychology, 2022 10.1002/acp.3989 Gianicolo, Emilio A.L.; Eichler, Martin; Muensterer, Oliver; Strauch, Konstantin; Blettner, Maria Deutsches Ärzteblatt international, 2020 10.3238/arztebl.2020.0101 Khan, Muhammad Idrees; Bath, Brenna; Boden, Catherine; Adebayo, Olugbenga; Trask, Catherine Journal of Agromedicine, 2019 10.1080/1059924X.2018.1538918 Barraza, Felipe; Arancibia, Marcelo; Madrid, Eva; Papuzinski, Cristian Medwave, 2019 10.5867/medwave.2019.07.7687 Wellek, Stefan; Blettner, Maria Deutsches Ärzteblatt international, 2012 10.3238/arztebl.2012.0674 David, Elroei; Wolfson, Marina; Fraifeld, Vadim E. Biogerontology, 2021 10.1007/s10522-020-09909-4 Charbonneau, Esther; Mellouli, Sehl; Chouikh, Arbi; Couture, Laurie-Jane; Desroches, Sophie JMIR Infodemiology, 2022 10.2196/38573 Lapham, Gwen T.; Matson, Theresa E.; Carrell, David S.; Bobb, Jennifer F.; Luce, Casey; Oliver, Malia M.; Ghitza, Udi E.; Hsu, Clarissa; Browne, Kendall C.; Binswanger, Ingrid A.; Campbell, Cynthia I.; Saxon, Andrew J.; Vandrey, Ryan; Schauer, Gillian L.; Pacula, Rosalie Liccardo; Horberg, Michael A.; Bailey, Steffani R.; McClure, Erin A.; Bradley, Katharine A. JAMA Network Open, 2022 10.1001/jamanetworkopen.2022.11677 Zwiener, Isabella; Blettner, Maria; Hommel, Gerhard Deutsches Ärzteblatt international, 2011 10.3238/arztebl.2011.0163 Blévin, Pierre; Aars, Jon; Andersen, Magnus; Blanchet, Marie-Anne; Hanssen, Linda; Herzke, Dorte; Jeffreys, Rachel M.; Nordøy, Erling S.; Pinzone, Marianna; de la Vega, Camille; Routti, Heli Environmental Science & Technology, 2020 10.1021/acs.est.9b04626 Murphy, Andrew; Goel, Ayush Book, 2014 10.53347/rID-31425 Liverpool, Shaun; Edbrooke-Childs, Julian Journal of Child Health Care, 2022 10.1177/13674935211014750 Felbel, D.; Paukovitsch, M.; Förg, R.; Stephan, T.; Mayer, B.; Keßler, M.; Tadic, M.; Dahme, T.; Rottbauer, W.; Markovic, S.; Schneider, L. Frontiers in Cardiovascular Medicine, 2023 10.3389/fcvm.2022.1063070 Bidegain, Gorka; Guinda, Xabier; Puente, Araceli; Juanes, José A. Journal of Shellfish Research, 2017 10.2983/035.036.0328 Eihara, Yuuri; Takao, Kenji; Sugiyama, Takashi; Maeo, Sumiaki; Terada, Masafumi; Kanehisa, Hiroaki; Isaka, Tadao Sports Medicine – Open, 2022 10.1186/s40798-022-00511-1 Liverpool, Shaun; Hayes, Daniel; Edbrooke-Childs, Julian Frontiers in Psychiatry, 2021 10.3389/fpsyt.2021.676721

Konfidenzintervall oder p-Wert? Teil 4 der Serie zur Bewertung wissenschaftlicher Publikationen

Was ist ein 90% Konfidenzintervall?

Konfidenzintervall für Normal- bzw. Das Konfidenzintervall definiert einen Bereich, in dem man mit einer bestimmten Wahrscheinlichkeit (dem Konfidenzniveau ) darauf vertrauen darf, dass sich der wahre Wert einer Zufallsgröße darin befindet. Typische Werte für das Konfidenzniveau liegen bei 90 %, 95% oder bei 99%.

Was ist ein gutes Konfidenzintervall?

Interpretation von Konfidenzintervallen Konfidenzintervalle bezeichnen – wie der Name schon sagt – Intervalle mit ein Ober- und einer Untergrenze. Sie geben die Sicherheit der Schätzung einer gesuchten Kenngröße, z.B. des Mittelwerts, an. Das gängigste Konfidenzintervall ist das 95 %-Konfidenzintervall.

Was sagt das Konfidenzniveau aus?

Das Konfidenzniveau gibt an, mit welcher Wahrscheinlichkeit die Lageschätzung eines statistischen Parameters (zum Beispiel eines Mittelwertes ) aus einer Stichprobenerhebung auch für die Grundgesamtheit zutreffend ist. Konfidenzniveaus müssen für eine Erhebung festgelegt werden – an ihnen orientiert sich neben der Fehlergrenze der notwendige Umfang einer Stichprobe,

Häufig werden bei Erhebungen die Konfidenzniveaus 90, 95 oder 99 Prozent verwendet. Liegt das Konfidenzniveau bei 95 Prozent, heißt dies übersetzt, dass ein statistischer berechneter Wert auf Grundlage einer Stichprobenerhebung mit 95-prozentiger Wahrscheinlichkeit auch für die Grundgesamtheit innerhalb des errechneten Konfidenzintervalls liegt.

Anders ausgedrückt: Die Chance ist sehr hoch, dass der Durchschnitt (als ein statistischer Wert) in der Grundgesamtheit genau innerhalb der Fehlergrenzen liegt, welche die Erhebung auf Basis einer Stichprobe aufgespannt hat. Umgekehrt besteht die Chance, dass bei vielfach wiederholter Untersuchung mit immer neuen Stichproben in 5 von 100 Erhebungen ein Durchschnitt errechnet würde, der nicht innerhalb des Konfidenzintervalls der Grundgesamtheit liegt.

  • Das Ergebnis der Untersuchung wäre zwar korrekt für die Befragten selbst, aber nicht für die Gruppe, für die sie stellvertretend befragt wurden.
  • Ein Beispiel: Eine Erhebung fragt 2.000 Deutsche über 14 Jahren, ob sie das Rauchverbot in Gaststätten befürworten.
  • Insgesamt antworten 75 Prozent der Befragten mit „Ja”.

Das Konfidenzniveau wurde für die Erhebung auf 95 Prozent festgelegt, die Fehlergrenze liegt bei rund 2 Prozent. Es besteht aufgrund des Konfidenzniveaus eine Wahrscheinlichkeit von 95 Prozent, dass der tatsächliche Anteil der Befürworter in der Bevölkerung im Bereich von 73 bis 77 Prozent liegt, also im Konfidenzintervall (Ergebnis +/- Fehlergrenze).

  • Würde man diese Erhebung 100 mal mit jeweils 2.000 anderen Befragten durchführen, so liegt die Anzahl der Befürworter in 95 Fällen ebenfalls zwischen 73 und 77 Prozent – in 5 Fällen jedoch stimmen weniger oder mehr Personen mit „Ja”.
  • Bitte beachten Sie, dass es sich bei den einzelnen Definitionen in unserem Statistik-Lexikon um vereinfachte Erläuterungen handelt.

Hierbei ist es das Ziel, die einzelnen Begriffe einer möglichst breiten Nutzergruppe näher zu bringen. Insofern besteht die Möglichkeit, dass einzelne Definitionen wissenschaftlichen Standards nicht zur Gänze entsprechen.

Warum kein 100% Konfidenzintervall?

Konfidenzintervalle

Eine Statistik aus einer Zufallsstichprobe stellt eine Schtzung des unbekannten Werts des entsprechenden Parameters der Grundgesamtheit dar. So ist z.B. die relative Hufigkeit der Wortform Hund im DWDS-Kernkorpus ein Schtzwert fr die relative Hufigkeit dieser Wortform im geschriebenen Deutsch des 20.

Jahrhunderts. Man spricht dabei von einem sogenannten Punktschtzer, weil es sich um einzelnen Wert aus der Stichprobe handelt. Von einem Punktschtzer wei man naturgem zwar nicht, ob er mit dem Wert des entsprechenden Parameters der Grundgesamtheit bereinstimmt oder wie gro der Unterschied zum Parameterwert ist.

Man kann lediglich, wenn man die Stichprobenverteilung der Statistik erstellen kann, die Wahrscheinlichkeit ermitteln, dass der Wert der Statistik mit dem des Parameters bereinstimmt. Mit Hilfe der Stichprobenverteilung kann man aber auch ein Intervall von Werten um die Statistik berechnen, dass mit einer gegebenen Wahrscheinlichkeit den Parameterwert umschliet.

Das Intervall heit (aus Grnden, die auf der nchsten Seite erlutert werden) ein Konfidenzintervall und die gegebene Wahrscheinlichkeit das Konfidenzniveau, Ein Konfidenzniveau von 95% z.B. bedeutet, dass in 95% aller Stichproben der Parameterwert der Grundgesamtheit innerhalb des Konfidenzintervalls liegt; dieses heit dann das 95%-Konfidenzintervall.

Da die Wahrscheinlichkeit der bereinstimmung des Werts des Punktschtzers mit dem Parameterwert immer relativ klein ist, hat man mit einem Konfidenzintervall i.d.R. eine genauere Idee des wahrscheinlichen Parameterwerts.

Man darf das Konfidenzniveau nicht missverstehen als eine Aussage ber die Wahrscheinlichkeit, dass der Parameterwert innerhalb des Intervalls liegt: Der Parameterwert ist keine Zufallsvariable, also entweder liegt er innerhalb des Intervalls oder eben nicht. Die durch das Konfidenzniveau ausgedrckte Wahrscheinlichkeit bezieht sich nur, wie gerade beschrieben, auf die Gesamtheit der Stichproben. Je grer das Konfidenzniveau, umso grer das Konfidenzintervall, d.h. umso mehr Werte der Stichprobenverteilung enthlt es. Folglich gilt, mit einem Konfidenzniveau von 100% htte man absolute Sicherheit, dass der Wert der Grundgesamtheit innerhalb des Konfidenzintervalls liegt – aber nur, weil dann das Konfidenzintervall alle mglichen Werte der Zufallsvariable enthlt. Aber damit wte man nicht mehr, als vor der Stichprobe.95% gilt als guter Kompromiss zwischen Sicherheit und Genauigkeit.

Wie berechnet man den Z Wert?

Berechnung der Z-Punkte

Diese Tabelle berechnet unterschiedliche Bereiche unter der Standardkurve, basierend auf dem Z-Wert, den Sie eingeben. “Die Z-Punkte”, auch “Standardpunkte” genannt, “sind die statistische Messung davon, wie weit eine bestimmte Beobachtung von der Standardabweichung entfernt ist.” Die mathematische Formel lautet: z = (x – m) / s, wobei:

z die Standardpunktzahl ausdrückt x die “Roh-” Punktzahl ausdrückt, die standardisiert werden soll m der Mittelwert der Population ist: der Durchschnittswert Dies ist die Summe aller Beobachtungen, geteilt durch die Zahl der Beobachtungen s ist die Standardabweichung: die Quadratwurzel aus der Abweichung s = Wurzel aus ( ( S (xi – m )2 ) / n ), für alle i = 1 zu n in der Gesamtpopulation.

Statistiker weisen gerne darauf hin, dass der “Schüler t-Test” angemessener für nicht repräsentativ zusammengesetzte Populationsausschnitte funktioniert. Wenn Sie Kugellager herstellen, messen Sie wahrscheinlich nicht jedes einzelne Lager. Wenn Sie jedoch Spiegel für Hubble-ähnliche Teleskope herstellen, messen Sie jeden einzelnen (und das mehrmals).

Wann ist ein Z Wert signifikant?

11.4 Konstruktion des Ablehnungsbereichs und Entscheidung

α % Beschreibung
α = 0,1 (.10) 10%-Signifikanzniveau marginal signifikant
α = 0,05 (.05) 5%-Signifikanzniveau signifikant
α = 0,01 (.01) 1%-Signifikanzniveau hoch signifikant
α = 0,001 (.001) 0,1%-Signifikanzniveau höchst signifikant

Was sagt der P Value aus?

Der p -Wert und das Signifikanzniveau – Da der p -Wert anzeigt, wie wahrscheinlich die Ergebnisse unter der Nullhypothese sind, wird er dazu verwendet, zu entscheiden, ob die Nullhypothese abgelehnt wird oder nicht. Nun stellt sich die Frage, ab wann der p -Wert so klein ist, dass die Nullhypothese abgelehnt werden sollte.

  1. Dies wird anhand eines festgelegten Signifikanzniveaus entschieden.
  2. Am üblichsten ist es, ein Signifikanzniveau von 0,05 zu wählen.
  3. Die Nullhypothese wird also abgelehnt, sobald die Ergebnisse der Studie zu weniger als 5 % wahrscheinlich sind, wenn die Nullhypothese stimmt.
  4. In einigen Fällen wird sich aber auch für ein Signifikanzniveau von 0,01 oder sogar 0,001 entschieden.

Dies hängt davon ab, wie sicher das Ergebnis sein sollte. Wenn beispielsweise die Nebenwirkungen eines Medikamentes gemessen werden, sollte man sich sicher sein, dass diese nicht fatal sind. Dann wird ein höheres Signifikanzniveau (also 0,01 oder 0,001) gewählt. Beispiel: p -Wert und Signifikanzniveau Nullhypothese H 0 : Die Zufriedenheit hängt nicht damit zusammen, ob es Sommer oder Winter ist. Alternativhypothese H 1 : Im Sommer sind die Menschen zufriedener. Das vorher festgelegte Signifikanzniveau unserer Studie liegt bei α = 0,05 und der p -Wert liegt bei 0,03.

Die Nullhypothese kann daher abgelehnt werden. Es ist unwahrscheinlich, dass die Ergebnisse nur durch Zufall entstanden sind. Man kann also schließen, dass die Zufriedenheit von der Jahreszeit abhängt. In welcher Jahreszeit die Menschen zufriedener sind, kann man herausfinden, indem man sich die Durchschnittswerte der Zufriedenheitsskala anschaut.

Wenn der p-Wert über α liegt und die Nullhypothese somit nicht abgelehnt wird, dann heißt das nicht, dass die Nullhypothese angenommen wird. Eine Nullhypothese kann man nur ablehnen oder beibehalten, man kann sie nicht annehmen.

Wie berechnet man die Stichprobengröße?

Berechnung der Stichprobengröße: technische Details einfach erklärt – Wie viele Probanden sind genug? Diese Frage stellt sich jeder, der die Durchführung einer Umfrage plant. Zum Glück hat die Wissenschaft darauf eine Antwort! In diesem Artikel erläutern wir wie der notwendige Umfang der Stichprobe ermittelt wird und erklären wie Sie die Stichprobengröße selbst berechnen können. Wenn Sie an den technischen Details nicht interessiert sind und den Umfang der Stichprobengröße schnell berechnen wollen, nutzen Sie den, Wenn wir in einer Umfrage Meinungen, Einstellungen, oder Informationen zu Verhaltensweisen abfragen, möchten wir in aller Regel feststellen, wie weit diese Meinungen, Einstellungen und Verhaltensweisen in der Gruppe der Menschen verbreitet sind, die uns interessieren.

  • Das können zum Beispiel bestehende und/oder potenzielle Kunden eines Unternehmens, seine Mitarbeiter, die Einwohner einer bestimmten Stadt, die vor der Wahl des Bürgermeisters stehen, oder die gesamte Bevölkerung eines Landes sein.
  • Die Gesamtheit dieser Menschen, deren Meinung uns interessiert, nennt man ” Grundgesamtheit “.

In den meisten Fällen ist es allerdings unpraktikabel jeden zu der Grundgesamtheit gehörenden Menschen zu befragen: Abgesehen davon, dass wir nur in den seltensten Fällen jeden einzelnen Menschen aus der Grundgesamtheit kontaktieren und darum bitten können, an unserer Umfrage teilzunehmen, wäre das meistens schlicht und ergreifend zu teuer. Deshalb setzte sich die Wissenschaft mit der Frage auseinander, ob und inwiefern es möglich ist, nur einige wenige Menschen aus der Grundgesamtheit zu befragen und trotzdem derartige Antworten zu bekommen, die für die Grundgesamtheit charakteristisch – also repräsentativ – sind.

  • Diese Teilmenge nennt man ” Stichprobe “.
  • Analog dazu wie ein Bäcker das Brot an verschiedenen Stellen durchsticht, um festzustellen, ob es gleichmäßig gebacken ist, “stechen” die Statistiker in verschiedene Teile der Grundgesamtheit ein, um festzustellen, ob die Menschen darin ähnlich “gebacken” sind.

Letzten Endes hat die Statistik die Antwort auf diese Frage gefunden und die Antwort war ein klares Jain. Nein – weil es unmöglich ist, anhand einer Stichprobe auf genau dieselbe Antwort zu kommen, die bei der Befragung der kompletten Grundgesamtheit der Fall gewesen wäre.

  1. Ja – weil es mit Hilfe der Wahrscheinlichkeitsrechnung möglich ist einzuschätzen, wie stark der echte Wert (z.B.
  2. Durchschnittseinkommen, oder Anteil derjenigen, die das Produkt X präferieren) in der Grundgesamtheit von dem mit Hilfe der Stichprobe ermittelten Wert abweichen kann.
  3. Mit anderen Worten es ist möglich das Intervall einzuschätzen, in dem der echte Wert höchstwahrscheinlich liegt.

Die Voraussetzungen dafür, dass dieser Intervall berechnet werden kann, sind

  • .D.h. jeder Mensch aus der Grundgesamtheit hat dieselbe Chance in die Stichprobe zu gelangen.
  • Es muss eine bestimmte Mindestanzahl von Menschen (Stichprobengröße) befragt werden

Sind diese beiden Voraussetzungen erfüllt, so gilt die Stichprobe als repräsentativ für die Grundgesamtheit. Die mit Hilfe einer solchen Stichprobe gewonnenen Erkenntnisse können wir auf die Grundgesamtheit übertragen und die Wahrscheinlichkeit angeben, mit der wir uns sicher sind, dass wir dabei keinen Fehler machen.

  • Ist die Stichprobe zu klein, so können wir die Umfrageergebnisse nicht auf die Grundgesamtheit verallgemeinern bzw. die Parameter in der Grundgesamtheit nicht mit der gewünschten Präzision einschätzen.
  • Ist die Stichprobe zu groß, so schadet es zwar den Ergebnissen nicht, die Kosten der Datenerhebung können aber höher ausfallen, als es notwendig gewesen wäre. Besonders spürbar wird es bei der Verwendung von Panels, wobei jeder Proband mehrere Euros kostet.

Wannimmer wir basierend auf der Stichprobe Aussagen über die Grundgesamtheit treffen, machen wir einen Fehler. Dieser Fehler resultiert daraus, dass wir nicht die komplette Grundgesamtheit sondern nur einen Teil davon befragen. Sofern die wurde, können wir diesen Fehler mit Hilfe der Wahrscheinlichkeitsrechnung berechnen und den Bereich angeben, in dem sich der wahre Wert (z.B.

(1)

ul>

  • hier,
  • E – Fehlerspanne (in Prozent, ausgedruckt in Dezimalzahlen).
  • z – Die Differenz zwischen dem in der Stichprobe beobachteten Wert und seinem theoretischen Mittelwert, die für das vorgegebene maximal zulässig ist.
  • Z-Wert gibt somit im Grunde die Breite des vor, tut es allerdings in Begriffen der Anzahl von Standardabweichungen der, Alle restlichen Parameter der Formel dienen lediglich dazu, den z-Wert in die verständlichere und einfach interpretierbare Einheiten der maximal zulässigen prozentualen Abweichung zu übersetzen.

    Vertrauensniveau z-Wert
    90% 1,65
    95% 1,96
    99% 2,58

    Höheren Vertrauensniveaus entsprechen höhere z-Werte. Deshalb wird auch die Fehlerspanne für höhere Vertrauensniveaus höher. π – Anteil des Merkmals in der Grundgesamtheit (in Prozent, ausgedruckt in Dezimalzahlen). Der π-Wert kann also zwischen 0% und 100% variieren.

    1. In der Regel ist der π-Wert im Vorfeld einer Umfrage nicht bekannt.
    2. In solchen Fällen setzt man ihn auf 50% (0,5).
    3. Das ist deshalb so, weil der Ausdruck π(1 – π) seinen Maximum bei π = 0,5 hat, was in den höchsten E-Wert für alle mögliche Werte von π resultiert.
    4. Das gewährleistet, dass selbst in ungünstigen Fällen, das ermittelte Konfidenzintervall den wahren Wert einschließt, oder dass eine ausreichend große Stichprobe generiert werden kann.

    Werte von π, die von 0,5 nach oben oder nach unten abweichen, produzieren kleinere Fehlerspannen. Bei π = 0 und π = 1 ist die Fehlerspanne = 0. Wenn Sie also vor der Durchführung Ihrer Umfrage den Anteil des Sie interessierenden Merkmals in der Grundgesamtheit wissen, können Sie die Fehlerspanne – und wie wir es später zeigen werden, auch die erforderliche Stichprobengröße – deutlich reduzieren, indem Sie diese Information berücksichtigen.

    • Beispiel: In Ihrer Studie untersuchen Sie die Frage, welcher Anteil der Schüler ein eigenes Laptop besitzt.
    • Da darüber im Hinblick auf die von Ihnen definierte Grundgesamtheit noch nichts bekannt ist, nutzen Sie den Wert π = 0,5.
    • Es stellt sich heraus, dass 67,5% der Befragten diese Frage bejaht haben.

    Sie wiederholen die Studie mit der gleichen Grundgesamtheit und nutzen nun den Wert π = 0,675, was den notwendigen Stichprobenumfang verringert. n – Anzahl der befragten Personen, also Stichprobengröße. Nachdem wir uns mit der Bedeutung aller Parameter in der Formel für die Berechnung der Fehlerspanne auseinandergesetzt haben, ist es einfach zu sehen, dass wir dieselbe Formel zur verwenden können.

    (2)

    Die Vorgehensweise für die Berechnung der Stichprobengröße ist nun ganz einfach:

    1. Wähle die Fehlerspanne aus, die für die Umfrageergebnisse gelten soll.
    2. Wähle das Vertrauensniveau aus, für das die Ergebnisse der Umfrage gelten sollen.
    3. Ermittle den z-Wert, der dem gewählten Vertrauensniveau entspricht.
    4. Ist der Anteil des interessierenden Merkmals in der Grundgesamtheit bekannt, so nutze ihn als π. Ist das nicht der Fall, setzer π = 0,5.
    5. Setze die Werte in die Formel (2) ein und rechne die Stichprobengröße sie aus.

    Somit haben Sie die Stichprobengröße für den Fall der unbekannten oder unendlich großen Grundgesamtheit ermittelt. Es stellt sich heraus, dass in Fällen, wenn die notwendige Stichprobengröße vergleichbar mit dem Umfang der Grundgesamtheit wird, bereits kleinere Stichprobengrößen für die Repräsentativität der Umfrageergebnisse ausreichen.

    (3)

    wobei N für die Größe der Grundgesamtheit steht. Die Formel zur Berechnung von Fehlerspanne nimmt dabei folgende Form an:

    (4)

    Der wert von FPC kann zwischen 0 und 1 Variieren. Je näher die Stichprobengröße ( n ) an den Umfang der Grundgesamtheit ( N ) ist, desto kleiner wird FPC. Folglich fällt auch die Fehlerspanne kleiner aus. Je kleiner der Stichprobenumfang im Vergleich zur Größe der Grundgesamtheit ist, desto näher an die 1 wird der Wert von FPC.

    (5)

    Der Umfang der Stichprobengröße kann in diesem Fall analog zu der im vorherigen Abschnitt erläuterten Vorgehensweise berechnet werden:

    1. Man ermittle die Werte für E, z, π und N.
    2. Setze sie in die Formel (5) ein.
    3. Berechne die notwendige Stichprobengröße.

    Alternativ und besonders hilfreich bei händischer Berechnung kann man auch wie folgt vorgehen:

    1. Berechne die Stichprobengröße für unendliche Grundgesamtheit – nach Formel (2).
    2. Wenn die berechnete Stichprobengröße mehr als 5% (spätestens aber größer als 10%) der Grundgesamtheit beträgt, berechne die korrigierte Stichprobengröße nach der Formel
      (6)

      n corr ist der notwendige Stichprobenumfang.

    Beispiel: Wir führen eine Mitarbeiterumfrage durch, die repräsentativ für das gesamte Unternehmen mit der Fehlerspanne von 5% und Vertrauensniveau von 95% sein soll. Nach der Formel (2) berechnen wir die notwendige Stichprobengröße: n = (1,96