Evidensniveau, diagnostiske tests og effektstørrelser

Følgende er en forklaring på vurdering af evidensniveau, diagnostiske tests og effektstørrelser.

Vurdering af evidensniveau (GRADE)

 

Evidensniveauet evalueres i henhold til retningslinjerne GRADE working group (Grading of Recommendations Assessment, Development and Evaluation) (1–5), og rangeres som:

 

  • Høj evidens: Vi er meget sikre på, at den sande effekt af behandlingen er tæt på den estimerede effekt.
  • Moderat evidens: Vi er moderat sikre på den estimerede effekt. Den sande effekt ligger sandsynligvis tæt på denne, men der er en mulighed for at den er væsentligt anderledes.
  • Lav evidens: Vi har begrænset tiltro til den estimerede effekt. Den sande effekt kan være væsentligt anderledes end den estimerede effekt
  • Meget lav evidens: Vi har meget ringe tiltro til effektestimatet. Den sande effekt er sandsynligvis væsentligt anderledes end effektestimatet.

 

Den samlede evidens kan nedgraderes på baggrund af en vurdering af:

 

  1. Kvaliteten af de inkluderede studier (Risk of bias):

 

Risk of bias vurderes ved benyttelse af checklister der er specifikt udarbejdet til hvert enkelt studiedesign. Faktorer såsom randomiseringen, om anden behandling end den allokerede er modtaget, manglende data, fejl i målemetode og selektiv rapportering af resultater er specielt vigtige når det gælder randomiserede studier (6).

 

  1. Ensartetheden af resultaterne i de individuelle studier (Inconsistency):

 

Inconsistency er en vurdering af forskellene i effekten mellem de individuelle studier. Hvis inconsistency er stor og ikke kan forklares ved f.eks. forskelle i patient, intervention, sammenligningsgruppe, outcome eller design (PICOS) nedgraderes evidensen, specielt hvis nogen studier viser positiv effekt og andre negative (i modsætning til at hvis alle studier viser positive effekt, men nogen viser stor effekt og andre moderat effekt) (7).

 

  1. Om den samlede vurdering af effekten er rimeligt præcist estimeret (Imprecision):

 

Imprecision vurderes på 95 % CI af det samlede estimat, og imprecision er tilstede hvis der er

forskel på den kliniske anbefaling i den øvre versus den nedre del af konfidensintervallet (8).

 

  1. Om resultaterne kan overføres til målgruppen for det faglige katalog (Indirectness).

 

Indirectness kan opstå på flere måder. Patienter, interventioner og effektmål i publicerede studier kan afvige fra det, der er i fokus. Surrogat effektmål (f.eks. range of motion i knæleddet eller muskelstyrke) kan være anvendt i stedet for klinisk relevante effektmål (f.eks. smerte og

arbejdsevne). Derudover kan interventionerne være testet i indirekte sammenligninger med

placebo og ikke i direkte sammenligninger mellem forskellige behandlinger (f.eks. kan både styrketræning og konditionstræning være vist at være bedre end kontrolbehandling – men hvis der ikke er direkte sammenligninger kan det være svært at vurdere hvilken type træning der har størst effekt)  (9).

 

  1. Publikationsbias (small study bias).

 

Hvis små studier (og studier af lav kvalitet) generelt har bedre resultater end større studier og

studier af god kvalitet (risk of small study bias), altså indikerer det at en beslutning om publikation kan have været afhængig af resultatet af studiet (10).

 

Omvendt kan evidensen opgraderes på baggrund af et observeret dosis-respons forhold eller stor effektstørrelse (11).

 

 

Vurdering af diagnostisk evne af test

 

Den diagnostiske evne af en klinisk test beskrives hvis muligt med den prædiktive værdi af positiv test (Positive Predictive Value [PPV]) og prædiktive værdi af negativ test (Negative Predictive Value [NPV]); og likelihood ratio for positiv (LH+) og negativ (LH-) test. Hvis dette ikke er muligt, beskrives sensitivitet og specificitet.

 

Positiv og negativ prædiktiv værdi

Den prædiktive værdi af en positiv og negativ test er for klinikeren det vigtigste mål. Den prædiktive værdi af en positiv test (PPV) angiver sandsynligheden for at en person, der er testet positiv virkelig har den tilstand personen er testet for. På samme måde angiver den prædiktive værdi af en negativ (NPV) test sandsynligheden for at den person, der er testet negativ virkelig, ikke har den tilstand personen er testet for. PPV og NPV præsenteres som sandsynligheder fra 0 til 1, hvor 1 svarer til 100% sandsynlighed. Det er vigtigt at være opmærksom på at PPV og NPV er prævalensafhængige, det vil sige at de i Tabel 1 præsenterede estimater for PPV og NPV kan variere afhængig af hvilken setting testen benyttes i.

En tommelfingerregel for den diagnostiske evne af en test vurderet ud fra PPV og NPV er:

 

 

PPV eller NPV

Høj diagnostisk evne

≥ 0,85

Moderat diagnostisk evne

0,70 – 0,84

Lav diagnostisk evne        

≤ 0,69

 

Likelihood ratio

Dette katalog vurderer den diagnostiske evne af kliniske test på baggrund af positive (LR+) og

negative (LR-) likelihood ratioer. LR+ og LR- angiver hvor meget sandsynligheden for, at patienten har en given diagnose, ændrer sig efter et positivt eller negativt testsvar. En LR+ med en værdi >1 øger sandsynligheden for en given diagnose ved et positivt testsvar, mens en LR- <1 nedsætter sandsynligheden for en given diagnose ved et negativt testsvar. Diagnostiske test med en høj LR+ er således egnet til at bekræfte en diagnose, mens test med en lav LR- er egnet til at udelukke en diagnose. Sandsynligheden for at en patient har en given diagnose efter et positivt eller negativt testsvar er således bestemt af værdien af LR+ eller LR- samt sandsynligheden for at patienten havde diagnosen før denne blev undersøgt. Sandsynligheden for at en patient har en given diagnose før den kliniske undersøgelse benævnes ”prævalens” og afhænger af de kliniske omstændigheder (12). F.eks. en fodboldspiller, der får en akut lyskeskade, har 57% sandsynlighed for at have en skade i adduktorerne, da prospektive studier på området har vist denne skadesrate. På baggrund af et givent positivt eller negativt testsvar kan denne sandsynlighed således op- eller nedreguleres alt efter testens diagnostiske evne. Cutoff-værdierne for likehood ratioer og diagnostisk evne er som følger:

 

Diagnostisk evne 

LH+

LH-

 

Meget lille

1 til 2

0,5 til 1

 

Lille

2 til 5

0,2 til 0,5

 

Moderat

5 til 10

0,1 til 0,2

 

Stor

>10

<0,1

 

 

Vurdering af effektstørrelser

 

Afsnit om forebyggelse og behandling er tilføjet effektstørrelse (ES), når det har været muligt. Effektstørrelsen af en intervention udtrykkes ofte i Cohen d, som udtrykker effekten af en intervention divideret med standarddeviationen (SD) af den samlede gruppe. Dette estimat er dog let biased så det overvurderer effekten af en intervention, så estimatet for effektstørrelse justeres ofte til Hedges g, men tolkningen af disse effektstørrelser er ens. En effektstørrelse på 0.2 anses for at være en lille effekt, 0.5 for en moderat effekt og ofte klinisk meningsfuld og >0.8 er en stor effekt (13).

 

Den mindste kliniske relevante forskel

I den endelige vurdering af hvorvidt en given effekt er af klinisk relevans kan inddrages den mindste kliniske relevante forskel (på engelsk: Minimal Important Change (MIC)), for hvert givent outcome, hvis denne værdi er til rådighed. MIC svarer til den gennemsnitlige effekt en patientgruppe vurderer som værende af betydning, eller vigtig. Hvis effekten ikke overstiger MIC, vil effekten vurderes til at være lav.

 

Vurdering af relativ risiko (RR) og odds ratio (OR)

 

Afsnit om risikofaktorer, forebyggelse og behandling tilføjes relativ risiko (RR) eller odds ratio (OR), hvis det er muligt. Risikofaktorer eller interventioner kan enten øge eller mindske risikoen for en skade, hvilket kan udtrykkes ved RR eller OR. RR udtrykker sandsynligheden for at en idrætsudøver, der er eksponeret for en risikofaktor, bliver skadet, sammenlignet med en der ikke er eksponeret. RR er bedst egnet til kohortestudier. OR er lidt sværere at fortolke. OR udtrykker forholdet mellem de eksponerede skadede og ikke-skadede ift. forholdet mellem de ikke-eksponerede skadede og ikke-eksponerede. En RR eller OR >1.0 betyder der er øget chance/risiko for et givent udfald af en intervention eller risikofaktor, mens en RR eller OR <1.0 betyder, at der er nedsat chance/risiko for et givent udfald af en intervention eller risikofaktor (14). Det er vigtigt at være opmærksom på at OR har den ulempe at betydningen af en risikofaktor eller effekt af behandling eller forebyggelse overvurderes i forhold til RR, hvis forekomsten (f.eks. af en skade) er hyppig. RR og OR kan omregnes til procent chance/risiko ved at trække den givne RR eller OR fra 1 og gange med 100, eks. OR 0.2 (1 - 0.2 * 100 = 80%). En RR på >2 (risikoen er fordoblet) eller <0,5 (risikoen er nedsat med 50%) er et udtryk for en stor effekt, mens en RR på >5 eller <0,2 er et udtryk for en meget stor effekt (15).

 

Ændring i risiko

RR*

 

Væsentlig nedsat risiko/meget stor effekt

<0,2

 

Moderat nedsat risiko/stor effekt

0,2 til 0,5

 

Ingen ændring i risiko/ingen forskel i effekt

1

 

Moderat øget risiko/stor effekt

2 til 5

 

Væsentlig øget risiko/meget stor effekt

>5

*Denne tommelfingerregel er kun brugbar til at fortolke RR. Hvis effektestimatet er opgjort som OR kan OR med fordel konverteres til RR, og kan derefter fortolkes efter ovenstående tabel.

 

 

Referencer

 

  1. Guyatt GH, Oxman AD, Vist GE, Kunz R, Falck-Ytter Y, Alonso-Coello P, et al. GRADE: an emerging consensus on rating quality of evidence and strength of recommendations. BMJ. 2008;336(26).
  2. Guyatt GH, Oxman AD, Vist GE, Kunz R, Falck-Ytter Y, Schünemann HJ. GRADE: what is “quality of evidence” and why is it important to clinicians? Bmj. 2008;336(3).
  3. Guyatt GH, Oxman AD, Kunz R, Falck-Ytter Y, Vist GE, Liberati A, et al. GRADE: Going from evidence to recommendations. BMJ. 2008;336(7652):1049–1051.
  4. Guyatt GH, Oxman AD, Kunz R, Jaeschke R, Helfand M, Liberati A, et al. GRADE: Incorporating considerations of resources use into grading recommendations. Bmj. 2008;336:1171.
  5. Schünemann HJ, Oxman AD, Brozek J, Glasziou PP, Jaeschke R, Vist GE, et al. GRADE: grading quality of evidence and strength of recommendations for diagnostic tests and strategies. BMJ. 2008;
  6. Guyatt GH, Oxman AD, Vist G, Kunz R, Brozek J, Alonso-Coello P, et al. GRADE guidelines: 4. Rating the quality of evidence—study limitations (risk of bias). J Clin Epidemiol. 2011 Apr;64(4):407–15.
  7. Guyatt GH, Oxman AD, Kunz R, Woodcock J, Brozek J, Helfand M, et al. GRADE guidelines: 7. Rating the quality of evidence—inconsistency. J Clin Epidemiol. 2011 Dec;64(12):1294–302.
  8. Guyatt GH, Oxman AD, Kunz R, Brozek J, Alonso-Coello P, Rind D, et al. GRADE guidelines 6. Rating the quality of evidence—imprecision. J Clin Epidemiol. 2011 Dec;64(12):1283–93.
  9. Guyatt GH, Oxman AD, Kunz R, Woodcock J, Brozek J, Helfand M, et al. GRADE guidelines: 8. Rating the quality of evidence—indirectness. J Clin Epidemiol. 2011 Dec;64(12):1303–10.
  10. Guyatt GH, Oxman AD, Montori V, Vist G, Kunz R, Brozek J, et al. GRADE guidelines: 5. Rating the quality of evidence—publication bias. J Clin Epidemiol. 2011 Dec;64(12):1277–82.
  11. Balshem H, Helfand M, Schünemann HJ, Oxman AD, Kunz R, Brozek J, et al. GRADE guidelines: 3. Rating the quality of evidence. J Clin Epidemiol. 2011 Apr;64(4):401–6.
  12. Jaeschke R, Guyatt GH, Sackett DL. Users’ guides to the medical literature. III. How to use an article about a diagnostic test. B. What are the results and will they help me in caring for my patients? The Evidence-Based Medicine Working Group. JAMA. 1994;2.
  13. Higgins JPT, Green S. Cochrane Handbook for Systematic Reviews of Interventions. Version 5.1.0 [updated March 2011] [Internet]. 2011 [cited 2017 May 12]. Available from: http://handbook-5-1.cochrane.org/
  14. Kirkwood BR, Sterne JAC. Essential Medical Statistics. Second edition. Massachusetts, USA: Blackwell Science Ltd; 2003.
  15. Schünemann HJ, Brozek J, Guyatt GH, Oxman AD. GRADE Handbook [Internet]. 2013. Available from: https://gdt.gradepro.org/app/handbook/handbook.html