Disentangling manual muscle testing and Applied Kinesiology: critique and reinterpretation of a literature review | Chiropractic & Manual Therapies

Appraisal elements

De validiteit van deze review van MMT hangt onvermijdelijk af van de kwaliteit van het review proces. Het lijkt niet de bedoeling van de auteurs te zijn geweest om een volledige systematische review van de literatuur uit te voeren, en we houden hen niet aan die norm. De ontwerp-elementen van een goed systematisch overzicht van diagnostische tests, evenals de kritische beoordeling van de literatuur over de evaluatie van metingen, zijn echter wel relevant voor de discussie die hier aan de orde is. Zelfs de meer traditionele narratieve review heeft veel van deze elementen gemeen. Wij hebben vragen opgesteld die moeten worden overwogen om geldige conclusies te kunnen trekken over het nut van AK diagnostische procedures (tabel 1); deze vragen zijn gebaseerd op onderzoeks- en synthese methodologie uit de citaten hierboven. De antwoorden op deze paar vragen vormen een ernstige uitdaging voor de conclusie van de auteurs over het nut van AK.

Tabel 1 Kritische beoordelingsvragen voor Toegepaste Kinesiologie (AK)

AK-verstrikking

AK heeft een lange en rijke geschiedenis in de chiropractie . Veel chiropractors maken melding van het gebruik van de techniek in een of andere vorm . Het is duidelijk dat AK door zijn voorstanders wordt gezien als meer dan standaard orthopedische/neurologische spiertesten. MMT, zoals uitgevoerd door chiropractors, verschilt niet noodzakelijk in zijn uitvoering en interpretatie van manuele spiertesten zoals uitgevoerd en geïnterpreteerd volgens de normen toegepast in de fysische geneeskunde. Voor beide beroepsbeoefenaars kan een zwakke spier wijzen op een primaire spier- of neurologische pathologie. De AK techniek maakt echter gebruik van manuele spiertesten, niet alleen om de functionele integriteit van spieren en zenuwbanen te evalueren, maar ook als een middel om “structurele, chemische en mentale disfuncties te diagnosticeren”. Enkele van de kenmerkende diagnostische procedures zijn het gebruik van provocatieve testen (d.w.z. AK challenge en therapie lokalisatie) in combinatie met MMT om de noodzaak van behandeling van neuromusculoskeletale, organische en metabole condities vast te stellen. Spierzwakte wordt ook beschouwd als diagnostisch voor pre/subklinische organische, niet-neuromusculoskeletale aandoeningen.

MMT is een standaard onderdeel van het neuromusculoskeletaal lichamelijk onderzoek . Wij zijn het met de auteurs eens dat MMT nuttig is bij de beoordeling van zwakte van spieren die direct betrokken zijn bij pijn, letsel, en neuromusculoskeletale aandoeningen. Echter, extrapolatie van MMT eigenschappen naar unieke AK toepassingen is om verschillende redenen riskant. De betrouwbaarheid/validiteit van MMT voor specifieke neuromusculoskeletale aandoeningen is mogelijk niet generaliseerbaar naar andere toepassingen zoals de identificatie van organische aandoeningen. MMT kan betrouwbaar/nauwkeurig zijn voor spierkrachtmeting op zichzelf, maar niet wanneer het gebruikt wordt in combinatie met een werveltest (kracht uitgeoefend op een wervelgewricht) of een andere provocatieve test die gebruikt wordt voor specifieke AK-diagnose. De auteurs verwarren ook twee toepassingen van de term validiteit: de nauwkeurigheid van de test en de diagnostische validiteit. Een test kan uiterst nauwkeurig zijn, bijvoorbeeld dynamometrische evaluatie van spierkracht in newton, maar toch geen sensitiviteit of specificiteit hebben voor de diagnose van een specifieke aandoening. Cuthbert en Goodheart verwarden bewijs voor AK met bewijs voor de betrouwbaarheid/validiteit van standaard orthopedische MMT. De betrouwbaarheid en nauwkeurigheid van MMT stelt niet het nut vast van MMT voor de unieke AK toepassingen.

Zoekstrategie en inclusiecriteria

De review van Cuthbert en Goodheart illustreert hoe het niet gebruiken van een kieskeurige zoekstrategie kritische citaties kan missen en de review bevindingen kan beïnvloeden. De auteurs voerden een online zoekactie uit in PubMed en CINAHL, waarbij ze gebruik maakten van de zoektermen “manuele spiertest” en “manuele spiertesten”. Er werden geen verdere details verstrekt, zodat de zoekactie niet exact kan worden gedupliceerd. Er zijn verschillende problemen met betrekking tot de reikwijdte van de zoekactie die kunnen hebben geleid tot het weglaten van relevante artikelen. Bij onze zoekactie in PubMed deed de toevoeging van de zoekterm “spiertesten” het aantal gevonden artikelen stijgen van 639 tot 13.802. We hebben ook gezocht in MEDLINE en CINAHL. Door toevoeging van de term “spiertesten” steeg het aantal treffers van 454 naar 709, en het aantal artikelen dat specifiek betrekking had op betrouwbaarheid/validiteit van 97 naar 136. Het tweede probleem is dat Cuthbert en Goodheart hebben nagelaten te zoeken in de chiropractische databank, MANTIS. Door ook in deze database te zoeken steeg het aantal artikelen over spiertesten van 709 naar 1297 en het aantal artikelen over betrouwbaarheid/validiteit van 136 naar 221. We voerden ook een zoekactie uit met gebruik van de Booleaanse strategie: Toegepaste Kinesiologie EN (betrouwbaarheid OF validiteit). De opname van MANTIS verhoogde onze opbrengst van 15 tot 32 artikelen. De auteurs hebben mogelijk ook nagelaten een andere belangrijke zoekstrategie toe te passen, namelijk het controleren van artikelreferenties om verdere relevante studies te identificeren.

De auteurs verklaarden dat zij studies selecteerden op basis van relevantie, maar zij voegden geen operationele definitie toe. Het lijkt erop dat elk MMT-artikel over een pijngerelateerde aandoening als relevant werd beschouwd. Het is niet duidelijk hoe “betrouwbaarheid/validiteit” en “MMT” werden gebruikt in het selectieproces. Negatieve studies werden zeker weggelaten. Indien de auteurs de zoekterm “spiertesten” hadden gebruikt en de MANTIS databank hadden opgenomen, zouden zij niet hebben nagelaten gerandomiseerde trials te identificeren die specifiek waren ontworpen om de bijdrage van een AK-challenge procedure aan MMT resultaten te evalueren. In ieder geval hadden de auteurs op de hoogte moeten zijn van de studie van Triano uit 1982, die werd uitgevoerd met de hulp van het International College of Applied Kinesiology en die door Goodheart werd bekritiseerd in een brief aan de redacteur.

Eén selectiecriterium introduceerde een duidelijke en significante bias in de review. Studies werden alleen opgenomen als een kappa ≥ 0.5 werd gerapporteerd voor de beoordeling van betrouwbaarheid of validiteit (hoewel kappa over het algemeen geen validiteitsindex is). Het is duidelijk dat dit inclusiecriterium niet uniform werd toegepast, aangezien veel van de geïncludeerde studies geen betrekking hadden op de betrouwbaarheid en dus geen kappa-waarde vermeldden. Belangrijker is dat het gebruik van dit criterium gebaseerd was op een verkeerd begrip van Swinkles et al. Deze auteurs gebruikten het criterium voor het vaststellen van normen om te bepalen of bepaalde instrumenten een goede constructvaliditeit hadden; zij gebruikten geen drempel van kappa ≥ 0,5 om te bepalen of ze in aanmerking kwamen voor hun systematische review. Het resultaat van het gebruik van dit kappa-selectiecriterium door Cuthbert en Goodheart was de uitsluiting van alle studies behalve die met een matige tot uitstekende betrouwbaarheid/validiteit. Het bevooroordeelde inclusiecriterium zette duidelijk een tautologie op die voorafging aan een positieve conclusie over het nut van MMT.

Quality evaluation and evidence synthesis

Evaluatie van studiekwaliteit is een belangrijk aspect van literatuuronderzoek , en er zijn zeker vele methoden om dit te doen . Cuthbert en Goodheart schrijven in de methodesectie dat er een kwaliteitsbeoordeling is uitgevoerd. Pas aan het eind van het artikel erkennen de auteurs dat de interne en externe validiteit niet kritisch zijn geëvalueerd. De auteurs hadden geen formele criteria of algoritme voor het synthetiseren van de literatuur om tot een conclusie te komen over MMT in het algemeen en AK specifiek. Zonder kwaliteitsbeoordeling wordt aan studies met grote verdiensten onvermijdelijk niet meer gewicht toegekend dan aan studies met ernstige ontwerpfouten en niet-onderbouwde conclusies. Het is met name niet raadzaam om de conclusies van de auteurs van de opgenomen artikelen zonder meer aan te nemen. Misinterpretaties komen voor. Enkele voorbeelden in de chiropractische literatuur van conclusies die inconsistent zijn met studieopzet en resultaten worden in verschillende reviews geïdentificeerd .

Evidence from treatment investigations

Cuthbert en Goodheart proberen klinische relevantie voor MMT-diagnose af te leiden uit studies met positieve behandelingsuitkomsten. Een voorbeeld dat door de auteurs in hun tabel 4 wordt aangehaald, is een observationele studie van Moncayo et al . De impliciete logica is dat als een AK procedure wordt gebruikt om de noodzaak van behandeling vast te stellen en patiënten positieve resultaten hebben, er bewijs is dat de AK procedure een waardevol diagnostisch hulpmiddel is. De fout in deze redenering is dat patiënten kunnen verbeteren ondanks de gebruikte diagnostische procedures. Dit is aangetoond in een gerandomiseerd onderzoek naar de werkzaamheid van een veel gebruikte chiropractische diagnostische procedure. Een effectieve behandeling (b.v. spinale manipulatie) vereist geen geldige of effectieve diagnostische test als een behandelingsindicator.

Evidence from randomized trials

De auteurs merken verschillende keren in de tekst op dat MMT is onderzocht in gerandomiseerde trials. Deze bewering behoeft enige verduidelijking. In alle genoemde gerandomiseerde trials werden de patiënten gerandomiseerd naar behandeling of controlebehandeling, en niet naar diagnostische test of controlebehandeling. Dit betekent dat de doeltreffendheid van de behandeling werd onderzocht, en niet de doeltreffendheid van het MMT. De auteurs hebben echter het belang van de evaluatie van de betrouwbaarheid en de validiteit van MMT opgeblazen door zich te beroepen op het prestige van de gerandomiseerde trial; niet-gerandomiseerde cross-sectionele/longitudinale studies hebben hetzelfde gewicht voor de evaluatie van diagnostische en prognostische tests.

De werkzaamheid (bijdrage aan de uitkomsten voor de patiënt) van diagnostische tests en manipulatie-indicatoren kan en moet worden geëvalueerd in geblindeerde gerandomiseerde trials . Wij zijn het dus eens met de stelling van de auteurs dat meer gerandomiseerde trials nodig zijn om AK toepassingen van MMT te valideren. Echter, gerandomiseerde onderzoeken naar de effectiviteit van de behandeling zullen de AK diagnostiek niet valideren, zoals de auteurs beweren.

Geblindeerde gerandomiseerde onderzoeken kunnen niet alleen worden gebruikt om de effectiviteit van de test te evalueren, maar ook om de construct validiteit te onderzoeken en de bijdrage van provocatieve testen (bijv. joint challenge) aan MMT bevindingen. Verscheidene construct-validiteitstests van in AK gebruikte tests worden hieronder onder construct-validiteit besproken.

Betrouwbaarheid

Betrouwbaarheid wordt gewoonlijk beschouwd als een noodzakelijke maar onvoldoende voorwaarde om de bruikbaarheid van een diagnostische test vast te stellen. Dat wil zeggen, een slechte betrouwbaarheid sluit in het algemeen het nut van een test uit (althans in de context van de manier waarop hij wordt gemeten), maar een goede betrouwbaarheid garandeert het nut niet. Zoals hierboven vermeld, betwisten wij de betrouwbaarheid van orthopedische/neurologische MMT niet, en zijn wij alleen geïnteresseerd in de betrouwbaarheid van uitgesproken AK toepassingen van MMT. Verscheidene van dergelijke dubbelblinde studies zijn uit de review weggelaten.

Jacobs toonde een goede betrouwbaarheid in een niet-geblindeerde test van suikeroplossingen, maar slechts een redelijke betrouwbaarheid in een dubbelblinde test van MMT-respons op oraal toegediende olieoplossingen. Haas et al vonden een slechte inter-examiner betrouwbaarheid van MMT van een vertebral challenge (spier “kracht” verandering na directionele druk op de wervel spinous process) . Twee kleine dubbelblinde studies keken naar de MMT-respons op stoffen in flessen die in de hand van de patiënt werden gehouden. Ludtke et al. vonden dat de respons niet beter was dan raden voor zowel wespengif als inerte stof , Garrow toonde geen test-retest reproduceerbaarheid van MMT voor het identificeren van potentiële allergenen . Pothmann et al. vonden een goede intra-examinator, maar een slechte interexaminator (kappa = 0) betrouwbaarheid voor spiertesten gebruikt voor het identificeren van voedselintolerantie bij kinderen.

Andere betrouwbaarheidsstudies die niet in de review zijn opgenomen, worden hieronder beschreven. Deze waren of slecht opgezet of hadden negatieve resultaten.

Peterson vond een slechte betrouwbaarheid in een onderzoek naar emotionele opwinding; de betrouwbaarheid verbeterde drastisch wanneer rekening werd gehouden met verstorende variabelen . Deze studie was echter slecht opgezet in die zin dat negatieve verwarrende variabelen werden geïdentificeerd en post hoc geëlimineerd met behulp van semi-gestructureerde interviews, terwijl naar positieve verwarrende variabelen niet werd gezocht. In Kenney et al. werden 11 proefpersonen door 3 getrainde spiertesters onderzocht op de noodzaak van suppletie met 4 verschillende voedingsstoffen (zink, vitamine C, thiamine, en vitamine A) . De onderzoekers waren het niet met elkaar eens, noch kwamen hun individuele resultaten overeen met laboratoriumtesten, noch was er enige correlatie tussen handmatige en mechanische metingen van spierkracht (slechte betrouwbaarheid en validiteit).

Rybeck en Swenson vonden dat handmatige spiertesten (met de Latissimus dorsi), maar geen mechanische spiertesten, onderscheid konden maken tussen suiker en geen suiker onder de tong. Er zij op gewezen dat de proefpersonen niet geblindeerd waren. Hoewel Friedman en Weisberg probeerden bepaalde AK-procedures te testen, vermeldde hun studie slechts de gegevens en ontbrak elke statistische analyse, waardoor het moeilijk te interpreteren is.

Constructvaliditeit

Leboeuf et al onderzochten de zogenaamde arm-fossa test, een handmatige spiertestmethode die wordt gebruikt in de Sacro-Occipitale Techniek (SOT) . Zij evalueerden het SOT-construct dat de arm-fossa test (AK-stijl spiertest met bijbehorende challenge test) responsief is op de juiste voorgeschreven blokkerende behandeling maar niet responsief (onveranderd) na onjuiste of geen behandeling (N = 45). De test werd weer normaal bij follow-up bij respectievelijk 73%, 37,5% en 14% van de deelnemers. De resultaten waren gemengd in deze beoordelaar-blinde studie. Ter ondersteuning van het construct hadden correct behandelde proefpersonen meer kans op een normale follow-up dan onbehandelde proefpersonen. In tegenstelling tot de voorspelling, toonden post hoc testen geen verschil tussen juist en onjuist behandelde groepen, of tussen onjuist en onbehandelde groepen (P > .025). Alleen de correct behandelde groep toonde resultaten van vervolgtests die verschilden van louter giswerk. Er zij op gewezen dat het bewijs niet sterk is, vanwege de kleine steekproefgrootte en de niet-geblindeerde proefpersonen.

Belangrijk negatief bewijs werd niet in de review opgenomen: het werk van Jacobs e.a., Triano, en Haas e.a. . Jacobs vond dat MMT reacties op orale oplossingen niet consistent waren met AK theoretische verwachtingen in een dubbelblind experiment.

Triano voerde twee dubbelblinde experimenten uit (met behulp van cross-over gerandomiseerde proefopzet) om het AK construct te evalueren dat een zwakke Latissimus dorsi geassocieerd is met de behoefte aan pancreatische voedingssuppletie. De twee theoretische constructen die werden onderzocht waren dat een sublinguale of cutane uitdaging met pancreasweefselextract de latissimus dorsi MMT kan herstellen tot normaal. De controleproeven bestonden uit hart-, thymus- en teelbal-extracten, waarvan door AK-artsen was vastgesteld dat het onwaarschijnlijk was dat ze de MMT zouden beïnvloeden. Er waren geen verschillen in het aantal positieve testen na de uitdaging tussen de verschillende extracten, wat erop wijst dat er geen verband is tussen de uitdaging met een pancreas-extract en de kracht van de Latissimus dorsi. Triano suggereerde dat toekomstig klinisch AK onderzoek geïnformeerd zou moeten worden door constructen ontwikkeld uit basiswetenschappelijke studies naar AK mechanismen.

Haas e.a. voerden een dubbelblind gerandomiseerd onderzoek uit, op een mix van deelnemers met en zonder rugpijn, om de relatie te evalueren van MMT respons op een provocatieve werveltest en op spinale manipulatie. Zij onderzochten de AK-constructie dat MMT met spinale uitdaging kan worden gebruikt om de respons op spinale manipulatie te controleren. De eerste fase van de studie was een cross-over design om MMT respons van de piriformis op een wervel challenge en een sham challenge te vergelijken. De tweede fase van de studie was een parallel-groeps design om de MMT respons op een werveluitdaging te vergelijken bij deelnemers die wel of geen manipulatie van de wervelkolom kregen. Interessant was dat de positieve test percentages consistent waren vóór de behandeling over de wervel segmenten (gemiddeld = 5.6%), en na de interventie voor zowel de behandeling als de controle groepen na manipulatie op wervel niveaus met pretest positieve en met pretest negatieve MMT (8% tot 10%). De auteurs concludeerden: “Voor de onderzochte populatie bleek de spierrespons een willekeurig fenomeen te zijn dat geen verband hield met manipuleerbare subluxatie. Op zichzelf lijken spiertesten van twijfelachtig nut te zijn voor spinale screening en post-adjustieve evaluatie.”

Er is een terugkerend thema in deze trials. Blinded MMT laat uniforme positieve testpercentages zien, ongeacht de aan- of afwezigheid van of het type provocatieve test (b.v. spinale challenge). We kunnen de hypothese stellen dat er een inherent positief testpercentage is verbonden aan bepaalde spieren. Misschien is dit percentage afhankelijk van de gezondheidstoestand van de patiënt. Interessant is dat, aangezien deze positieve testpercentages vrij klein zijn, elke vervolgtest, met of zonder provocatieve test, een hoge waarschijnlijkheid heeft om negatief te zijn. Daarom zullen clinici onvermijdelijk denken dat zij een door de oorspronkelijke test vastgestelde aandoening met succes hebben behandeld, ondanks het feit dat de resultaten van de vervolgtest onafhankelijk van de interventie kunnen zijn. Dat wil zeggen, de clinicus zou voor de gek gehouden kunnen worden door een statistisch willekeurig fenomeen geassocieerd met een waardeloze test, een test met resultaten die geen verband houden met de provocatieve procedure en ongevoelig zijn voor spinale manipulatie.

Criteriumvaliditeit

Cuthbert en Goodheart stelden de criteriumvaliditeit niet vast voor een MMT die vermoedelijk geassocieerd is met een aandoening (neuromusculoskeletaal of anderszins) die geen verband houdt met een neuromusculoskeletale aandoening van dezelfde spier. Zij presenteerden dus geen bewijs voor de criteriumvaliditeit voor een AK challenge of therapie lokalisatietest.

De auteurs citeren wel een studie van een therapie lokalisatietest door Pollard et al, die gebruik maakten van het handcontact van de patiënt op het “ileocecal valve point” in combinatie met een deltoid MMT om patiënten met lage rugpijn te identificeren (gouden standaard) . De studie toonde een hoge sensitiviteit en specificiteit van de test aan. De unieke effecten geassocieerd met lokalisatie van de therapie en met MMT van verschillende populaties die gebruik maken van de deltaspier werden echter door elkaar gehaald en de effecten van geen van beide componenten werden geëvalueerd. De waargenomen validiteit zou bijvoorbeeld te wijten kunnen zijn aan verschillende positieve basistestcijfers bij personen met en zonder lage rugpijn, en niets te maken kunnen hebben met de lokalisatietest voor de therapie. Het verschil in positieve testpercentages zou triviaal verband kunnen houden met afleiding of ongemak door de rugpijn zelf, zodat dezelfde resultaten hadden kunnen worden verkregen met om het even welke spier. Er werd niet gegarandeerd dat de deelnemers naïef waren ten aanzien van het doel van de studie. Deze kwesties zouden kunnen worden opgelost met behulp van gerandomiseerde proeven, zoals hierboven beschreven. Tenslotte zijn de hoge sensitiviteit en specificiteit in deze specifieke studie om twee redenen klinisch niet overtuigend. Het geeft geen indicatie voor een specifieke behandeling, en er is een perfect nauwkeurige, kosteneffectieve en gemakkelijk uit te voeren test beschikbaar: het verslag van de patiënt over lage rugpijn.

De auteurs hebben wel een vroege studie van Jacobs e.a. opgenomen, waarin werd gekeken naar de correlatie van een AK-testbatterij voor schildklierfunctie met onafhankelijke evaluatie aan de hand van klinische tekenen en symptomen en laboratoriumtests. Patiënten werden beoordeeld op een 7-punts schaal van onbetwistbare hypothyreoïdie tot onbetwistbare hyperthyreoïdie. Het protocol voor het bepalen van de schaalwaardering uit de batterij testresultaten werd niet beschreven. De correlatie tussen het AK-regime en andere testbatterijen was r = 0,32 tot 0,36, wat wijst op een bescheiden nauwkeurigheid. De resultaten zouden ook verklaard kunnen worden door het ontbreken van een definitieve gouden standaard of, misschien, de niet-gestandaardiseerde methoden van testinterpretatie.

Opvallend was Pothmann et al, die geen significant verband vonden van AK MMT met laboratoriumtesten voor het vaststellen van voedingsintolerantie bij kinderen: RAST (radioallergosorbent test) en Cytolisa (sensitiviteit 73,6%, specificiteit 45,2%) en lactose-ademwaterstoftest (sensitiviteit 77,1%, specificiteit 43,2%) . De slechte positieve likelihood ratio’s (1,34 en 1,36) en de slechte inter-examinator betrouwbaarheid suggereren dat de test niet beter presteert dan gissen.

Reviews en kritieken

De auteurs erkenden niet eerdere reviews en kritieken van AK. Teuber en Porch-Curren merken op dat verschillende studies AK weerleggen in de diagnose van voedselallergieën en zij concluderen: “Het gewicht van het bewijsmateriaal tot op heden suggereert dat deze diagnostische modaliteit niet gevalideerd is wanneer ze aan een kritisch onderzoek wordt onderworpen.” Tschernitschek en Fink onderzochten AK procedures, waaronder die welke in de tandheelkunde worden gebruikt. Zij concludeerden dat er een gebrek aan bewijs is voor de effectiviteit, betrouwbaarheid en validiteit van AK. Haas stelde vast dat de betrouwbaarheid van MMT vóór 1991 niet kon worden gestaafd wegens methodologische en statistische beperkingen van de gepubliceerde studies . Klinkoski en LeBoeuf bestudeerden wetenschappelijke artikelen gepubliceerd door het International College of Applied Kinesiology tussen 1981 en 1987. De auteurs concludeerden dat geen conclusies konden worden getrokken wegens onvoldoende methodologische kwaliteit op basis van een duidelijke identificatie van de steekproefgrootte, de inclusiecriteria, blinde en naïeve proefpersonen, betrouwbare testmethoden, blinde beoordelaars, en statistische analyse. Motyka en Yanuck vonden dat het AK-onderzoek niet eenduidig is, soms bevestigend over betrouwbaarheid en validiteit, andere keren niet bevestigend, en vaak gewoon irrelevant vanwege verschillende fouten in de opzet.

Diagnostiek van preklinische en subklinische ziekte

AK-voorstanders beweren preklinische en subklinische aandoeningen te kunnen diagnosticeren. Om de geldigheid van MMT voor dergelijke aandoeningen aan te tonen zou een vergelijking met een standaard met een sterke voorspellende waarde van ziekte nodig zijn, of zou aangetoond moeten worden dat profylactische zorg op basis van AK MMT resultaten de ontwikkeling van ziekte voorkomt of vermindert ten opzichte van een onbehandelde controlegroep. Wij konden geen dergelijke studies vinden.