Desenredando la prueba muscular manual y la kinesiología aplicada: crítica y reinterpretación de una revisión de la literatura | Quiropráctica y Terapias Manuales

Elementos de evaluación

La validez de esta revisión de la TMM depende inevitablemente de la calidad del proceso de revisión. No parece haber sido la intención de los autores llevar a cabo una revisión sistemática completa de la literatura, y no les exigimos ese estándar. Sin embargo, los elementos de diseño de una buena revisión sistemática de las pruebas diagnósticas, así como la valoración crítica de la literatura sobre la evaluación de las mediciones, son pertinentes para el debate que nos ocupa. Incluso la revisión narrativa más tradicional comparte muchos de estos elementos . Hemos recopilado las preguntas que deben tenerse en cuenta para realizar una inferencia válida sobre la utilidad de los procedimientos diagnósticos de AK (Tabla 1); estas preguntas se basan en la metodología de investigación y síntesis de las citas anteriores. Las respuestas a estas pocas preguntas plantean un serio desafío a la conclusión de los autores sobre la utilidad de la AK.

Tabla 1 Preguntas de valoración crítica de la Kinesiología Aplicada (AK)

Enredo de la AK

La AK tiene una larga y rica historia en la quiropráctica . Muchos quiroprácticos reportan el uso de la técnica en alguna forma . Claramente, la AK es vista por sus defensores como algo más que la prueba muscular ortopédica/neurológica estándar. La TMM, tal y como la realizan los quiroprácticos, no difiere necesariamente en su ejecución e interpretación de la prueba muscular manual tal y como la realizan e interpretan los estándares aplicados en medicina física. Para cualquiera de los dos profesionales, un músculo débil puede sugerir una patología muscular o neurológica primaria. Sin embargo, la técnica AK utiliza la prueba muscular manual no sólo para evaluar la integridad funcional del músculo y el suministro de nervios, sino también como medio para «diagnosticar disfunciones estructurales, químicas y mentales». Algunos de sus procedimientos diagnósticos distintivos incluyen el uso de pruebas de provocación (es decir, la provocación de la AK y la localización de la terapia) junto con la TMM para identificar la necesidad de tratamiento de las condiciones neuromusculoesqueléticas, orgánicas y metabólicas . La debilidad muscular también se considera un diagnóstico de enfermedad orgánica pre/subclínica, no neuromusculoesquelética.

La MMT es un componente estándar de la exploración física neuromusculoesquelética . Estamos de acuerdo con los autores en que la MMT es útil en la evaluación de la debilidad de los músculos directamente involucrados con el dolor, las lesiones y los trastornos neuromusculoesqueléticos. Sin embargo, la extrapolación de las propiedades de la MMT a aplicaciones únicas de la AK es arriesgada por varias razones. La fiabilidad/validez de la MMT para condiciones neuromusculoesqueléticas específicas puede no ser generalizable a otras aplicaciones como la identificación de trastornos orgánicos. La MMT puede ser fiable/precisa para la evaluación de la fuerza muscular de forma aislada, pero no cuando se utiliza junto con un desafío espinal (fuerza aplicada a una articulación vertebral) u otra prueba de provocación utilizada para el diagnóstico específico de la AK. Los autores también confunden dos usos del término validez: la precisión de la prueba y la validez diagnóstica. Una prueba puede ser extremadamente precisa, digamos por ejemplo la evaluación dinamométrica de la fuerza muscular en newtons, pero seguir sin tener sensibilidad o especificidad para el diagnóstico de una afección específica . Cuthbert y Goodheart confundieron la evidencia de la AK con la evidencia de la fiabilidad/validez de la MMT ortopédica estándar. La fiabilidad y exactitud de la TMM no establece la utilidad de la TMM para sus aplicaciones exclusivas de la QA.

Estrategia de búsqueda y criterios de inclusión

La revisión de Cuthbert y Goodheart ilustra cómo el hecho de no utilizar una estrategia de búsqueda meticulosa puede pasar por alto citas críticas y afectar a los resultados de la revisión. Los autores realizaron una búsqueda en línea en PubMed y CINAHL, utilizando los términos de búsqueda «manual muscle test» y «manual muscle testing». No se proporcionaron más detalles, por lo que la búsqueda no puede duplicarse exactamente. Hay varios problemas relacionados con el alcance de la búsqueda que pueden haber llevado a la omisión de artículos relevantes. En nuestra búsqueda en PubMed, la adición del término de búsqueda «muscle testing» aumentó el número de artículos encontrados de 639 a 13.802. También se realizó una búsqueda en MEDLINE y CINAHL. La inclusión del término adicional «muscle testing» aumentó el número de resultados de 454 a 709, y el número de artículos específicamente relacionados con la fiabilidad/validez de 97 a 136. El segundo problema es que Cuthbert y Goodheart no buscaron en la base de datos de quiropráctica, MANTIS. La inclusión de una búsqueda en esta base de datos aumentó el número de artículos sobre pruebas musculares de 709 a 1297 y los artículos relacionados con la fiabilidad/validez de 136 a 221. También se realizó una búsqueda utilizando la estrategia booleana Kinesiología Aplicada Y (fiabilidad O validez). La inclusión de MANTIS aumentó nuestro rendimiento de 15 a 32 artículos. También es posible que los autores no hayan utilizado otra estrategia de búsqueda importante, a saber, la comprobación de las referencias de los artículos para identificar otros estudios pertinentes.

Los autores afirmaron que seleccionaron los estudios en función de su relevancia, pero no incluyeron una definición operativa. Parece que cualquier artículo de MMT sobre un trastorno relacionado con el dolor se consideró pertinente. No está claro cómo se utilizaron «fiabilidad/validez» y «MMT» en el proceso de selección. Seguramente se omitieron los estudios negativos. Si los autores hubiesen utilizado el término de búsqueda «muscle testing» y hubiesen incluido la base de datos MANTIS, no habrían dejado de identificar ensayos aleatorios diseñados específicamente para evaluar la contribución de un procedimiento de desafío AK a los resultados de la TMM . En cualquier caso, los autores deberían haber sido conscientes del estudio de 1982 de Triano que se llevó a cabo con la ayuda del International College of Applied Kinesiology y que fue criticado por Goodheart en una carta al editor.

Un criterio de selección introdujo un sesgo claro y significativo en la revisión. Sólo se incluyeron estudios si se informaba de un kappa ≥ 0,5 para la evaluación de la fiabilidad o la validez (aunque el kappa no es generalmente un índice de validez). Es evidente que este criterio de inclusión no se aplicó de manera uniforme, ya que muchos de los estudios incluidos no abordaron la fiabilidad y, por tanto, no informaron de un valor kappa. Y lo que es más importante, el uso de este criterio se basó en un malentendido de Swinkles et al . Estos autores utilizaron el criterio para establecer normas para determinar si ciertos instrumentos tenían una buena validez de constructo; no utilizaron un umbral de kappa ≥ 0,5 para identificar la elegibilidad para su revisión sistemática. El resultado de utilizar este criterio de selección de kappa por parte de Cuthbert y Goodheart fue la exclusión de todos los estudios excepto los que tenían una fiabilidad/validez de moderada a excelente. El criterio de inclusión sesgado estableció claramente una tautología que predeterminaba una conclusión positiva sobre la utilidad de la TMM.

Evaluación de la calidad y síntesis de la evidencia

La evaluación de la calidad de los estudios es un aspecto importante de las revisiones bibliográficas , y ciertamente hay muchos métodos para hacerlo . Cuthbert y Goodheart escriben en la sección de métodos que se realizó una evaluación de la calidad. No es hasta el final del artículo que los autores reconocen que la validez interna y externa no han sido evaluadas críticamente. Los autores no disponían de ningún criterio formal o algoritmo para sintetizar la literatura y llegar a una conclusión sobre el TMM en general y el AK en particular. Sin una evaluación de la calidad, es inevitable que los estudios de gran mérito no tengan más peso que los estudios con graves defectos de diseño y conclusiones sin fundamento. En particular, no es aconsejable tomar al pie de la letra las conclusiones de los autores de los artículos incluidos. Se producen interpretaciones erróneas. Algunos ejemplos en la literatura quiropráctica de conclusiones inconsistentes con el diseño del estudio y los resultados se identifican en varias revisiones.

Evidencia de investigaciones de tratamiento

Cuthbert y Goodheart intentan inferir la relevancia clínica para el diagnóstico del TMM a partir de estudios con resultados positivos de tratamiento. Un ejemplo citado por los autores en su Tabla 4 es un estudio observacional de Moncayo et al . La lógica implícita es que si un procedimiento de AK se utiliza para identificar la necesidad de tratamiento y los pacientes tienen resultados positivos, entonces hay pruebas de que el procedimiento de AK es una herramienta de diagnóstico valiosa. El fallo de esta línea de razonamiento es que los pacientes pueden mejorar a pesar de los procedimientos diagnósticos utilizados. De hecho, esto se ha demostrado en un ensayo aleatorio que evaluó la eficacia de un procedimiento de diagnóstico quiropráctico comúnmente utilizado. Un tratamiento eficaz (por ejemplo, la manipulación espinal) no requiere una prueba diagnóstica válida o eficaz como indicador del tratamiento.

Evidencia de ensayos aleatorios

Los autores señalan varias veces en el texto que la TMM ha sido investigada en ensayos aleatorios. Esta afirmación requiere algunas aclaraciones. En todos los ensayos aleatorios citados, los pacientes fueron asignados al azar al tratamiento o al control del tratamiento, y no a la prueba diagnóstica o al control de la prueba diagnóstica. Esto significa que se investigó la eficacia del tratamiento, y no la eficacia del MMT. Sin embargo, los autores inflaron la importancia de la evaluación de la fiabilidad y la validez de la MMT invocando el prestigio del ensayo aleatorio; los estudios transversales/longitudinales no aleatorios tienen el mismo peso para la evaluación de las pruebas diagnósticas y pronósticas.

La eficacia (contribución a los resultados de los pacientes) de las pruebas diagnósticas y los indicadores de manipulación pueden y deben evaluarse en ensayos aleatorios ciegos . Por lo tanto, estamos de acuerdo con la afirmación de los autores de que son necesarios más ensayos aleatorios para validar las aplicaciones de AK de la TMM. Sin embargo, los ensayos aleatorios sobre la eficacia del tratamiento no validarán los diagnósticos de AK como sostienen los autores.

Los ensayos aleatorios ciegos pueden utilizarse no sólo para evaluar la eficacia de las pruebas, sino también para investigar la validez de constructo y la contribución de las pruebas de provocación (por ejemplo, la provocación articular) a los hallazgos del MMT. Varios ensayos de validez de constructo de las pruebas utilizadas en la QA se analizan en el apartado de validez de constructo más adelante.

Fiabilidad

La confiabilidad suele considerarse una condición necesaria pero insuficiente para establecer la utilidad de una prueba diagnóstica . Es decir, una fiabilidad pobre generalmente descarta la utilidad de una prueba (al menos en el contexto de cómo se mide ), pero una buena fiabilidad no asegura la utilidad. Como se ha mencionado anteriormente, no discutimos la fiabilidad de la TMM ortopédica/neurológica, y sólo estamos interesados en la fiabilidad de las aplicaciones distintivas de la AK de la TMM. En la revisión se omitieron varios estudios doble ciego de este tipo.

Jacobs mostró una buena fiabilidad en una prueba no ciega de soluciones de azúcar, pero sólo una fiabilidad justa en una prueba doble ciega de la respuesta del MMT a soluciones de aceite administradas por vía oral . Haas et al. encontraron una escasa fiabilidad entre examinadores de la MMT de un desafío vertebral (cambio de «fuerza» muscular tras la presión direccional sobre la apófisis espinosa vertebral) . Dos pequeños estudios a doble ciego analizaron la respuesta de la MMT a sustancias embotelladas sostenidas en la mano del paciente. Ludtke et al. descubrieron que la respuesta no era mejor que la adivinación tanto para el veneno de avispa como para la sustancia inerte, Garrow no demostró la reproducibilidad de la MMT para identificar posibles alérgenos. Pothmann et al. encontraron una buena fiabilidad intraexaminador, pero pobre interexaminador (kappa = 0) para las pruebas musculares utilizadas para identificar la intolerancia a los alimentos en los niños. Obsérvese que sólo vimos el resumen en inglés traducido del alemán.

A continuación se describen otros estudios de fiabilidad no incluidos en la revisión. Estos estaban mal diseñados o tenían resultados negativos.

Peterson encontró una fiabilidad pobre en un estudio de excitación emocional; la fiabilidad mejoró drásticamente cuando se tuvieron en cuenta las variables de confusión . Sin embargo, este estudio estaba mal diseñado en el sentido de que los factores de confusión negativos fueron identificados y eliminados post hoc utilizando entrevistas semiestructuradas, mientras que los factores de confusión positivos no se buscaron. En Kenney et al, 11 sujetos fueron examinados por 3 examinadores musculares entrenados para determinar la necesidad de suplementación con 4 nutrientes diferentes (zinc, vitamina C, tiamina y vitamina A) . Los examinadores no coincidieron entre sí, ni ninguno de sus resultados individuales se correlacionó con las pruebas de laboratorio, ni hubo ninguna correlación de las medidas manuales y mecánicas de la fuerza muscular (escasa fiabilidad y validez).

Rybeck y Swenson encontraron que las pruebas musculares manuales (con el dorsal ancho), pero no las mecánicas, eran capaces de discriminar entre el azúcar y la ausencia de azúcar colocada bajo la lengua . Cabe señalar que los sujetos no estaban cegados. Aunque Friedman y Weisberg intentaron probar ciertos procedimientos de AK, su estudio se limitó a enumerar los datos y careció de cualquier análisis estadístico, lo que dificulta su interpretación.

Validez de constructo

Leboeuf et al investigaron el llamado test de la fosa del brazo, un método de prueba muscular manual utilizado en la Técnica Sacro-Occipital (SOT) . Evaluaron el constructo de la SOT según el cual la prueba de brazo-fosa (prueba muscular de estilo AK con prueba de provocación asociada) responde al tratamiento de bloqueo prescrito adecuadamente, pero no responde (no cambia) tras un tratamiento inadecuado o sin tratamiento (N = 45). La prueba volvió a ser normal en el seguimiento en el 73%, 37,5% y 14% de los participantes, respectivamente. Los resultados fueron mixtos en este estudio ciego al evaluador. En apoyo del constructo, los sujetos tratados correctamente tenían más probabilidades de tener un seguimiento normal que los no tratados. Contrariamente a la predicción, las pruebas post hoc no mostraron diferencias entre los grupos tratados correctamente y los no tratados, o entre los grupos no tratados (P > .025). Sólo el grupo tratado correctamente demostró unos resultados de las pruebas de seguimiento diferentes a una mera suposición. Debe señalarse que la evidencia no es sólida, debido al pequeño tamaño de la muestra y a los sujetos no cegados.

Una importante evidencia negativa no fue incluida en la revisión: el trabajo de Jacobs et al, Triano, y Haas et al . Jacobs encontró que las respuestas del MMT a las soluciones orales no eran consistentes con las expectativas teóricas del AK en un experimento doble ciego.

Triano realizó dos experimentos doble ciego (utilizando un diseño de ensayo aleatorio cruzado) para evaluar el constructo del AK de que un dorsal ancho débil está asociado con la necesidad de suplementación nutricional pancreática . Más concretamente, los dos constructos teóricos investigados fueron que una provocación sublingual o cutánea con extracto de tejido pancreático puede restaurar la MMT del dorsal ancho a la normalidad. Los desafíos de control fueron extractos cardíacos, tímicos y testiculares que fueron identificados por los profesionales de la AK como poco probables de afectar a la MMT. No hubo diferencias en las tasas de pruebas positivas posteriores a la provocación entre los extractos, lo que indica que no hay relación entre la provocación del extracto pancreático y la fuerza del dorsal ancho. Triano sugirió que la futura investigación clínica de la QA debería basarse en los constructos desarrollados a partir de los estudios de ciencia básica sobre los mecanismos de la QA.

Haas et al. realizaron un ensayo aleatorio a doble ciego, con una mezcla de participantes con y sin dolor de espalda, para evaluar la relación de la respuesta de la MMT a una provocación vertebral y a la manipulación espinal. Investigaron el constructo AK de que la MMT con desafío vertebral puede utilizarse para monitorizar la respuesta a la manipulación vertebral. La primera fase del estudio consistió en un diseño cruzado para comparar la respuesta de la MMT del piriforme a una provocación vertebral y a una provocación simulada. La segunda fase del estudio fue un diseño de grupos paralelos para comparar la respuesta de la MMT a la provocación vertebral en los participantes que recibían manipulación o no recibían manipulación de la columna. Curiosamente, las tasas de pruebas positivas fueron consistentes antes del tratamiento en todos los segmentos vertebrales (media = 5,6%), y después de la intervención, tanto para los grupos de tratamiento como de control, tras la manipulación en los niveles vertebrales con MMT positiva antes de la prueba y con MMT negativa antes de la prueba (8% a 10%). Los autores concluyeron: «Para la población estudiada, la respuesta muscular parecía ser un fenómeno aleatorio no relacionado con la subluxación manipulable. En sí misma, la prueba muscular parece tener un uso cuestionable para el cribado de la columna vertebral y la evaluación posterior a la manipulación.»

Hay un tema recurrente en estos ensayos. La MMT ciega demuestra tasas de pruebas positivas uniformes, independientemente de la presencia/ausencia o del tipo de prueba de provocación (por ejemplo, desafío espinal). Podemos plantear la hipótesis de que puede haber una tasa de pruebas positivas inherente asociada a determinados músculos. Tal vez esta tasa dependa del estado de salud del paciente. Curiosamente, dado que estas tasas de pruebas positivas son bastante pequeñas, cualquier prueba de seguimiento, con o sin prueba de provocación, tiene una alta probabilidad de ser negativa. Por lo tanto, los clínicos pensarán inevitablemente que han tratado con éxito una condición identificada por la prueba original, a pesar de que los resultados de la prueba de seguimiento pueden ser independientes de la intervención. Es decir, el clínico podría ser engañado por un fenómeno estadísticamente aleatorio asociado a una prueba sin valor, una prueba con resultados no relacionados con el procedimiento de provocación e insensibles a la manipulación espinal.

Validez de criterio

Cuthbert y Goodheart no establecieron la validez de criterio para ninguna MMT putativamente asociada a una condición (neuromusculoesquelética o de otro tipo) no relacionada con una condición neuromusculoesquelética del mismo músculo. Por lo tanto, no presentaron pruebas de la validez de criterio para ninguna prueba de provocación de la AK o de localización de la terapia.

Los autores sí citan un estudio de una prueba de localización de la terapia realizado por Pollard et al, que utilizó el contacto de la mano del paciente en el «punto de la válvula ileocecal» junto con una MMT del deltoides para identificar a los pacientes con dolor lumbar (estándar de oro) . El estudio mostró una alta sensibilidad y especificidad de la prueba. Sin embargo, los efectos únicos asociados a la localización de la terapia y a la MMT de diferentes poblaciones utilizando el músculo deltoides se confundieron y no se evaluaron los efectos de ninguno de los dos componentes. Por ejemplo, la validez observada podría haberse debido a las diferentes tasas de pruebas positivas de base en personas con y sin dolor lumbar, y no tener nada que ver con la prueba de localización de la terapia. La diferente tasa de pruebas positivas podría estar relacionada trivialmente con la distracción o el malestar del propio dolor de espalda, de modo que se podrían haber obtenido los mismos resultados con cualquier músculo. No se garantizaba que los participantes fueran ingenuos con respecto al propósito del estudio. Estas cuestiones podrían solucionarse mediante ensayos aleatorios, como se ha descrito anteriormente. Por último, la alta sensibilidad y especificidad de este estudio en particular no son clínicamente convincentes por dos razones. No indica ningún tratamiento específico, y existe una prueba perfectamente precisa, rentable y fácil de realizar: el informe del paciente sobre el dolor lumbar.

Los autores sí incluyeron un estudio temprano de Jacobs et al que analizó la correlación de una batería de pruebas de AK para la función tiroidea con la evaluación independiente mediante signos y síntomas clínicos y pruebas de laboratorio . Los pacientes fueron calificados en una escala de 7 puntos desde hipotiroidismo incuestionable hasta hipertiroidismo incuestionable. No se describió el protocolo para determinar las calificaciones de la escala a partir de la batería de resultados de las pruebas. La correlación entre el régimen AK y otras baterías de pruebas fue de r = 0,32 a 0,36, lo que indica una precisión modesta. Los resultados también podrían explicarse por la falta de un patrón de oro definitivo o, tal vez, por los métodos no estandarizados de interpretación de las pruebas.

Lo que faltaba era Pothmann et al, que no encontraron una relación significativa de la AK MMT con las pruebas de laboratorio para identificar la intolerancia nutricional en los niños: RAST (prueba de radioalergosorbente) y Citolisa (sensibilidad 73,6%, especificidad 45,2%) y prueba de hidrógeno en aliento de lactosa (sensibilidad 77,1%, especificidad 43,2%) . Los pobres cocientes de probabilidad positiva (1,34 y 1,36) y la escasa fiabilidad entre examinadores sugieren que la prueba no rinde más que las conjeturas.

Revisiones y críticas

Los autores no reconocieron las revisiones y críticas anteriores de AK. Teuber y Porch-Curren señalan que varios estudios refutan la AK en el diagnóstico de las alergias alimentarias y concluyen: «El peso de la evidencia hasta la fecha sugiere que esta modalidad diagnóstica no está validada cuando se somete a escrutinio .» Tschernitschek y Fink revisaron los procedimientos de AK, incluidos los utilizados en odontología. Llegaron a la conclusión de que existe una falta de pruebas sobre la eficacia, la fiabilidad y la validez de la AK . Haas descubrió que la fiabilidad de la TMM no podía demostrarse antes de 1991 debido a las limitaciones metodológicas y estadísticas de los estudios publicados. Klinkoski y LeBoeuf revisaron los artículos científicos publicados por el International College of Applied Kinesiology entre 1981 y 1987 . Los autores concluyeron que no se podían extraer conclusiones debido a la inadecuada calidad metodológica basada en la identificación clara del tamaño de la muestra, los criterios de inclusión, los sujetos ciegos e ingenuos, los métodos de prueba fiables, los evaluadores ciegos y el análisis estadístico. Motyka y Yanuck descubrieron que el conjunto de investigaciones sobre AK es equívoco, a veces confirma la fiabilidad y la validez, otras veces no la confirma, y a menudo es simplemente irrelevante debido a diversos defectos de diseño.

Diagnóstico de enfermedades preclínicas y subclínicas

Los defensores de la AK afirman poder diagnosticar condiciones preclínicas y subclínicas . La demostración de la validez de la TMM para tales condiciones requeriría una comparación con un estándar con fuerte validez predictiva de la enfermedad, o la demostración de que la atención profiláctica basada en los resultados de la TMM de AK previene o disminuye el desarrollo de la enfermedad en relación con un grupo de control no tratado. No hemos podido encontrar ningún estudio de este tipo.