Guide d'Aide à la Décision pour les Analyses Statistiques en Recherche Clinique

Un outil pour guider les professionnels de santé dans le choix des analyses statistiques adaptées à leurs études cliniques en MPR.

Introduction à l'Analyse Statistique en Recherche Clinique

Cet outil est conçu pour vous aider à choisir les analyses statistiques appropriées pour vos études de recherche clinique en Médecine Physique et de Réadaptation (MPR).

Objectifs de cet outil

  • Guider le choix des analyses statistiques adaptées à vos questions de recherche
  • Démystifier la recherche clinique pour les professionnels de santé
  • Former les professionnels à la méthodologie de recherche
  • Faciliter l'exploitation des bases de données pour l'évaluation des pratiques professionnelles
  • Encourager la mise en place de projets de recherche observationnelle et rétrospective

Comment utiliser cet outil

Pour vous aider à choisir l'analyse statistique appropriée, vous pouvez :

  1. Utiliser l'Assistant de Choix qui vous guidera pas à pas à travers une série de questions
  2. Explorer directement les différentes catégories d'analyses statistiques dans les onglets correspondants
  3. Consulter la section Ressources pour approfondir vos connaissances

Rappel : Cet outil est un guide et ne remplace pas la consultation d'un statisticien pour les analyses complexes ou les projets de grande envergure.

Concepts fondamentaux

Types de variables

  • Variables qualitatives (catégorielles) :
    • Nominales : catégories sans ordre naturel (ex. sexe, groupe sanguin)
    • Ordinales : catégories avec un ordre naturel (ex. échelle de Likert, stade de maladie)
  • Variables quantitatives (numériques) :
    • Discrètes : valeurs entières, dénombrables (ex. nombre de pas, nombre de rechutes)
    • Continues : valeurs sur un continuum (ex. poids, taille, pression artérielle)

Variables indépendantes et dépendantes

  • Variables indépendantes (VI) : facteurs manipulés ou mesurés que l'on suppose influencer d'autres variables (ex. traitement, âge)
  • Variables dépendantes (VD) : variables que l'on mesure pour observer l'effet des VI (ex. douleur, amplitude articulaire)

Normalité et hypothèses

La plupart des tests paramétriques reposent sur des hypothèses de normalité, d'homogénéité des variances et d'indépendance des observations. Vérifiez toujours ces hypothèses avant de choisir un test.

Assistant de Choix d'Analyse Statistique

Répondez aux questions ci-dessous pour déterminer l'analyse statistique appropriée à votre étude.

Statistiques Descriptives

Les statistiques descriptives permettent de résumer et présenter les caractéristiques principales d'un ensemble de données.

Pour les variables qualitatives (catégorielles)

  • Fréquences absolues : nombre d'observations dans chaque catégorie
  • Fréquences relatives : pourcentage d'observations dans chaque catégorie
  • Représentations graphiques : diagrammes en barres, diagrammes circulaires

Exemple en MPR : Distribution des étiologies de traumatismes médullaires dans une cohorte (traumatique vs. non traumatique) ; répartition des niveaux lésionnels.

Comment procéder

  1. Identifiez toutes les catégories possibles
  2. Comptez le nombre d'observations dans chaque catégorie
  3. Calculez les pourcentages pour chaque catégorie
  4. Présentez les résultats sous forme de tableau et/ou de graphique

Pour les variables quantitatives (numériques)

Mesures de tendance centrale

  • Moyenne : somme des valeurs divisée par le nombre d'observations
  • Médiane : valeur qui sépare l'échantillon en deux parties égales
  • Mode : valeur la plus fréquente

Mesures de dispersion

  • Écart-type : mesure de la dispersion des valeurs autour de la moyenne
  • Variance : carré de l'écart-type
  • Étendue : différence entre la valeur maximale et minimale
  • Quartiles et intervalle interquartile (IQR) : Q1 (25%), Q2 (médiane, 50%), Q3 (75%)

Représentations graphiques

  • Histogramme : distribution des fréquences
  • Boîte à moustaches : visualisation des quartiles et des valeurs extrêmes
  • Graphique de densité : estimation de la densité de probabilité

Exemple en MPR : Scores fonctionnels (MIF, Barthel) avant et après rééducation ; évolution des amplitudes articulaires au cours du temps.

Comment choisir entre moyenne/écart-type et médiane/IQR

  • Utilisez la moyenne et l'écart-type pour les distributions approximativement normales
  • Privilégiez la médiane et l'IQR pour les distributions asymétriques ou en présence de valeurs extrêmes

Tests de normalité

Ces tests permettent de vérifier si une distribution suit approximativement une loi normale, ce qui est une hypothèse importante pour de nombreux tests statistiques.

  • Test de Shapiro-Wilk : recommandé pour les petits échantillons (n < 50)
  • Test de Kolmogorov-Smirnov : souvent utilisé pour les grands échantillons
  • Test d'Anderson-Darling : plus sensible aux écarts dans les queues de distribution
  • QQ-plot : méthode graphique permettant de comparer la distribution observée à une distribution normale théorique

Un p > 0,05 dans ces tests indique généralement que l'on ne peut pas rejeter l'hypothèse de normalité.

Corrélations

Les analyses de corrélation permettent d'examiner s'il existe une relation entre deux variables et de quantifier la force de cette relation.

Coefficient de corrélation de Pearson (r)

Mesure la force et la direction d'une relation linéaire entre deux variables quantitatives avec distribution normale.

r = Σ[(Xi - X̄)(Yi - Ȳ)] / √[Σ(Xi - X̄)² × Σ(Yi - Ȳ)²]

Interprétation

  • r varie entre -1 et +1
  • r = 0 : absence de corrélation linéaire
  • r = 1 : corrélation positive parfaite
  • r = -1 : corrélation négative parfaite
  • Force de la corrélation:
    • 0 < |r| < 0,3 : corrélation faible
    • 0,3 ≤ |r| < 0,5 : corrélation modérée
    • 0,5 ≤ |r| < 0,7 : corrélation notable
    • 0,7 ≤ |r| < 0,9 : corrélation forte
    • 0,9 ≤ |r| ≤ 1 : corrélation très forte

Exemple en MPR : Corrélation entre la force musculaire et la vitesse de marche chez des patients hémiparétiques.

Hypothèses

  • Les deux variables sont quantitatives
  • Les distributions sont approximativement normales
  • La relation entre les variables est linéaire
  • Absence de valeurs aberrantes significatives

Coefficient de corrélation de Spearman (ρ ou rs)

Mesure la force et la direction d'une relation monotone (pas nécessairement linéaire) entre deux variables. Basé sur les rangs des observations.

Quand l'utiliser

  • Au moins une des variables est ordinale
  • Les distributions ne sont pas normales
  • La relation n'est pas linéaire mais monotone
  • Présence de valeurs aberrantes

Interprétation

Similaire à celle du coefficient de Pearson, mais basée sur une relation monotone plutôt que linéaire.

Exemple en MPR : Corrélation entre le score de douleur (EVA) et le niveau de satisfaction des patients après une séance de rééducation.

Coefficient de corrélation partielle

Mesure la relation entre deux variables en contrôlant l'effet d'une ou plusieurs autres variables.

Quand l'utiliser

  • Lorsque vous soupçonnez qu'une troisième variable influence la relation entre deux variables d'intérêt
  • Pour éliminer l'effet confondant d'autres variables

Exemple en MPR : Corrélation entre l'amélioration fonctionnelle et la durée de rééducation, en contrôlant l'effet de l'âge.

Analyse de corrélation canonique

Permet d'étudier les relations entre deux ensembles de variables (plusieurs VI et plusieurs VD).

Applications

  • Étudier les relations entre plusieurs mesures cliniques et plusieurs paramètres biologiques
  • Analyser les relations entre différents domaines d'évaluation (ex. physique, cognitif, psychologique)

Exemple en MPR : Étudier les relations entre un ensemble de mesures physiques (force, amplitude articulaire, équilibre) et un ensemble de mesures fonctionnelles (vitesse de marche, autonomie dans les AVQ, indépendance).

Tests de Comparaison

Ces tests permettent de comparer des groupes et de déterminer si les différences observées sont statistiquement significatives.

Comparaison de deux groupes indépendants

Pour variables quantitatives

  • Test t de Student : compare les moyennes de deux groupes indépendants
    • Hypothèses : distribution normale, homogénéité des variances
    • Alternative non paramétrique : test de Mann-Whitney (U)
t = (x̄1 - x̄2) / √[(s1²/n1) + (s2²/n2)]

Exemple en MPR : Comparer les scores de douleur entre un groupe ayant reçu une nouvelle thérapie et un groupe contrôle.

Pour variables qualitatives

  • Test du Chi² (χ²) : compare les fréquences observées aux fréquences attendues
    • Alternative pour petits échantillons : test exact de Fisher (lorsque n < 5 dans une cellule)
χ² = Σ [(Oi - Ei)² / Ei]

Exemple en MPR : Comparer les taux de récupération fonctionnelle complète entre deux types de prothèses différentes.

Comparaison de deux groupes appariés (mesures répétées)

Pour variables quantitatives

  • Test t apparié : compare les moyennes de deux mesures répétées sur les mêmes sujets
    • Hypothèses : distribution normale des différences
    • Alternative non paramétrique : test de Wilcoxon (signé-rang)
t = d̄ / (sd / √n)

Exemple en MPR : Comparer les scores fonctionnels avant et après un programme de rééducation.

Pour variables qualitatives

  • Test de McNemar : compare les proportions dans deux échantillons appariés (variables binaires)
    • Extension : test de Cochran Q pour plus de deux conditions

Exemple en MPR : Évaluer si la proportion de patients présentant une douleur neuropathique change après un traitement spécifique.

Tables de contingence

Utilisées pour analyser la relation entre deux variables catégorielles en organisant les données dans un tableau croisé.

Structure d'une table 2×2

Variable B (Présence) Variable B (Absence) Total
Variable A (Présence) a b a+b
Variable A (Absence) c d c+d
Total a+c b+d n

Mesures d'association

  • Risque relatif (RR) : ratio des probabilités d'un événement entre deux groupes
    RR = [a/(a+b)] / [c/(c+d)]
  • Odds Ratio (OR) : rapport des cotes entre deux groupes
    OR = (a/b) / (c/d) = ad/bc

Exemple en MPR : Étudier l'association entre un facteur de risque (ex. sédentarité) et un résultat clinique (ex. lombalgie chronique).

ANOVA et ses variantes

L'analyse de variance (ANOVA) permet de comparer les moyennes de plus de deux groupes.

ANOVA à un facteur (one-way)

Compare les moyennes de plusieurs groupes indépendants pour une variable dépendante quantitative.

Principes

  • Décompose la variabilité totale en variabilité inter-groupes et intra-groupes
  • Teste si la variabilité entre les groupes est significativement plus grande que celle à l'intérieur des groupes

Hypothèses

  • Distribution normale dans chaque groupe
  • Homogénéité des variances (test de Levene)
  • Indépendance des observations

Alternative non paramétrique

Test de Kruskal-Wallis : comparaison de rangs pour plusieurs groupes indépendants

Exemple en MPR : Comparer l'efficacité de trois types différents d'orthèses sur la marche.

Tests post-hoc

Si l'ANOVA est significative, des tests post-hoc sont nécessaires pour déterminer quels groupes diffèrent entre eux :

  • Test de Tukey : comparaisons multiples avec contrôle du taux d'erreur
  • Test de Bonferroni : ajustement conservateur pour les comparaisons multiples
  • Test de Scheffé : robuste pour des comparaisons complexes

ANOVA à mesures répétées

Utilisée lorsque les mêmes sujets sont mesurés à plusieurs reprises (facteur intra-sujet).

Principes

  • Contrôle la variabilité due aux différences individuelles
  • Plus puissante que l'ANOVA à un facteur pour détecter des effets

Hypothèse supplémentaire

  • Sphéricité : égalité des variances des différences entre toutes les paires de mesures (test de Mauchly)
  • Si non respectée : correction de Greenhouse-Geisser ou de Huynh-Feldt

Alternative non paramétrique

Test de Friedman : comparaison de rangs pour mesures répétées

Exemple en MPR : Évaluer l'évolution de la douleur chez des patients au cours de 4 temps de mesure (initial, 1 mois, 3 mois, 6 mois).

ANOVA factorielle (multifactorielle)

Analyse l'effet de deux ou plusieurs facteurs sur une variable dépendante, ainsi que leurs interactions.

Types courants

  • ANOVA à deux facteurs : deux variables indépendantes
    • Deux facteurs inter-sujets (ex. sexe et traitement)
    • Un facteur inter-sujets et un facteur intra-sujets (design mixte)

Avantages

  • Permet de détecter des effets d'interaction (l'effet d'un facteur dépend du niveau de l'autre facteur)
  • Plus efficace que plusieurs ANOVA à un facteur

Exemple en MPR : Évaluer l'effet du type de rééducation (conventionnelle vs. intensive) et de l'âge (jeune vs. âgé) sur la récupération fonctionnelle après AVC.

ANCOVA (Analyse de covariance)

Extension de l'ANOVA qui inclut une ou plusieurs covariables pour ajuster les moyennes des groupes.

Objectifs

  • Réduire la variance d'erreur en contrôlant des variables continues qui peuvent influencer la variable dépendante
  • Ajuster les comparaisons pour tenir compte des différences préexistantes entre les groupes

Hypothèses supplémentaires

  • Relation linéaire entre covariable(s) et variable dépendante
  • Homogénéité des pentes de régression entre les groupes

Exemple en MPR : Comparer l'effet de deux programmes de rééducation sur la marche en contrôlant l'âge et le niveau fonctionnel initial.

Analyses de Régression

Les méthodes de régression permettent de modéliser et prédire une variable à partir d'une ou plusieurs autres variables.

Régression linéaire simple

Modélise la relation linéaire entre une variable dépendante quantitative et une variable indépendante quantitative.

Y = β₀ + β₁X + ε

où β₀ est l'ordonnée à l'origine, β₁ est la pente et ε est le terme d'erreur.

Interprétation

  • Coefficient β₁ : changement moyen de Y pour une augmentation d'une unité de X
  • Coefficient de détermination (R²) : proportion de la variance de Y expliquée par X (varie de 0 à 1)

Hypothèses

  • Linéarité de la relation
  • Indépendance des observations
  • Homoscédasticité (variance constante des résidus)
  • Normalité des résidus

Exemple en MPR : Prédire la distance de marche en fonction de la force musculaire du quadriceps.

Régression linéaire multiple

Extension de la régression simple qui inclut plusieurs variables indépendantes pour prédire une variable dépendante quantitative.

Y = β₀ + β₁X₁ + β₂X₂ + ... + βₖXₖ + ε

Avantages

  • Prend en compte l'effet simultané de plusieurs prédicteurs
  • Permet de contrôler des variables confondantes
  • Souvent plus explicative qu'une régression simple

Considérations importantes

  • Multicolinéarité : corrélation élevée entre variables indépendantes (problème à éviter)
  • Sélection de variables : méthodes pas à pas (stepwise), backward, forward
  • R² ajusté : tient compte du nombre de prédicteurs (préférable au R² simple)

Exemple en MPR : Prédire le score fonctionnel post-rééducation à partir de l'âge, du score initial, de la durée de la rééducation et de la présence de comorbidités.

Régression logistique

Utilisée lorsque la variable dépendante est catégorielle (généralement binaire). Prédit la probabilité de l'événement.

log(p/(1-p)) = β₀ + β₁X₁ + β₂X₂ + ... + βₖXₖ

où p est la probabilité de l'événement et log(p/(1-p)) est le logit (log-odds).

Interprétation

  • Odds Ratio (OR) : exp(β). Représente le changement dans les odds de l'événement lorsque la variable indépendante augmente d'une unité
  • OR > 1 : facteur de risque
  • OR < 1 : facteur protecteur

Évaluation du modèle

  • Test de Hosmer-Lemeshow : évalue la qualité de l'ajustement
  • Courbe ROC et aire sous la courbe (AUC) : évalue la capacité discriminative du modèle

Exemple en MPR : Prédire la probabilité de retour à domicile (vs. institution) après un AVC en fonction de variables cliniques et sociodémographiques.

Autres types de régression

Régression polynomiale

Modélise des relations non linéaires en incluant des termes polynomiaux (X², X³, etc.)

Régression de Poisson

Utilisée pour les variables de comptage (nombre d'événements)

Régression de Cox

Analyse de survie, modélise le temps jusqu'à un événement

Modèles mixtes (modèles hiérarchiques)

Prend en compte la structure hiérarchique ou groupée des données (ex. patients nichés dans des hôpitaux)

Exemple en MPR : Modèle mixte pour analyser l'évolution de la douleur chez des patients suivis au cours du temps, en tenant compte de la variabilité inter-individuelle.

Tests Non-Paramétriques

Ces tests sont utilisés lorsque les hypothèses des tests paramétriques ne sont pas respectées, notamment la normalité.

Tests pour échantillons indépendants

Test paramétrique Équivalent non paramétrique Application
Test t de Student Test U de Mann-Whitney Comparer deux groupes indépendants
ANOVA à un facteur Test de Kruskal-Wallis Comparer plus de deux groupes indépendants

Test U de Mann-Whitney

  • Base sur les rangs des observations
  • Compare la distribution des rangs entre deux groupes
  • Particulièrement utile pour les petits échantillons ou les données ordinales

Exemple en MPR : Comparer les scores de qualité de vie (mesurés sur une échelle ordinale) entre deux groupes de patients ayant reçu des traitements différents.

Tests pour échantillons appariés

Test paramétrique Équivalent non paramétrique Application
Test t apparié Test de Wilcoxon signé-rang Comparer deux mesures répétées
ANOVA à mesures répétées Test de Friedman Comparer plus de deux mesures répétées

Test de Wilcoxon signé-rang

  • Base sur les rangs des différences absolues entre les paires de mesures
  • Tient compte à la fois de la direction et de l'amplitude des différences

Exemple en MPR : Évaluer l'évolution de la spasticité (mesurée par l'échelle d'Ashworth) avant et après un traitement par toxine botulique.

Tests pour variables qualitatives

Application Test Remarque
Comparer des proportions dans des groupes indépendants Test du Chi² (χ²) Pour effectifs théoriques ≥ 5
Comparer des proportions dans des groupes indépendants (petits échantillons) Test exact de Fisher Pour effectifs théoriques < 5
Comparer des proportions dans des groupes appariés Test de McNemar Pour variables binaires
Comparer des proportions dans plus de deux groupes appariés Test Q de Cochran Extension du test de McNemar

Exemple en MPR : Comparer l'évolution de la présence/absence de douleur avant et après un programme de rééducation (McNemar).

Tests de corrélation non paramétriques

Test paramétrique Équivalent non paramétrique Application
Corrélation de Pearson Corrélation de Spearman (ρ) Relation monotone entre variables quantitatives ou ordinales
Corrélation de Pearson Corrélation de Kendall (τ) Basée sur les concordances/discordances des paires d'observations

Corrélation de Spearman vs. Kendall

  • Spearman : plus sensible aux distributions non normales, mieux pour détecter des relations monotones
  • Kendall : plus robuste aux valeurs aberrantes, meilleure estimation de la corrélation dans la population

Exemple en MPR : Étudier la relation entre le niveau de déficience motrice (mesuré par une échelle ordinale) et la réalisation des activités de la vie quotidienne.

Ressources et Références

Outils, références et ressources complémentaires pour approfondir vos connaissances en statistiques appliquées à la recherche clinique.

Logiciels statistiques

Logiciels généralistes

  • R : gratuit, open-source, très flexible mais requiert un apprentissage du langage
  • SPSS : commercial, interface graphique intuitive, largement utilisé en sciences sociales et médicales
  • SAS : commercial, puissant, utilisé dans l'industrie pharmaceutique et la recherche clinique
  • Stata : commercial, combine interface graphique et langage de commande, apprécié en épidémiologie
  • Jamovi : gratuit, open-source, interface graphique intuitive basée sur R
  • JASP : gratuit, open-source, analyses bayésiennes et fréquentistes

Applications web

  • GraphPad : analyses statistiques biomédicales simples et graphiques de qualité publication
  • Social Science Statistics : calculateurs en ligne pour tests statistiques courants

Ouvrages de référence

  • Biostatistique par Bruno Falissard - Adapté aux professionnels de santé
  • Statistique pour la recherche en médecine et en biologie par Alain-Jacques Valleron
  • Medical Statistics at a Glance par Aviva Petrie et Caroline Sabin
  • Discovering Statistics Using... (série) par Andy Field

Formations en ligne

  • Coursera : "Statistiques pour la recherche médicale", "Biostatistics for Public Health"
  • edX : "Principles of Biostatistics", "Statistics for Biomedical Research"
  • FUN MOOC : cours en français sur les biostatistiques et l'épidémiologie
  • DataCamp : tutoriels interactifs pour R et Python appliqués aux statistiques

Sites et communautés

  • Stack Exchange (Cross Validated) : forum de questions/réponses sur les statistiques
  • Société Française de Statistique (SFdS) : ressources, événements, formations
  • American Statistical Association (ASA) : ressources pédagogiques et bonnes pratiques
  • The Analysis Factor : blog avec tutoriels et explications accessibles

Planification et calcul de puissance

Outils utiles pour déterminer la taille d'échantillon nécessaire :

  • G*Power : logiciel gratuit pour calculer la puissance statistique et la taille d'échantillon
  • WebPower : interface web pour les calculs de puissance
  • PASS : logiciel commercial spécialisé pour les calculs de taille d'échantillon
  • PS: Power and Sample Size Calculation : logiciel gratuit développé pour les essais cliniques

Un calcul de puissance préalable est fortement recommandé pour toute étude, et est généralement requis dans les protocoles de recherche clinique.

Guides de reporting statistique

Recommandations pour la présentation transparente des résultats statistiques :

  • CONSORT : pour les essais contrôlés randomisés
  • STROBE : pour les études observationnelles
  • PRISMA : pour les revues systématiques et méta-analyses
  • STARD : pour les études de précision diagnostique
  • EQUATOR Network : répertoire de lignes directrices pour différents types d'études

Ces guides fournissent des check-lists précieuses pour s'assurer que tous les éléments méthodologiques et statistiques essentiels sont rapportés.