Structure et organisation d'une base de données
En MPR, une grande diversité de données est collectée, reflétant la nature multidimensionnelle et pluridisciplinaire de la prise en charge des patients :
- Données démographiques : âge, sexe, pathologie, qui sont collectées généralement une seule fois
- Évaluations fonctionnelles : scores d'indépendance (MIF), capacités motrices (Berg Balance Scale), questionnaires spécifiques aux pathologies
- Mesures instrumentales : analyses de la marche, force musculaire, amplitudes articulaires
- Évaluations de la qualité de vie : SF-36, EQ-5D, échelles de douleur (EVA)
- Mesures d'efficacité thérapeutique : comparaisons pré/post-intervention, suivi longitudinal des progrès en rééducation
Une particularité de la recherche en MPR est la prédominance des mesures répétées dans les protocoles d'étude. Ces mesures répétées sont nécessaires pour plusieurs raisons :
- Évaluer l'évolution des patients au cours du temps (récupération fonctionnelle post-AVC, adaptation à une prothèse)
- Mesurer l'effet d'interventions thérapeutiques (comparaisons avant/après rééducation, effet de différentes modalités de traitement)
- Suivre la progression d'une pathologie chronique (évolution d'une sclérose en plaques, d'une maladie neuromusculaire)
- Déterminer la stabilité temporelle des améliorations fonctionnelles (maintien des acquis après rééducation intensive)
Face à cette complexité, l'analyse de vos données nécessite la construction d'une ou plusieurs bases de données, généralement sous forme de tableaux Excel. C'est le type d'analyse statistique visé qui conditionnera la structure de votre base de données.
Deux formats principaux de tableaux s'imposent pour organiser efficacement les données
- Le format LARGE : une ligne par participant avec de multiples colonnes pour chaque mesure
- Le format LONG : plusiuers ligne par participant correpondant au différentes mesures
Le choix entre ces deux structures détermine directement la faisabilité de votre traitement de données.
Format LARGE
Définition : Chaque participant occupe une seule ligne, et les mesures répétées sont représentées par plusieurs colonnes.
Structure
- Une ligne = un participant
- Plusieurs colonnes pour une même variable = mesures répétées (ex: PLUS-M_T1, PLUSM_T2)
- Variables fixes (âge, sexe, groupe) apparaissent une seule fois
Exemple
ID | Sexe | Age | Groupe | PLUS-M_T1 | PLUS-M_T2 |
---|---|---|---|---|---|
01 | F | 45 | Controle | 78 | 85 |
02 | M | 62 | Amputé | 65 | 72 |
03 | M | 78 | Amputé | 54 | 62 |
04 | F | 56 | Controle | 45 | 52 |
Type d'analyse statistique adaptées
- Tests de comparaisons
- Tests paramétriques (T-Test de Student)
- Tests non paramétriques (Mann-Whitney)
- ANOVA Ă un facteur / MANOVA
- Test de Kruskal-Wallis (équivalent non paramétrique de l'ANOVA)
- Analyses multivariées
- Analyse en composantes principales (ACP)
- Analyse factorielle
- Cluster et Classification
- Analyse de corrélation
- Coefficien de corrélation de Pearson
- Coefficien de corrélation de Spearman (non paramétrique)
- Matrice de corrélation
- Régressions
- Régression linéaire
- Régression logistique (variables catégorielles)
- Analyse de covariance (ANCOVA)
- Analyses Fréquentielles
- Tables de contingence (Chi²)
Format LONG
Définition : Chaque variable mesurée occupe une seule colonne et les participants possèdent autant de lignes que sont répétées les mesures
Structure
- Plusieurs lignes par patient (une ligne par mesure)
- Une seule colonne par variable
- Identifiant patient répété sur chaque ligne
- Variables fixes (âge, sexe, groupe) apparaissent à chaque ligne patient
Exemple
ID | Sexe | Age | Groupe | Visite | PLUS-M |
---|---|---|---|---|---|
01 | F | 45 | Controle | T1 | 78 |
01 | F | 45 | Controle | T2 | 85 |
02 | M | 62 | Amputé | T1 | 65 |
02 | M | 62 | Amputé | T2 | 72 |
Types d'analyses statistiques adaptées
- Analyses de mesures répétées
- ANOVA à mesures répétées
- ANOVA mixtes (facteurs inter et intra-suejets)
- Test de Friedman (équivalent non paramétrique)
- Modèles longitudinaux
- Modèles lin"aires mixtes (LMM)
- Modèles linéaires généralisé mixtes (GLMM)
- Test de Friedman (équivalent non paramétrique)
Recommandations pratico-pratiques
- Structure fondamentale
- 1 Fichier Excel = 1 tableau de données
- Ne Jamais fusionner de lignes ou de colonnes : créer une nouvelle ligne/colonne en répétant l'information commune si besoin
- Une information = une cellule : Ne pas mettre plusieurs informations dans une mĂŞme cellule
- Geler les volets pour maintenir visibles les identifiants et les en-tĂŞtes
- Formatage et standardisation
- La première ligne du tableau de données correponds aux entêtes (nom des colonnnes) : doivent être clairs et concis
- Éviter les espaces dans les noms de colonnes : Utiliser des underscores
- Éviter les caractères spéciaux et accents dans les noms de variables et variables catégorielles qui pourraient poser problème lors de l'importation dans les logiciels de statistique
- Standardiser/homogénéiser les formats de cellule d'une même colonne : date, nombres, texte... (utiliser l'option "Format de cellule" d'Excel)
- Toutes les données manquantes doivent apparaitre de la même manière quelque soit le type de variable (ordinale, catégorielle....) : NA/-/cellule vide
- Couleurs avec modération : Si vous utilisez un code couleur, documentez sa signification et gardez à l'esprit que les couleurs sont perdues lors de l'importation dans les logiciels statistiques
- Gestion de données et sécurité
- Planifiez à l'avance : identifiez en amont le ou les types d'analyses statistiques que vous souhaitez réaliser avant de créer votre tableau
- Double stockage : conservez une version en format long et une en format large si nécessaire
- Vérifiez l'intégrité des données : Assurez-vous que la conversion d'un format à l'autre n'a pas introduit d'erreurs
- Format d'exportation : une fois votre trableau du données finalisé, préparer une version au format .CSV
- Sauvegardes régulières et versions datées des fichiers