---
title: "Démarrage rapide avec statAfrikR"
output: rmarkdown::html_vignette
vignette: >
  %\VignetteIndexEntry{Démarrage rapide avec statAfrikR}
  %\VignetteEngine{knitr::rmarkdown}
  %\VignetteEncoding{UTF-8}
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(
  collapse = TRUE,
  comment  = "#>",
  warning  = FALSE,
  message  = FALSE
)
```

## Introduction

**statAfrikR** est une boîte à outils R conçue spécifiquement pour les
Instituts Nationaux de Statistique (INS) africains. Ce guide vous permet
de réaliser une analyse complète en moins de 30 minutes.

```{r charger}
library(statAfrikR)
```

## 1. Import des données

### Depuis Excel

```{r import-excel, eval=FALSE}
donnees <- import_excel(
  chemin    = "enquete_menages_2023.xlsx",
  feuille   = "Données",
  na_values = c("", "NA", "N/A", "9999", ".")
)
```

### Depuis Stata

```{r import-stata, eval=FALSE}
donnees <- import_stata(
  chemin           = "emop_2023.dta",
  convertir_labels = TRUE
)
```

### Depuis KoboToolbox

```{r import-kobo, eval=FALSE}
donnees <- import_kobo(
  chemin = "enquete_kobo_export.xlsx"
)
```

## 2. Validation des données

```{r validation, eval=FALSE}
# Vérifier les valeurs manquantes
rapport_na <- check_na(donnees, seuil = 0.1)
print(rapport_na)

# Valider par rapport à un dictionnaire
dict <- readr::read_csv("dictionnaire_variables.csv")
score <- valider_dictionnaire(donnees, dict)
cat("Score de qualité :", score$score_qualite, "/100\n")
```

## 3. Nettoyage et traitement

```{r nettoyage, eval=FALSE}
# Nettoyage des libellés textuels
donnees <- nettoyer_libelles(
  donnees,
  vars  = c("region", "commune"),
  casse = "titre"
)

# Suppression des doublons
resultat <- supprimer_doublons(donnees, cles = "id_menage")
donnees  <- resultat$donnees
cat("Doublons supprimés :", nrow(resultat$rapport), "\n")

# Imputation des valeurs manquantes
donnees <- imputer_valeurs(
  donnees,
  vars    = c("revenu_mensuel", "depense_alimentaire"),
  methode = "mediane",
  rapport = FALSE
)
```

## 4. Application des pondérations

```{r ponderation, eval=FALSE}
plan <- appliquer_ponderations(
  data       = donnees,
  var_poids  = "poids_final",
  var_strate = "strate",
  var_grappe = "grappe_id"
)
```

## 5. Analyse statistique

```{r analyse, eval=FALSE}
# Statistiques descriptives pondérées
stats <- stat_descr(
  plan,
  vars   = c("revenu_mensuel", "depense_alimentaire"),
  ic     = TRUE
)
print(stats)

# Tableau croisé
tableau <- tab_croisee(
  plan,
  var_ligne   = "quintile_vie",
  var_col     = "milieu",
  pourcentage = "colonne"
)
print(tableau)
```

## 6. Visualisation

```{r visualisation, eval=FALSE}
library(ggplot2)

# Pyramide des âges
p <- pyramide_ages(
  donnees,
  var_age   = "age",
  var_sexe  = "sexe",
  var_poids = "poids_final",
  titre     = "Pyramide des âges — Enquête 2023"
)
print(p)

# Exporter
exporter_graphique(p, "outputs/pyramide_ages_2023.png", dpi = 300L)
```

## 7. Diffusion

```{r diffusion, eval=FALSE}
# Anonymiser avant diffusion
donnees_anon <- anonymiser_donnees(
  donnees,
  vars_supprimer   = c("nom", "prenom", "telephone", "adresse"),
  vars_masquer     = c("id_menage", "id_individu"),
  vars_generaliser = list(age = 5),
  rapport          = FALSE
)

# Créer le package de diffusion
compresser_package_diffusion(
  donnees           = donnees_anon,
  repertoire_sortie = "diffusion/",
  nom_package       = "EMOP_BEN_2023_v1",
  metadonnees       = list(
    titre       = "EMOP Bénin 2023",
    institution = "INSAE",
    version     = "1.0"
  )
)
```

## Résumé du flux de travail

```
Import → Validation → Nettoyage → Pondération → Analyse → Visualisation → Diffusion
```

Pour aller plus loin, consultez les vignettes :

- **Enquête pondérée complète** : analyse EDS avec plan de sondage complexe
- **Indicateurs ODD** : calcul IDH, IPM et mesures d'inégalité