2 Introduction
Ces quelques notes de cours et de scripts R ont été produits pour un cours de M1 de la Faculté de Tours. https://master-environnement.univ-tours.fr/
Ce cours est basé sur les travaux publiés dans le livre (Gruijter et al. 2006). Un descriptif des approches utiles pour la cartographie est également disponible dans l’article de Brus et al (Brus 2019) ainsi que les scripts R associés sur le github: https://github.com/DickBrus/TutorialSampling4DSM
Dr Dick Brus a publié un recueil des méthodes de définition d’un plan d’échantillonnage dans un livre en ligne, disponible ici :https://dickbrus.github.io/SpatialSamplingwithR/
Ce cours rassemble un sélection choisie de techniques et de codes pour mettre en oeuvre une sélection de position dans l’espace selon différents plans !
2.1 Motivations
Les motivations pour ce cours sont les suivantes:
- Les cours de statistique classique ne s’attardent pas sur la discipline de l’échantillonnage
- La conception d’un plan d’échantillonnage efficace et efficient est une première étape importante d’un projet de recherche ou autres projets
- Le plan d’échantillonnage détermine en grande partie la qualité du résultat final
- Les problèmes d’inférence statistique peuvent souvent être évités lorsque la réflexion commence avant que les données ne soient collectées
2.2 Choisir la méthode d’échantillonnage
L’échantillon peut être constitué sur une base statistique ou non statistique, en fonction des objectifs de l’audit :
dans le cas d’un échantillon statistique, l’ingénieur souhaite obtenir une base raisonnable à partir de laquelle pourront être tirées des conclusions probantes concernant la population dans son ensemble (inférences statistiques). Il aura recours à ce type d’échantillonnage lorsqu’il entend faire un énoncé quantitatif au sujet d’une population plus grande en se fondant sur les résultats d’un échantillon.
dans le cas d’un échantillon non statistique, l’ingénieur sélectionne l’échantillon en fonction d’une caractéristique donnée et n’a pas l’intention de tirer des conclusions au sujet d’autres cas que ceux qui sont dans l’échantillon.
2.3 Définition
Le plan d’échantillonnage statistique d’une enquête par sondage se réfère
- aux techniques utilisées pour sélectionner un échantillon probabiliste et
- aux méthodes utilisées pour obtenir des estimations des variables étudiées à partir de l’échantillon sélectionné.
On définit également l’unité d’échantillonnage qui correspond à la position dans l’espace où des observations de sols vont être effectuées. Au niveau de la position dans l’espace, il est possible d’effectuer différents prélèvements comme par exemple un sondage, une fosse ou un échantillon composite.
2.4 Contenu
Proposer un aperçu des différents plans d’échantillonnage pour l’étude des milieux naturels et notamment le sol.
Connaissance des types de conception de base pour l’échantillonnage probabiliste : avantages et inconvénients…
et des types de conception d’échantillonnage dans l’espace plus avancés
Connaissance de la manière dont les informations annexes peuvent être utilisées dans le plan d’échantillonnage…
ou dans l’inférence statistique.
Connaissance de la manière dont les échantillons peuvent être sélectionnés dans
R, et comment les paramètres statistiques peuvent être estimés…
Cela ne concerne pas la manière dont un plan d’échantillonnage peut être évalué ex ante avant la collecte des données
2.5 Objectifs d’une étude de sol
Une étude sur le sols peut avoir les objectifs :
Estimer des statistiques sommaires (moyenne, total, proportion) ou la fonction de distribution cumulative spatiale (SCDF) pour la zone (ou population) dans son ensemble.
Estimer les mêmes indicateurs statistiques, mais maintenant pour plusieurs sous-domaines
Pour cartographier la variable d’intérêt et donc produire une carte à une résolution définie.
Selon l’objectif, il conviendra de choisir un type d’échantillonnage différent .
Dans ce cours, nous ne sommes pas intéressés par les changements au fil du temps de la variable d’intérêt. Nous faisons l’hypothèse que cette dernière ne change pas pendant la période d’enquête. Nos
2.6 L’échantillonnage probabiliste vs non probabiliste
Pour estimer les statistiques sommaires comme les totaux ou les moyennes, l’échantillonnage probabiliste est le plus approprié
Par échantillonnage probabiliste, on entend un échantillonnage où la position dans l’espace des unité d’échantillonnage est tiré au hasard par un algorithme et est donc aléatoire. Ces échantillonnage sont tel que :
- Toutes les unités de population ont une probabilité > 0 d’être sélectionnées
- Les probabilités d’inclusion sont connues
- NB Les probabilités d’inclusion ne doivent pas forcément être égales !
- Il existe de nombreuses façons de sélectionner les unités de population avec un échantillonnage probabiliste
Pour faire une carte par des techniques de modélisation comme la géostatistique, un échantillonnage qui répartit bien les observations dans l’espace géographique est plus approprié et tirer les positions au hasard n’est pas nécessaire.
2.7 Approche basée sur un modèle ou basée sur un plan d’échantillonnage
la production de statistiques sur une zone d’étude implique l’utilisation d’un estimateur à partir d’un ensemble d’observations recueillies selon un protocole d’échantillonnage. Le lien entre l’estimateur et le protocole d’échantillonnage est important.
D’après le livre (Gruijter et al. 2006), la théorie de l’échantillonnage sépare les techniques de sélection des unités d’échantillonnage en deux grandes approches:
Model based : L’incertitude des estimateurs est obtenu à partir d’un modèle stochastique.
Design based : l’incertitude des estimateurs est calculée à partir des probabilités d’inclusions
2.8 Population discrète et population continue
Nous devons bien distinguer deux types de populations :
Les populations discrètes : les objets naturels discrets correspondent naturellement aux unités d’échantillonnage. Le nombre total d’unités d’échantillonnage dans la population (\(N\)) est finie
Populations continues : les unités d’échantillonnage doivent être définies, par exemple carrés de 1 km × 1 km
Mais
-
Nombre total d’unités d’échantillonnage dans une population continue peut être finie ou infinie
- Fini : tous les carrés disjoints de 1 km multipliés par 1 km dans une zone
- Infini : points dans une zone
- Fini : tous les carrés disjoints de 1 km multipliés par 1 km dans une zone
2.9 Plan
Ce cours présente ainsi d’abord un ensemble de techniques relirées à l’échantillonnage probabiliste.
IL aborde également des techniques pour l’échantillonnage pour la cartographie.
- Echantillonnage aléatoire simple
- Echantillonnage aléatoire stratifié
- Echantillonnage alétoire systématique
- Echanillonnage pour la cartographie
2.10 Details techniques
Ces notes ont été produites par RStudio en utilisant bookdown. Le site website est en ligne via github Netlify
La version de ce livre numérique a été produite avec R version 4.4.2 (2024-10-31) et les package suivants:
| package | version | source |
|---|---|---|
| bookdown | 0.41 | CRAN (R 4.4.0) |
| dplyr | 1.1.4 | CRAN (R 4.3.2) |
| fields | 15.2 | CRAN (R 4.3.2) |
| ggplot2 | 3.5.1 | CRAN (R 4.3.3) |
| knitr | 1.47 | CRAN (R 4.4.0) |
| raster | 3.6-26 | CRAN (R 4.3.2) |
| rgdal | NA | NA |
| sampling | 2.11 | CRAN (R 4.4.2) |
| sf | 1.0-21 | CRAN (R 4.4.2) |
| spcosa | 0.4-6 | CRAN (R 4.4.2) |
| stratification | 2.2-7 | CRAN (R 4.4.2) |
| stringr | 1.5.1 | CRAN (R 4.3.2) |
| tibble | 3.2.1 | CRAN (R 4.3.2) |
| tidyr | 1.3.1 | CRAN (R 4.3.2) |
| tmap | 4.1 | CRAN (R 4.4.2) |