2 Introduction

Ces quelques notes de cours et de scripts R ont été produits pour un cours de M1 de la Faculté de Tours. https://master-environnement.univ-tours.fr/

Ce cours est basé sur les travaux publiés dans le livre (Gruijter et al. 2006). Un descriptif des approches utiles pour la cartographie est également disponible dans l’article de Brus et al (Brus 2019) ainsi que les scripts R associés sur le github: https://github.com/DickBrus/TutorialSampling4DSM

Dr Dick Brus a publié un recueil des méthodes de définition d’un plan d’échantillonnage dans un livre en ligne, disponible ici :https://dickbrus.github.io/SpatialSamplingwithR/

Ce cours rassemble un sélection choisie de techniques et de codes pour mettre en oeuvre une sélection de position dans l’espace selon différents plans !

2.1 Motivations

Les motivations pour ce cours sont les suivantes:

Les cours de statistique classique ne s’attardent pas sur la discipline de l’échantillonnage
La conception d’un plan d’échantillonnage efficace et efficient est une première étape importante d’un projet de recherche ou autres projets
Le plan d’échantillonnage détermine en grande partie la qualité du résultat final
Les problèmes d’inférence statistique peuvent souvent être évités lorsque la réflexion commence avant que les données ne soient collectées

2.2 Choisir la méthode d’échantillonnage

L’échantillon peut être constitué sur une base statistique ou non statistique, en fonction des objectifs de l’audit :

dans le cas d’un échantillon statistique, l’ingénieur souhaite obtenir une base raisonnable à partir de laquelle pourront être tirées des conclusions probantes concernant la population dans son ensemble (inférences statistiques). Il aura recours à ce type d’échantillonnage lorsqu’il entend faire un énoncé quantitatif au sujet d’une population plus grande en se fondant sur les résultats d’un échantillon.
dans le cas d’un échantillon non statistique, l’ingénieur sélectionne l’échantillon en fonction d’une caractéristique donnée et n’a pas l’intention de tirer des conclusions au sujet d’autres cas que ceux qui sont dans l’échantillon.

2.3 Définition

Le plan d’échantillonnage statistique d’une enquête par sondage se réfère

aux techniques utilisées pour sélectionner un échantillon probabiliste et
aux méthodes utilisées pour obtenir des estimations des variables étudiées à partir de l’échantillon sélectionné.

On définit également l’unité d’échantillonnage qui correspond à la position dans l’espace où des observations de sols vont être effectuées. Au niveau de la position dans l’espace, il est possible d’effectuer différents prélèvements comme par exemple un sondage, une fosse ou un échantillon composite.

2.4 Contenu

Proposer un aperçu des différents plans d’échantillonnage pour l’étude des milieux naturels et notamment le sol.
Connaissance des types de conception de base pour l’échantillonnage probabiliste : avantages et inconvénients…
et des types de conception d’échantillonnage dans l’espace plus avancés
Connaissance de la manière dont les informations annexes peuvent être utilisées dans le plan d’échantillonnage…
ou dans l’inférence statistique.
Connaissance de la manière dont les échantillons peuvent être sélectionnés dans R, et comment les paramètres statistiques peuvent être estimés…

Cela ne concerne pas la manière dont un plan d’échantillonnage peut être évalué ex ante avant la collecte des données

2.5 Objectifs d’une étude de sol

Une étude sur le sols peut avoir les objectifs :

Estimer des statistiques sommaires (moyenne, total, proportion) ou la fonction de distribution cumulative spatiale (SCDF) pour la zone (ou population) dans son ensemble.
Estimer les mêmes indicateurs statistiques, mais maintenant pour plusieurs sous-domaines
Pour cartographier la variable d’intérêt et donc produire une carte à une résolution définie.

Selon l’objectif, il conviendra de choisir un type d’échantillonnage différent .

Dans ce cours, nous ne sommes pas intéressés par les changements au fil du temps de la variable d’intérêt. Nous faisons l’hypothèse que cette dernière ne change pas pendant la période d’enquête. Nos

2.6 L’échantillonnage probabiliste vs non probabiliste

Pour estimer les statistiques sommaires comme les totaux ou les moyennes, l’échantillonnage probabiliste est le plus approprié

Par échantillonnage probabiliste, on entend un échantillonnage où la position dans l’espace des unité d’échantillonnage est tiré au hasard par un algorithme et est donc aléatoire. Ces échantillonnage sont tel que :

Toutes les unités de population ont une probabilité > 0 d’être sélectionnées
Les probabilités d’inclusion sont connues
NB Les probabilités d’inclusion ne doivent pas forcément être égales !
Il existe de nombreuses façons de sélectionner les unités de population avec un échantillonnage probabiliste

Pour faire une carte par des techniques de modélisation comme la géostatistique, un échantillonnage qui répartit bien les observations dans l’espace géographique est plus approprié et tirer les positions au hasard n’est pas nécessaire.

2.7 Approche basée sur un modèle ou basée sur un plan d’échantillonnage

la production de statistiques sur une zone d’étude implique l’utilisation d’un estimateur à partir d’un ensemble d’observations recueillies selon un protocole d’échantillonnage. Le lien entre l’estimateur et le protocole d’échantillonnage est important.

D’après le livre (Gruijter et al. 2006), la théorie de l’échantillonnage sépare les techniques de sélection des unités d’échantillonnage en deux grandes approches:

Model based : L’incertitude des estimateurs est obtenu à partir d’un modèle stochastique.
Design based : l’incertitude des estimateurs est calculée à partir des probabilités d’inclusions

2.8 Population discrète et population continue

Nous devons bien distinguer deux types de populations :

Les populations discrètes : les objets naturels discrets correspondent naturellement aux unités d’échantillonnage. Le nombre total d’unités d’échantillonnage dans la population (\(N\)) est finie
Populations continues : les unités d’échantillonnage doivent être définies, par exemple carrés de 1 km × 1 km

Mais

Nombre total d’unités d’échantillonnage dans une population continue peut être finie ou infinie
- Fini : tous les carrés disjoints de 1 km multipliés par 1 km dans une zone
- Infini : points dans une zone

2.9 Plan

Ce cours présente ainsi d’abord un ensemble de techniques relirées à l’échantillonnage probabiliste.

IL aborde également des techniques pour l’échantillonnage pour la cartographie.

Echantillonnage aléatoire simple
Echantillonnage aléatoire stratifié
Echantillonnage alétoire systématique
Echanillonnage pour la cartographie

2.10 Details techniques

Ces notes ont été produites par RStudio en utilisant bookdown. Le site website est en ligne via github Netlify

La version de ce livre numérique a été produite avec R version 4.4.2 (2024-10-31) et les package suivants:

Table 2.1: Table 2.2: Packages used in this book
package	version	source
bookdown	0.41	CRAN (R 4.4.0)
dplyr	1.1.4	CRAN (R 4.3.2)
fields	15.2	CRAN (R 4.3.2)
ggplot2	3.5.1	CRAN (R 4.3.3)
knitr	1.47	CRAN (R 4.4.0)
raster	3.6-26	CRAN (R 4.3.2)
rgdal	NA	NA
sampling	2.11	CRAN (R 4.4.2)
sf	1.0-21	CRAN (R 4.4.2)
spcosa	0.4-6	CRAN (R 4.4.2)
stratification	2.2-7	CRAN (R 4.4.2)
stringr	1.5.1	CRAN (R 4.3.2)
tibble	3.2.1	CRAN (R 4.3.2)
tidyr	1.3.1	CRAN (R 4.3.2)
tmap	4.1	CRAN (R 4.4.2)

1 Avant propos

3 Données