La taille d'un échantillon

Marge d'erreur et taille d'échantillon

C’est une évidence : plus l’échantillon d’un sondage aléatoire est important, plus l’analyse est précise et… coûteuse. Mais le gain marginal de précision est de plus en plus faible au fur et à mesure que l’on augmente la taille de l’échantillon : pour diviser par 2 un intervalle de confiance, il ne faut pas multiplier l’échantillon par 2 mais par \(2² = 4.\) Aux arrondis près, on le constate sur le petit tableau ci-après.

Pour reprendre l'analogie de R. Behar, si l'on fait une soupe dans une petite marmite, on la goûte avec une petite cuillère afin de savoir si elle est suffisamment salée ; mais si la marmite est dix fois plus volumineuse, on n'a pas besoin d'une cuillère dix fois plus grande.

Note : pour des exercices théoriques de niveau terminale sur les tailles d'échantillon, voir les applications de l'inégalité de concentration.

 

Marge d'erreur

En pratique, on se donne une marge d’erreur et un intervalle de confiance. Sur ces bases, on détermine la taille de l’échantillon à étudier. On note au passage que la taille de la population mère n’intervient pas…

Définissons d'abord la marge d'erreur. C'est la différence maximale, en valeur ou en pourcentage, que l'on accepte entre le paramètre observé sur l'échantillon et le vrai paramètre de la population. Par exemple, si une enquête de satisfaction montre que \(60\%\) des clients sont satisfaits et que la marge d'erreur est de \(5\%,\) cela signifie que sur l'ensemble de la clientèle la proportion de satisfaits s'établit entre \(55\%\) et \(65\%.\)

On peut aussi rendre le problème à l'envers et chercher quelle est la marge d'erreur compte tenu des autres paramètres.

Il ne faut pas la confondre avec la probabilité que l’intervalle de confiance exclut le vrai paramètre. Si la marge d'erreur est souvent de \(5\%\) et que le niveau de confiance se situe souvent à \(95\%\), le fait que leur somme soit égale à 1 est un hasard.

Ci-dessous nous noterons \(d\) la marge d'erreur (ou \(d\%\) si elle est exprimée en pourcentage).

 

A partir d’une proportion

La taille de l’échantillon est calculée par de nombreux logiciels mais il est facile d’utiliser la formule suivante si la problématique concerne une proportion et que l'on suppose une distribution normale :

\[n = \frac{t^2p(1-p)}{d\%^2}\]

Le coefficient \(t\) est lu dans la table de la loi normale centrée réduite, c’est-à-dire qu'il vaut 1,96 si l’on s’est donné un niveau de confiance de 0,95. La proportion \(p\) d’unités statistiques présentant la caractéristique à mesurer est déterminée par la connaissance que l’on a sur le sujet. Quand on ignore tout, on prend 0,5, faute de mieux.

Si \(d\) n’est pas un pourcentage mais une valeur absolue :

\[n = \frac{t^2(1-p)}{d^2 \times p}\]

Donc, dans le cas où la proportion est inconnue et où l’on se donne un niveau de confiance de 0,95, l’échantillon à retenir s’établit à :

Précision Taille
\(2\%\) 2 401
\(3\%\) 1 067
\(4\%\) 600
\(5\%\) 384
\(6\%\) 267

Il existe des abaques qui définissent la taille de l’échantillon à observer en fonction des paramètres retenus.

population

 

A partir d’une moyenne (loi normale)

Si l’on raisonne en termes absolus, l’intervalle de confiance est la moyenne observée plus ou moins la marge d’erreur \(d.\) On doit avoir une première estimation de l’écart-type, quitte à augmenter ensuite la taille de l’échantillon si l’on s’aperçoit sur \(n\) que l’écart-type est supérieur à ce qui était prévu.

\[n = \frac{t^2 \sigma ^2}{d^2}\]

Si l’on préfère (ou si l’on doit) raisonner sur un pourcentage (précision de \(d\%\) autour de la moyenne), cela revient à diviser par \(m\) le numérateur et le dénominateur, donc à utiliser un coefficient de variation (CV) estimé.

\[n = \frac{t^2 \rm{CV}^2}{d\%^2}\]

Notez bien que le nombre \(n\) obtenu est un minimum. Dans le cadre d’une enquête marketing, on le majore pour tenir compte des non-réponses. On appelle taux d’achèvement le pourcentage de questionnaires entièrement exploitables. Il convient donc de multiplier \(n\) par l’inverse du taux d’achèvement envisagé…

 

Caractéristiques multiples

Si l’on cherche à estimer la moyenne ou la proportion de plusieurs variables, on détermine n pour chaque variable. La logique veut que l’on retienne la taille d’échantillon la plus élevée.

 

Credit scoring

On peut retenir 1 000 bons dossiers et 1 000 mauvais. Pour le redressement de l’échantillon, il est souhaitable de disposer de 1 000 refusés. Il n’est pas toujours possible de disposer d’autant de dossiers, notamment mauvais et refusés, sur un laps de temps suffisamment court lorsque la grille s’applique à un produit de niche. On admet alors des échantillons plus petits (S. Tufféry donne une limite de 500 bons, 500 mauvais et 500 refusés, in Data Mining et statistique décisionnelle, Technip 2007, p. 406).

 

Études marketing

Il ne peut exister de règle impérative. Les fourchettes ci-dessous sont données par N. Malhotra in Etudes marketing avec SPSS, Pearson Education 2007, p. 265 :

Identification de problème (étude du marché…) : entre 1 000 et 2 500 avec un minimum de 500.

Résolution de problème (action marketing…), tests de produits ou de marchés : entre 300 et 500 avec un minimum de 200.

 

Autres analyses multivariées

La taille de l’échantillon dépend du nombre de variables à étudier.

 

batterie