mèche perceuse

 

 

 

 

 

 

 

 

 

 Détermination de la taille d'un échantillon aléatoire

C’est une évidence : plus l’échantillon d’un sondage aléatoire est important, plus l’analyse est précise et… coûteuse. Mais le gain marginal de précision est de plus en plus faible au fur-et-à-mesure qu’on augmente la taille de l’échantillon : pour diviser par 2 un intervalle de confiance, il ne faut pas multiplier l’échantillon par 2 mais par 2² = 4. Aux arrondis près, on le constate sur le petit tableau ci-après.

On se donne une marge d’erreur et un intervalle de confiance. Sur ces bases, on détermine la taille de l’échantillon à étudier. On note au passage que la taille de la population-mère n’intervient pas…

A partir d’une proportion

La taille de l’échantillon est calculée par de nombreux logiciels mais il est très facile d’utiliser la formule suivante si la problématique concerne une proportion :

Taille échantillon proportion

Le coefficient t est lu dans la table de la loi normale centrée réduite, c’est-à-dire qu'il vaut 1,96 si l’on s’est donné un niveau de confiance de 0,95. La proportion p d’individus présentant la caractéristique à mesurer est déterminée par la connaissance que l’on a sur le sujet. Quand on ignore tout, on prend 0,5, faute de mieux. Quant à d, c’est la marge d’erreur qu’on se donne. A ne pas confondre avec la probabilité que l’intervalle de confiance exclue la vraie proportion : il s’agit de la marge sur la PROPORTION. Ce peut être 2 % sur une proportion de 0,5 (on détermine alors n pour une proportion variant entre 0,48 et 0,52).

Si d n’est pas un pourcentage mais une valeur absolue :

Taille échantillon proportion VA

Donc, dans le cas où la proportion est inconnue et où l’on se donne un niveau de confiance de 0,95, l’échantillon à retenir s’établit à :

Tailles linis d'échantillons

Il existe des abaques qui déterminent la taille de l’échantillon à observer en fonction des paramètres retenus.

A partir d’une moyenne (loi normale)

Si l’on raisonne en termes ABSOLUS, l’intervalle de confiance est m, moyenne observée, plus ou moins la marge d’erreur d. On doit avoir une première estimation de l’écart-type, quitte à augmenter ensuite la taille de l’échantillon si l’on s’aperçoit sur n que l’écart-type est supérieur à ce qui était prévu.

Taille à partir d'une moyenne (VA)

Si l’on préfère (ou si l’on doit) raisonner sur un POURCENTAGE (précision de d % autour de la moyenne), cela revient à diviser par m le numérateur et le dénominateur, donc à utiliser un coefficient de variation (CV) estimé.

Taille échantillon à partir de moyenne (pct)

Notez bien que le n obtenu est un minimum. Dans le cadre d’une enquête marketing, on le majore pour tenir compte des non-réponses. On appelle taux d’achèvement le pourcentage de questionnaires entièrement exploitables. Il convient donc de multiplier n par l’inverse du taux d’achèvement envisagé…

Caractéristiques multiples

Si l’on cherche à estimer la moyenne ou la proportion de plusieurs variables, on détermine n pour chaque variable. La logique veut qu’on retienne la taille d’échantillon la plus élevée.

Credit scoring

Il est courant de retenir 1 000 bons dossiers et 1 000 mauvais. Pour le redressement de l’échantillon, il est souhaitable de disposer de 1 000 refusés. Il n’est pas toujours possible de disposer d’autant de dossiers, notamment mauvais et refusés, sur un laps de temps suffisamment court lorsque la grille s’applique à un produit de niche. On admet alors des échantillons plus petits (S. Tufféry donne une limite de 500 bons, 500 mauvais et 500 refusés, in Data Mining et statistique décisionnelle, Technip 2007, p. 406).

Etudes marketing

Comme il ne peut exister de règle impérative, je reprends ici des fourchettes types données par N. Malhotra in Etudes marketing avec SPSS, Pearson Education 2007, p. 265 :

Identification de problème étude du marché…) : entre 1 000 et 2 500 avec un minimum de 500.

Résolution de problème (action marketing…), tests de produits ou de marchés : entre 300 et 500 avec un minimum de 200.

Autres analyses multivariées

La taille de l’échantillon dépend du nombre de variables à étudier.

 

batterie

haut de page