mèche perceuse

 

 

 

 

 

 

 

 

 Théorème de probabilité des causes

Je ne vais pas tomber dans la facilité et vous dire que le théorème de Bayes a fait « couler beaucoup d’encre », mais il a tout de même fait graver pas mal de mégaoctets. En effet, le révérend Thomas Bayes (prononcer Baïz) aurait été surpris que son « théorème », publié après sa mort (survenue en 1761), devienne une branche si féconde et si controversée des statistiques probabilistes.

Pourquoi controversée ? Je cite G. Saporta in Probabiltés, analyse des données et statistiques (Technip 2006) p. 10 : « le théorème de Bayes est souvent appelé théorème sur la « probabilité des causes » (…). Son application générale a donné lieu à de violentes critiques de la part des logiciens pour qui causalité et aléatoire sont antinomiques : il n’y a qu’une cause possible parmi des causes mutuellement exclusives et leur donner des probabilités n’aurait aucun sens. »

Si vous avez quelques notions de probabilités, ce dont je ne doute pas, vous connaissez la formule des probabilités conditionnelles :

proba conditionnelle

Si A et B sont deux événements indépendants, la probabilité que A se produise sachant B réalisée est égale à la probabilité que les deux événements surviennent au cours de la même épreuve, divisée par la probabilité que B survienne. Si cette formule ne vous semble pas suffisamment intuitive, vous pouvez vous référer aux arbres de probabilités...

Dans sa version light, la formule de Bayes en découle tout simplement :

formule simple

Cette formule est moins anodine qu’elle ne paraît. Elle suppose qu’on connaît déjà la probabilité que B sachant A, c’est-à-dire qu’on a déjà une connaissance mesurée du sujet qui nous préoccupe et qu’on va utiliser cette information.

S’il existe plusieurs événements C possibles, on obtient la version composée, qui utilise au dénominateur la formule des probabilités totales. Remarquons que le théorème mérite son appellation de probabilité des causes puisqu’en pratique, on peut calculer la probabilité d’une cause sachant la conséquence. Ainsi, si un résultat B peut être dû à trois causes possibles C et si l’on cherche la probabilité que B est dû à C1, la formule est la suivante :

formule composée

Je suis sûr que vous voulez un exemple.

En voici un (inédit, bien sûr, avec chiffres fictifs) :

Un dossier de crédit affecté arrive au service Recouvrement (1 impayé) au cours de sa première année. Que peut-il arriver ? Soit le client règle la situation mais le dossier reviendra un jour au Recouvrement (50 % de chances), soit c’est un simple incident et tout se passera bien ensuite (25 %) soit le dossier de crédit finira sa course au service Contentieux (25 %). Initialement, le dossier a pu être accepté avec un apport financier du client ou non. Et à ce propos, on a remarqué que 30 % des dossiers qui reviendront au Recouvrement bénéficient d’un apport personnel, contre 20 % pour ceux qui termineront au Contentieux et 50 % pour les dossiers qui redeviendront « sans histoire ».

Afin que la lettre de relance au client ait un maximum de chances d'être adaptée à la situation, on souhaite connaître la probabilité qu’un dossier avec apport qui arrive au service Recouvrement dès la première année n’enregistre pas d’autre incident de paiement.

Formule des probabilités totales appliquée aux dossiers avec apport : (0,5 × 0,3) + (0,25 × 0,2) + (0,25 × 0,5) = 0,325.

Au numérateur, nous multiplions 0,25 (probabilité que tout se passera bien ensuite) par 0,5 (cette même éventualité mais sachant qu’il y a apport), c’est-à-dire qu’on retrouve le dernier terme de l’addition ci-dessus. Donc 0,125. La réponse à la question est alors 0,125 0,325 = environ 0,385. En d’autres termes, il y a 25 % de chances qu’un dossier redevienne sain mais, si l’on sait que c’est un dossier avec apport, on atteint 38,5 % de chances.

Merci, révérend Bayes.

 

il rentre du café

plus de livres (France)    plus de livres (Canada)