Statistiques
Statistiques
descriptives
Échantillonage Éstimation
Statistiques inférentielles
Statistiques Calculateurs
© The scientific sentence. 2010
|
Mathématiques statistiques
Tests non paramétriques
Test KS de Kolmogorov-Smirnov
1. Le test de Kolmogorov-Smirnov
Le test de Kolmogorov-Smirnov est un test de normalité.
C'est à dire un test pour vérifier si une distribution de
données est ou presque gaussienne. Comme les tests de normalité
sont des tests d'hypothèse, le test de Kolmogorov-Smirnov est
un test d'hypothèses.
Le test de Kolmogorov-Smirnov est un test d'hypothèse
non paramétrique. Il est utilisé pour comparer des fonctions de
répartition. Ce test est un test d'ajustement, c'est à dire il
vise à vérifier si les données observées sont compatibles avec
un modèle théorique donné.
Si F(x) est la fonction de répartition des données à analyser et Fo(x)
la fonction de répartition théorique, les hypothèses nulle et
alternative peuvent s'écrire :
Ho : F(x) = Fo(x)
H1 : F(x) ≠ Fo(x)
Le test de Kolmogorov est un test qui compare la distribution
observée d'un échantillon statistique à une distribution théorique.
On l'utilise de préférence au test du chi-deux lorsque le caractère
observé peut prendre des valeurs continues.
Le test de Kolmogorov-Smirnov est une extention au test
précédent, le test de Kolmorov-Smirnov, compare la distribution
de deux échantillons statistiques. Il est basé sur la fonction
de distribution empirique cumulative ECDF ou CDF.
Ce test est utilisé pour déterminer si un échantillon suit
une loi donnée (ou de réference) connue par sa fonction
de répartition continue F(x), ou encore si deux échantillons
suivent une même loi.
2. La distribution de Kolmogorov-Smirnov
La distibution de Kolmogorov est la suivante:
α(c) = 1 - 2Σ(-1)s-1 exp{- 2s2c2}
[s = 1, + ∞]
Où le seuil de signification α dépend d'un paramètre réel
positif c.
Nous avons la propriété:
P(sup|Fn(x) - F(x)| < c/√n
n → + ∞
Lorsque n est large cette probabilité ne dépend pas de F.
3. La fonction de répartition empirique
Si pour un échantillon on a n caractères indépendantes à valeurs
réelles obtenus lors d'une expérience aléatoire et correspondants
à une variable aléatoire X de valeurs x, alors la fonction de
répartition empirique Fn de cet échantillon
est définie par la fonction cumulative des fréquences
suivante:
Fn(x) = (1/n)Σ(1)x ,
Où:
(1)x = somme des 1 jusqu'à x.
Autrement ecrit:
Fn (x) = (1/n) Σ δ(xi ≤ x)
[1 → n]
Avec δ(xi ≤ x) =
1 si xi ≤ x
0 ailleurs
4. Comparaison des deux répartitions
4.1. Test de Kolmogorov
Pour n observations (x1, ..., xn) d'une variable aléatoire X.
L'hypothèse testée est la suivante:
"La fonction de répartition de X, notée F, est
égale à F0" avec risque d'erreur α".
1. On ordonne les valeurs observées x1 ≤ x2 ≤ ... ≤ xn.
2. On défini la fonction de répartition comme une fonction
en escalier en posant F(x1)=1/n, F(x2)=2/n, ..., F(xn)= 1
3. On calcule Dobs = max |F(x)- Fn(x)|
4. Le logiciel ou la table donne les valeurs critiques
(théoriques) de Dα telles que
la probabilité P(max |F(x)- Fn(x)| ≥
Dα) = α
5. On adopte la procédure de décision suivante:
Si Dobs < Dn, on accepte l'hypothèse,
sinon, on la rejette.
Utliser le logiciel: →
Calculateur KS: 1 échatillon
4.2. Test de Kolmogorov-Smirnov: Deux échantillons
Pour n observations d'une variable aléatoire X, et p observations
d'une variable aléatoire Y, on teste l'hpothèse:
"Les fonctions de répartition Fx de X et Fy de Y,
sont égales" avec risque d'erreur α.
On rejette cette hypothèse si Dobsn1,n2
est plus grand que Dcritiquen1,n2.
La Dcritiquen1,n2 est donnée par les tables
ou des logiciels. Pour des échantillons de grande taille, on a:
Dthn1,n2 = c(α)= √[(n1 + n2)/n1 n2]
Avec:
α | 0.10 | 0.05 | 0.025 | 0.01 | 0.005 | 0.001 |
c(α) | 1.22 | 1.36 | 1.48 | 1.63 | 1.73 | 1.95 |
Utliser le logiciel: → Calculateur KS: 2 échatillons
5. Exemple
On teste, durant 5 semaines, la masse d'une orange. Chaque semaine,
on prélève sa masse. On a le tableau suivant:
semaine | 1 | 2 | 3 | 4 | 5 |
masse (g) | 200 | 190 | 170 | 140 | 100 |
Question:
La perte de poids de l'orange suit-elle une loi
de probabilité exponentielle?
Réponse:
masse (g) | 100 | 140 | 170 | 190 | 200 |
effectifs | 1 | 1 | 1 | 1 | 1 |
effectifs cumulés | 1 | 2 | 3 | 4 | 5 |
fréquences cumulées | 0,2 | 0,4 | 0,6 | 0,8 | 1 |
a) Pour cette loi de probabilité exponentielle, on a
besoin de son paramètre λ et de sa fonction de
répartition f(t) qu'on peut trouver ici:
loi exponentielle.
μ = E(X) = 1/λ = (200 + 190 + 170 + 140 + 100)/5
= 800/5 = 160
P(X < x) = ∫f(t) dt = 1 - exp{- λx} =
1 - exp{- x/160}
fréquences cumulées | 0.2 | 0.4 | 0.6 |
0.8 | 1.0 |
fonction de répartition théorique | 0.46 | 0,58 | 0,65 |
0.70 | 0.71 |
ecart absolu | 0.26 |
0,18 | 0,05 | 0.10 | 0.29 |
Le plus ecart est le dernier Dobs = 0.29
b) On pose les hypothèses à tester suivantes:
Hypothèse nulle: Le périssement de l'orange suit une loi
de probabilité exponentielle d'espérance λ = 1/160.
Hypothèse alternative: Le périssement de l'orange ne
suit pas une loi de probabilité exponentielle d'espérance
λ = 1/160.
c) On compare la distribution observée à la distribution
théorique en utilisant le test de Kolmogorov-Smirnov.
Pour α = 0.05 et n = 5, le logiciel donne:
Dth ou Dn = 0.56328
Ainsi:
Dobs = 0.29 < Dn = 0.56. On accepte
l'hypothèse (H0). Au seuil de 5%. La différence observée n'est pas
significative.
La perte de poids de l'orange suit une loi
de probabilité exponentielle.
|
|