Stats1    
 
  Stats2    
 
  Stats3    
 
  Z(0,1)    
 
  Probabilités    
 
  CombCalculator   
 
  N(0,1) MonteCarlo   
 
  Units   
 
  home  
 
  ask us  
 

 
Statistiques







© The scientific sentence. 2010


Mathématiques statistiques
Tests non paramétriques
Test KS de Kolmogorov-Smirnov




1. Le test de Kolmogorov-Smirnov


Le test de Kolmogorov-Smirnov est un test de normalité. C'est à dire un test pour vérifier si une distribution de données est ou presque gaussienne. Comme les tests de normalité sont des tests d'hypothèse, le test de Kolmogorov-Smirnov est un test d'hypothèses.

Le test de Kolmogorov-Smirnov est un test d'hypothèse non paramétrique. Il est utilisé pour comparer des fonctions de répartition. Ce test est un test d'ajustement, c'est à dire il vise à vérifier si les données observées sont compatibles avec un modèle théorique donné.

Si F(x) est la fonction de répartition des données à analyser et Fo(x) la fonction de répartition théorique, les hypothèses nulle et alternative peuvent s'écrire :

Ho : F(x) = Fo(x)
H1 : F(x) ≠ Fo(x)


Le test de Kolmogorov est un test qui compare la distribution observée d'un échantillon statistique à une distribution théorique. On l'utilise de préférence au test du chi-deux lorsque le caractère observé peut prendre des valeurs continues.

Le test de Kolmogorov-Smirnov est une extention au test précédent, le test de Kolmorov-Smirnov, compare la distribution de deux échantillons statistiques. Il est basé sur la fonction de distribution empirique cumulative ECDF ou CDF.

Ce test est utilisé pour déterminer si un échantillon suit une loi donnée (ou de réference) connue par sa fonction de répartition continue F(x), ou encore si deux échantillons suivent une même loi.


2. La distribution de Kolmogorov-Smirnov


La distibution de Kolmogorov est la suivante:

α(c) = 1 - 2Σ(-1)s-1 exp{- 2s2c2}
[s = 1, + ∞]


Où le seuil de signification α dépend d'un paramètre réel positif c.

Nous avons la propriété:

P(sup|Fn(x) - F(x)| < c/√n
n → + ∞


Lorsque n est large cette probabilité ne dépend pas de F.


3. La fonction de répartition empirique


Si pour un échantillon on a n caractères indépendantes à valeurs réelles obtenus lors d'une expérience aléatoire et correspondants à une variable aléatoire X de valeurs x, alors la fonction de répartition empirique Fn de cet échantillon est définie par la fonction cumulative des fréquences suivante:


Fn(x) = (1/n)Σ(1)x , Où:

(1)x = somme des 1 jusqu'à x.

Autrement ecrit:

Fn (x) = (1/n) Σ δ(xi ≤ x)
[1 → n]

Avec δ(xi ≤ x) =
1 si xi ≤ x
0 ailleurs



4. Comparaison des deux répartitions

4.1. Test de Kolmogorov

Pour n observations (x1, ..., xn) d'une variable aléatoire X.

L'hypothèse testée est la suivante:

"La fonction de répartition de X, notée F, est égale à F0" avec risque d'erreur α".

1. On ordonne les valeurs observées x1 ≤ x2 ≤ ... ≤ xn.

2. On défini la fonction de répartition comme une fonction en escalier en posant F(x1)=1/n, F(x2)=2/n, ..., F(xn)= 1

3. On calcule Dobs = max |F(x)- Fn(x)|

4. Le logiciel ou la table donne les valeurs critiques (théoriques) de Dα telles que
la probabilité P(max |F(x)- Fn(x)| ≥ Dα) = α

5. On adopte la procédure de décision suivante: Si Dobs < Dn, on accepte l'hypothèse, sinon, on la rejette.



Utliser le logiciel: →

Calculateur KS: 1 échatillon



4.2. Test de Kolmogorov-Smirnov: Deux échantillons

Pour n observations d'une variable aléatoire X, et p observations d'une variable aléatoire Y, on teste l'hpothèse: "Les fonctions de répartition Fx de X et Fy de Y, sont égales" avec risque d'erreur α.

On rejette cette hypothèse si Dobsn1,n2 est plus grand que Dcritiquen1,n2.

La Dcritiquen1,n2 est donnée par les tables ou des logiciels. Pour des échantillons de grande taille, on a:

Dthn1,n2 = c(α)= √[(n1 + n2)/n1 n2]

Avec:

α 0.10 0.05 0.025 0.01 0.005 0.001
c(α)1.22 1.36 1.48 1.63 1.73 1.95



Utliser le logiciel: →

Calculateur KS: 2 échatillons



5. Exemple


On teste, durant 5 semaines, la masse d'une orange. Chaque semaine, on prélève sa masse. On a le tableau suivant:



semaine1 2 3 4 5
masse (g)200 190 170 140 100


Question:

La perte de poids de l'orange suit-elle une loi de probabilité exponentielle?

Réponse:

masse (g)100 140 170 190 200
effectifs1 1 1 1 1
effectifs cumulés1 2 3 4 5
fréquences cumulées0,2 0,4 0,6 0,8 1


a) Pour cette loi de probabilité exponentielle, on a besoin de son paramètre λ et de sa fonction de répartition f(t) qu'on peut trouver ici:
loi exponentielle.

μ = E(X) = 1/λ = (200 + 190 + 170 + 140 + 100)/5 = 800/5 = 160

P(X < x) = ∫f(t) dt = 1 - exp{- λx} = 1 - exp{- x/160}

fréquences cumulées0.20.40.6 0.81.0
fonction de répartition
théorique
0.46 0,580,65 0.70 0.71
ecart absolu0.26 0,18 0,05 0.10 0.29


Le plus ecart est le dernier Dobs = 0.29

b) On pose les hypothèses à tester suivantes:

Hypothèse nulle: Le périssement de l'orange suit une loi de probabilité exponentielle d'espérance λ = 1/160.

Hypothèse alternative: Le périssement de l'orange ne suit pas une loi de probabilité exponentielle d'espérance λ = 1/160.

c) On compare la distribution observée à la distribution théorique en utilisant le test de Kolmogorov-Smirnov.

Pour α = 0.05 et n = 5, le logiciel donne:

Dth ou Dn = 0.56328

Ainsi:

Dobs = 0.29 < Dn = 0.56. On accepte l'hypothèse (H0). Au seuil de 5%. La différence observée n'est pas significative.

La perte de poids de l'orange suit une loi de probabilité exponentielle.








  


chimie labs
|
Physics and Measurements
|
Probability & Statistics
|
Combinatorics - Probability
|
Chimie
|
Optics
|
contact
|


© Scientificsentence 2010. All rights reserved.