.- LABORATOIRE D'ECONOMIE DES TRANSPORTS Ecole Nationale des Travaux Publics de 1'Etat -...

1 1

▲back to top

.-


LABORATOIRE D'ECONOMIE DES TRANSPORTS
Ecole Nationale des Travaux Publics de 1'Etat - Université Lumière Lyon II


Unité mixte de Recherche du CNRS no 108.


PRODUCTION ET TRAITEMENT DES DONNEES
(Notes de Cours)


Philippe CALVIE
Economiste des Transports


BCEOM


Didier PLAT
Ingénieur TPE


Laboratoire d'Economie des Transports


Bernard SCHEOU
Attaché de recherche


Laboratoire dtEconomie des Transports


Université d'été
Août 1995




2 2

▲back to top



3 3

▲back to top

INTRODUCTION


L'action pour transformer certains aspects d'une société, faire évoluer des pratiques
professionnelles impose une connaissance du milieu sur lequel on souhaite agir. Connaître pour agir,
connaître avant d'agir peuvent sembler des banalités. Mais force est de constater que le secteur
transport, dans un certain nombre de pays en développement, reste largement terra incognita pour
ceux-là mêmes qui en sont en charge au sein de l'administration ou chez les bailleurs de fonds
internationaux. Or, cette carence est au mieux inopérante, au pire nuisible : si une connaissance
partielle du réel est inévitable et doit être acceptée, sa connaissance partiale doit par contre être
évitée. (ex. du transport informel dans beaucoup de pays, "la réalité se venge").


L'efficacité de l'action passe alors par une bonne connaissance des mécanismes de
fonctionnement de la "réalité" que l'on essaie de maîtriser ou d'orienter. Le recours à la théorisation
(représentation organisée de la réalité) doit permettre de dépasser le stade de l'action aveugle, mais
implique des validations empiriques ou des confrontations régulières avec l'expérimentation.


Cette nécessité d'une articulation entre une théorisation et une appréhension empirique
de la réalité achoppe, et tout particulièrement dans les pays en développement, sur un double
handicap en matière de données. Elles sont en effet à la fois trop rares et trop peu utilisées. La rareté
tient essentiellement au coût de leur production, mais aussi dans certains cas au peu d'intérêt porté au
secteur transport. La sous-utilisation est liée également à la carence des moyens. En particulier,
l'accès à l'outil informatique est souvent malaisé, soit par manque de matériel (ordinateurs ou
logiciels), soit faute de personnel qualifié pour assurer les traitements et l'analyse.


Il est possible de distinguer deux manières d'appréhender la réalité. La première est
ponctuelle et concerne des projets précis d'importance diverses comme le réaménagement d'une gare
routière par exemple, ou la "grosse" enquête réalisée dans le cadre d'un plan national de transport. La
seconde est permanente, ou du moins régulière et permet une connaissance du secteur des transport
s'inscrivant dans la durée.


Les deux premières parties de ce module traiteront de ces deux formes de connaissance,
la troisième ayant trait aux méthodes statistiques de traitement de l'information :


- la production "ponctuelle" d'informations,
- l'organisation d'un système permanent d'information statistique sur le secteur des transports,
- les méthode statistique de traitement des informations.




4 4

▲back to top

A - LES ENSEMBLES ONCTUELS DE DONNEES i
Rappelons tout d'abord que el est entendu ici par opposition à permanent : les


données considérées ici sont recueillies dans le but de satisfaire à l'analyse de problèmes
spécifiques, leur production n'est pas la fréquence en est très faible. Il ne faut pas pour
autant conclure à une homogénéité de données ponctuels, les problèmes posés
étant eux-mêmes très hétérogènes, de ou tel aspect du fonctionnement du secteur
à la conception d'un Plan national de transport.


La production de données ne serait-ce qu'à cause de son coût, ne saurait être
une fin en soi. Elle vise à apporter à des questions et doit donc permettre des
traitements statistiques susceptibles de : ne pas relever l'âge des individus lors
de l'enquête interdira ensuite toute ce facteur sur leur niveau de mobilité !
Enregistrer la distance parcourue prédéfinies prohibera de même toute
régression du prix de transport selon la distance


De la production au traitement es données, il y a donc une chaîne aux maillons
interdépendants et il importe de concevoir chac ne des étapes en fonction de l'ensemble de la chaîne.
En dépit de ces interrelations, on présentera su cessivement les deux premières phases de la chaîne,
la conception des enquêtes et leur réalisation. L dernière phase, l'analyse des données, est commune
aux ensembles ponctuels de données et aux s tèmes d'information statistique et fait l'objet de la
dernière partie. i
1 - CONCEVOIR LES ENOUETES


Avant de présenter un essai de lassification des principales enquêtes utilisées en
transport et de rappeler un ensemble de défi itions, nous insistons sur l'importance de la phase
amont de détermination des besoins en données. i
1.1 - DEFINIR LES BESOINS


Que l'on se situe dans une dé opérationnelle (réponse aux demandes des
politiques) ou dans une logique de recherche, initialement confronté au même handicap
d'imprécision des besoins. En effet, les au planificateur, à l'homme d'étude, au
chercheur vont être le plus souvent diminuer les prix
de transport, que se passe-t-il si l'on ... Une même exigence, une
même nécessité s'imposent alors les préciser et les
organiser au sein d'une vision globale.


Cette formalisation du problème osé implique la définition d'un certain nombre de
concepts et la mise en évidence de leurs i terrelations, c'est-à-dire la génération d'un cadre
conceptuel, support et élément d'une théorisatio . On va ainsi isoler de petits morceaux de réel que
l'on va nommer, dont on va définir les prop 'étés et que l'on va agencer afin d'en décrire les
interactions, les articulations. Mais cette opérat on de découpage va laisser de côté des chutes, des
morceaux de réalité que l'on ignorera. Re arquons immédiatement deux conséquences de
l'opération. D'une part, le résultat obtenu est ne représentation de la réalité, pas la réalité elle-
même : la théorie n'est pas la réalité que l'on O serve, mais juste sa représentation. D'autre part, à
travers le processus de sélection, on obtiendr une connaissance organisée mais partielle de la
réalité : la théorie, non seulement n'est pas la ré ! lité, mais n'en est qu'une représentation, une parmi
d'autres.




5 5

▲back to top

Implicitement ou explicitement, consciemment ou inconsciemment, tout effort de
théorisation et plus généralement toute opération sur le réel, va se trouver confronté à ce double
impératif du choix et de l'organisation. Schématiquement, les choix vont déboucher sur la création de
concepts, l'organisation sur la définition de leurs articulations. Certaines de ces articulations, de ces
relations entre concepts (notamment des relations de cause à effet) pourront être élaborées sous la
forme d'hypothèses que tant les développements ultérieurs de la théorie que les tests expérimentaux
seront amenés ensuite à valider.


Ainsi, cette théorisation devra tout à la fois contribuer à préciser les besoins de l'étude
en aidant à formuler et à affiner les questions envisagées et simultanément fournir le schéma adéquat
duquel il faudra faire émerger les réponses. En permettant donc simultanément de poser les bonnes
questions et de trouver les bonnes réponses, cette première phase dans le procesus de conception des
enquêtes s'avère indispensable.


Deux remarques encore avant de présenter un essai de classification des enquêtes
transport. D'une part, le fait que la théorisation ne débouche que sur une représentation parmi
d'autres de la réalité n'implique nullement que ces diverses représentations sont équivalentes. En
fonction du problème de départ, certaines, parce qu'elles négligent tel ou tel aspect ou postulent telle
ou telle relation erronée, vont se cogner aux murs de la réalité. Leurs prédictions seront erronées,
leurs hypothèses ne seront pas vérifiées. Mieux vaut alors essayer de changer la théorie plutôt que de
changer la réalité ... D'autre part, cette attitude de réduction du champ embrassé afin de gagner en
intelligibilité, nous le retrouverons à plusieurs reprises dans la suite de l'exposé. L'organisation et la
compréhension de l'information passent bien souvent par sa réduction.


Le LET a réalisé en collaboration avec divers centres de recherche français et
africains en économie des transports une recherche sur des politiques permettant
de réduire les coûts du camionnage en Afrique subsaharienne (ASS). Lancée
à


' l'initiative de la Banque mondiale mais sur financement de la Coopération
française, elle visait
à confirmer la réputation de cherté du camionnage en ASS
et
à en isoler les causes.
Il a donc fallu préciser ce que l'on entendait par prix du camionnage (définition
d'un concept), par coûts d'exploitation des entreprises (s'agit-il d%n coût réel
-
comptable- ou d'un coût apparent - perçu par le transporteur- ?), quelle pouvait
être la relation entre prix et coûts (liaison entre deux concepts),
... Un cadre
conceptuel a ainsi été élaboré.
L'une des hypothèses de base était que le secteur des transports routiers de
marchandises est fortement hiérarchisé, qu'aussi bien les prix que les coûts et
que les relations entre prix et coûts varient d'un niveau hiérarchique
à l'autre.
Par hiérarchie (autre concept de base), on entend une relation forte entre les
divers paramètres susceptibles de caractériser une expédition
: quantité,
distance, accompagnement de la marchandise, origine et destination, nature du
contact entre chargeur et transporteur,
...
Afin de valider cette hypothèse, de mesurer les prix et les coûts, de repérer des
surcoûts,
... nous avons réalisé des relevés de prix et des entretiens sur les
pratiques de transport et les postes de coût auprès des principaux acteurs du
secteur dans trois pays
: Cameroun, Côte d'ivoire, Mali.
Les exemples (en italique) de cette première partie porteront sur ce travail.




6 6

▲back to top

1.2 - LES ENQUETES TRANSPORT
Les techniques d'enquête, qu'elles ou non le secteur transport, se ventilent en


techniques qualitatives et techniques les premières visent à éclairer en
profondeur un phénomène, à travers auprès des principaux acteurs,
alors que les secondes visent moins prendre la mesure. Mais cette
présentation est trop caricaturale : aussi à valider des schémas
explicatifs tandis que les d'estimation. Dans la
pratique, les oppositions complémentarité
entre les deux approches


Il existe différentes façons de les techniques quantitatives d'enquête utilisées
dans le champ transport. On peut ainsi se une grille par mode, par type spatial de trafic
(urbain, non urbain), par nature des (valeurs, comportements, perception des
modes, ...), ... Sans chercher à être des techniques, on s'appuiera ici
sur une organisation par type


LES COMPTAGES


Les comptages peuvent être aussi bien en milieu urbain qu'en rase campagne. Ils
permettent de connaître les flux de soit pour l'ensemble des modes
de transport. Ils sont ainsi utilisés de voirie (dimensionnement de chaussée
par exemple), pour suivre composition sur une portion du réseau
d'infrastructures des flux. Ils peuvent être utiles aussi
dans le cadre de (matrices OD) ou pour dimensionner
des stratégies de régulation du trafic.


Ils peuvent être manuels ou matiques, et dans ce dernier cas permanents ou
temporaires. Ils peuvent être réalisés sur un donné d'infrastructure ou concerner l'ensemble
des mouvements effectués par les véhicules on parle alors de comptage directionnel.


LE MILIEU URBAIN


Toujours sans chercher à être arfaitement exhaustifs, on définira quatre grandes
catégories d'enquêtes en milieu urbain.


Les enquêtes OD diffèrent se de concerné. Pour les modes collectifs, la
technique la plus usuelle consiste en l'utilis rtes à coupons détachables remises à chaque
usager lors de sa montée dans le bus et réc de sa descente. Un code figurant sur la carte
identifie l'entrée dans le réseau tandis que 1 pérée facilement dès lors que l'on prend soin
de ne pas mélanger les paquets constitués à c des arrêts ; les coupons détachés correspondent
aux réponses à des questions supplémentaires xemple le sexe, l'âge, ...). Les OD reconstituées
ainsi sont toutefois de "fausses" OD (han espondances, assimilation des extrémités du
déplacement aux arrêts du réseau TC). P ndividuels (voiture, mais aussi deux roues),
deux techniques s'affrontent, les enqu fication du véhicule (relevés de plaques
minéralogiques -sur papier, sur magnéto directement sur micro-ordinateur-, collage
de papillons de couleur) et les enquêtes écessitant l'arrêt du véhicule en bordure de
voie. On conçoit aisément que les s t fournir des résultats plus élaborés (et
notamment de véritables OD), même peuvent prétendre à la simplicité et à
l'exhaustivité.




7 7

▲back to top

Des enquêtes spécifiques aux transports collectifs sont conçues pour mieux connaître la
clientèle utilisant ces services. On distingue ainsi les comptages de montée et descente aux arrêts qui
fournissent la fréquentation des stations et la charge des tronçons, les enquêtes embarquées qui
contribuent à la reconstitution de matrices OD mais informent également les exploitants sur les
besoins, représentations, récriminations ... des usagers.


Les enquêtes ménages concernent généralement un grand nombre de ménages
interrogés à leur domicile sur leur mobilité (fréquence et motifs de déplacement, usage des
modes, ...), leur connaissance et leur appréciation du réseau de transport collectif, ... 11 s'agit là de
procédures généralement très lourdes et très onéreuses, les informations recueillies étant toutefois
plus riches.


Les enquêtes aux générateurs de trafic sont réalisées dans des centres d'activité
importants (centres commerciaux, hôpitaux, grands lycées ou universités ...), le plus généralement à
base de questionnaires administrés. Elles renseignent sur les pratiques de déplacement liées à ces
générateurs et dans le cas de centres à rayonnement régional peuvent fournir des indications sur la
mobilité non urbaine.


LE MILIEU INTERURBAIN


En plus bien sûr des divers types de comptage, on retrouve en milieu interurbain la
plupart des techniques utilisées pour les transports urbains. C'est ainsi que des enquêtes auprès des
ménages peuvent servir à reconstituer les comportements de déplacement non urbains ou que des
enquêtes dans les cars ou dans les gares routières permettent de mieux connaître les usagers des
transports collectifs.


Les pesées d'essieu sont par contre plus spécifiques de la rase campagne. Elles sont
réalisées soit en arrêtant les véhicules et en pesant alors essieu par essieu (la balance peut alors être
portable), soit par une balance dynamique insérée dans la chaussée (le poste de pesage est alors bien
évidemment fixe). Le principal problème concerne bien évidemment la résistance etlou l'entretien du
matériel ... Ces pesées sont par contre le meilleur moyen d'obtenir des informations fiables sur la
charge des véhicules.


1.3 - QUELQUES DEFINITIONS
Un questionnaire d'enquête est auto-administré dès lors que c'est l'enquêté qui le


renseigne. Dans le cas où un enquêteur assure la passation du questionnaire, on parle de
questionnaire (ou d'enquête) administrée. La première technique est bien évidemment moins
onéreuse que la seconde. Mais les questionnaires complexes (par exemple ceux d'enquêtes ménages)
nécessitent généralement la présence d'un enquêteur professionnel susceptible d'expliquer aux
enquêtés, ou à certains d'entre eux, d'éventuels points obscurs. Notons toutefois que ces différences
de traitement entre enquêtés risquent de conduire à l'apparition de biais.


La population est l'ensemble étudié. Elle se compose d'individus, éléments de base de
cet ensemble.11 peut exister dans une même enquête plusieurs populations "emboîtées" les unes dans
les autres. Des niveaux d'observation différents peuvent ainsi coexister dans une même enquête. On
peut ainsi être amené à relever simultanément un ensemble de caractéristiques de ménages (première
population) ainsi que des caractéristiques de chacun des individus faisant partie de ces ménages
(seconde population). On parlera dans ce cas d'gnauêtes hiérarchisées.




8 8

▲back to top

L'enquête camionnage une enquête hiérarchisée où figurent plusieurs
populations. En effet (structure du parc par exemple) ont été
recueillies auprès population) puis des données sur des
expéditions saisies dans chaque entreprise (les


située à un niveau hiérarchique
inférieur).


Les analyses peuvent être des niveaux d'observation, mais aussi s'appuyer sur
les résultats de procédures désagrégation. C'est ainsi que des comparaisons
internationales sur des de mobilité, ... désignent des niveaux d'analvse
(le pays en des niveaux d'observation. La production des


de terrain. Nous reviendrons ultérieurement
sur ces productions "dérivées" de données.


Le niveau hiérarchique O le pays sont des niveaux d'analyse et non pas
d'observation. Un certain n mbre de données seront donc élaborées pour chacun
de ces niveaux (par exempl
, prix moyen unitaire par niveau hiérarchique) F


Les individus sont observés l'aide de caractères présentant deux ou plusieurs
modalités. Les questions correspondantes dites fermées lorsque les modalités entre lesquelles
l'enquêté choisit ont été définies ouvertes lorsque la réponse est libre. Ces caractères
renvoient aux concepts que l'on' la phase initiale. Ils en sont une traduction, plus ou
moins grossière, et donc une trahison.


Le concept de hiérarchie, t 1 qu'il a été défini, se présente comme un phénomène
multidimensionnel comple e. Plusieurs stratégies permettent de l'approcher
empiriquement
: on peut s tuer une expédition dans la hiérarchie en se fondant


.+iuniquement sur la distanc parcourue ou sur la quantité transportée ou bien en
combinant ces deux param tres ou bien en agrégeant trois, quatre,
... paramètres
la caractérisant. Mais da s tous les cas, plusieurs dimensions du phénomène
i multidimensionnel "hiérar hie" seront occultées. L'indicateur empirique trahira ainsi le concept.
Le type de véhicule est u
ou pick-up, camion
qu'il puisse être


statistique discrète. Regroupé en
de 3
à 6, de 6 à I I , de I I à


un caractère qualitatif Le
dans lequel les entreprises


au niveau d'observation


Les caractères, qui correspondert
différente. On distingue des caractères au
modalités constitue une nomenclature) et d
valeurs isolées ; soit çontinus, à valeurs en I
caractère qualitatif à partir d'une variable
de classes. Enfin, dans le cas d'enquêtes
que d'assurer une liaison, une filiation entre
ménage", figurant dans le questionnaire mér
valeur unique pour les différents membres d'u


aux items du questionnaire, peuvent être de nature
.Matifs (modalités non mesurables, l'ensemble des
:s caractères auantitatifs (soit discrets, c'est-à-dire à
ombre infini). Il est toujours possible de générer un


statistique en regroupant ses modalités en un nombre fini
hiérarchisées, certains caractères n'auront d'autre fonction


les différents niveaux (par exemple, un "numéro du
age et dans le questionnaire individu et prenant une
i même ménage).




9 9

▲back to top

L'enquête est exhaustive lorsqu'elle touche l'ensemble de la population concernée. Dans
le cas contraire, la constitution de l'échantillon d'enquête visera à assurer une re~résentativité
structurelle (on sur-représente a priori des individus présentant des caractéristiques rares et . .
supposées intéressantes vis-à-vis de l'objet d'étude) ou une re~résentativité statistiaue (on cherche à
rendre compte "exactement" de la population de départ).


L'enquête sur les prix du camionnage visait une représentativité structurelle, les
expéditions du le bas de la hiérarchie devant y être sur-représentée.


Dans le cas d'une représentativité structurelle, on pourra constituer l'échantillon par la
methode des auota. Elle consiste à se donner un certain nombre d'items (par exemple l'âge pour un
individu, le secteur d'activité pour une entreprise) et, pour chaque modalité de chaque item, à fixer
un nombre d'enquêtes à réaliser. Si l'on recherche une représentativité statistique, il conviendra de
partir d'une base de sondage regroupant l'ensemble de la population étudiée et de générer un
bchantillon aléatoire simple. Un échantillon sera dit aléatoire si tous les individus de la population
ont la même probabilité d'être sélectionnés, simple si les individus sont tirés indépendamment les
uns des autres. La première méthode se révèle tout à fait suffisante dès lors que l'on se contente de
valeurs relatives tandis que la seconde est la plus adaptée pour produire des informations en valeur
absolue (et donc a fortiori en valeur relative). Mais elle impose de disposer d'une base de sondage
exhaustive, ce qui n'est pas toujours le cas, et revient très cher.


La production des informations sera abordée ici rapidement, à travers un certain nombre
de remarques à propos de la collecte sur le terrain et des différentes étapes de la mise sur
informatique.


2.1 - LA COLLECTE SUR LE TERRAIN
Le choix du personnel d'enquête est déterminant pour la qualité des résultats. Ce


personnel ne se limite pas aux seuls enquêteurs. Leur activité doit être en effet contrôlée par un
personnel spécialisé. Ces deux catégories de personnel doivent subir une formation théorique
(présentation en chambre des objectifs de l'enquête, de son organisation, explicitation des différentes
questions, ...) et une formation pratique (passation sur le terrain du ou des questionnaires avant le
début réel de la phase d'enquête) qui peut conduire à en rejeter certains.


Ce test en situation des enquêteurs doit avoir été précédé de tests des questionnaires. La
compréhension des objectifs de l'enquête et surtout des différentes questions doit en effet être
évaluée préliminairement auprès d'un public similaire à celui qui subira ensuite l'enquête en vraie
grandeur. Ce test est la dernière occasion pour des modifications de formulation, l'élimination ou le
remplacement de questions. C'est également l'occasion de revenir sur la langue à utiliser, afin de
trancher entre langue véhiculaire et langue vernaculaire.




10 10

▲back to top

2.2 - LA MISE SUR INFORMATIQUE
Le transfert des données, des ordereaux d'enquête aux fichiers informatiques de


travail, se décompose en trois phases.


En matière de codage, une seul
solution la plus simple pour le personnel de
recoder, regrouper, calculer, .. . (voir plus loin)


philosophie est à adopter : rechercher toujours la
,dage, l'ordinateur pouvant ensuite "travailler" pour


Cette "philosophie" montre d'un précodage pour chaque variable l'autorisant.
Pour les variables quantitatives, la doit bien évidemment correspondre à la valeur
enregistrée, à un éventuel facteur Pour les caractères qualitatifs, la codification peut
être numérique (à chaque et un seul nombre) ou alphanumérique (à chaque
modalité correspond un et de quatre caractères) : la première est moins
coûteuse, la seconde plus "parlante".


Les trois modalités du type véhicule, caractère qualitatif, peuvent être codées
par exemple UTLE, PORT SEM1 (codification alphanumérique) ou 1, 2 et 3
(codification numérique).


Sur le plan matériel, le codage une équipe de codeurs, préalablement formés et
testés (par exemple en codant les test des enquêteurs !). Un manuel de codage
exhaustif est également l'équipe est importante, afin d'éviter les
flottements et Le codage se traduit, sauf lorsqu'il a


de codage standardisé. Dans le cas
bordereaux et les manuels
entre les différents niveaux


(voir plus haut).


LA SAISIE


La saisie permet de créer le ou les ichiers informatiques de base issu(s) de l'enquête. f
La saisie de masse est la saisie 'bête et méchante", au kilomètre. Elle implique, ou


devrait impliquer, systématiquement une doubl saisie de chaque bordereau de codage. Elle s'oppose
à la saisie contrôlée, qui permet de vérifier a fur et à mesure la validité des données. C'est alors
simultanément une phase d'apurement : l'arbitr ge est donc à faire entre le nombre de contrôles lors
de la saisie, coûteux en temps et ralentissant d nc la saisie, et ceux lors de l'apurement proprement
dit. 1


Là encore, un personnel spéciffque doit être recruté, formé et testé (rapidité,
fiabilité, ...).




11 11

▲back to top

LA PREPARATION DES DONNEES


La préparation des données peut être décomposée en deux phases : l'apurement, la
génération de nouvelles variables.


L'apurement recouvre deux aspects: l'apurement aux bornes et l'apurement de
cohérence.


Les caractères qualitatifs, de même que les variables quantitatives discrètes, n'admettent
qu'un certain nombre de valeurs (numériques ou alphanumériques). Il importe alors de vérifier que
les valeurs enregistrées sont bien des valeurs autorisées. On parle alors d'apurement aux bornes.


Les valeurs licites pour le type de véhicule, si sa codification est numérique (voir
supra), seront 1, 2 et
3. Toute autre valeur devra alors être signalée.


L'apurement de cohérence a pour but de tester la cohérence entre les différentes
informations recueillies lors de l'enquête. Ces croisements entre informations peuvent toucher des
niveaux hiérarchiques différents.


Si le véhicule utilisé par le transporteur pour une des expéditions recensées
(information enregistrée au niveau expédition) n'apparaît pas dans le parc
déclaré (information appartenant au niveau d'observation entreprise), une erreur
doit être signalée.


Attention, toutes les erreurs repérées à l'occasion de l'apurement (aux bornes ou de
cohérence) ne sont pas nécessairement conigibles. En effet, elles peuvent résulter d'un problème lié
à la saisie mais aussi relever de la phase d'enquête elle-même, soit faute de l'enquêteur, soit cas
particulier mal identifié lors de la rédaction du questionnaire et conduisant à des incohérences. Dans
le premier cas, il suffit en fait de retourner vérifier les informations sur les fiches d'enquête et de
comger les fichiers informatiques, mais dans le second cas, il n'y a le plus souvent pas d'issue
satisfaisante.


La création des nouvelles variables est tout à la fois à la dernière étape de la préparation
des données et la première étape de l'analyse. Certains indicateurs ne peuvent être recueillis lors de
l'enquête mais peuvent être calculés à partir de données élémentaires. C'est par exemple le cas d'un
prix à la tonne-kilomètre, rarement connu du transporteur, alors que le prix total perçu, le tonnage et
la distance parcourue sont des informations mieux maîtrisées par l'opérateur. Il y a bien là au sens
strict une préparation des données. Par contre, si l'on cherche à élaborer un indicateur de
l'organisation spatiale des déplacements d'un individu (succession d'allers et retours au domicile, ou
bien présence de déplacements secondaires, ...), on aura là au contraire les prémisses de l'analyse du
comportement de mobilité des individus. La création de nouvelles variables est donc une phase
extrêmement importante (et extrêmement longue aussi parfois !) qui montre bien, s'il en était encore
besoin, que ces données ne sont guère données mais bien toujours à produire.


Le prix à la tonne-kilomètre sera calculé automatiquement en divisant le prix
total par le produit de la distance par la quantité.


Le personnel nécessaire dans cette ultime phase de la production des données est
sensiblement plus qualifié que pour les phases précédentes. Informaticiens ou statisticiens doivent
être associés avec des chargés d'études ayant participé à la conception du questionnaire.




12 12

▲back to top

B - LES SYSTEMES D'I


1 - DEFINITION ET 0B.TECTIFS


1.1 - DEFINITION
On peut définir un Système d'Infc


movens humains et matériels dans le but de
selon des procédures déterminées. Ces don:
données.


Movens humains : en fonction
personnel sera plus ou moins poussée ; s
opérateurs de saisie, ...


Movens matériels : la baisse du
performances ont entraîné la généralisation
distingue :


- le matériel. Il s'agit des micro-ordinateurs et (
- les logiciels. Quatre types de programmes SOI


* un Gestionnaire de Bases de Données
un premier traitement des données ;
* un tableur permettant de réaliser des c4
* un grapheur permettant de représente:
tableurs) ;
* un traitement de textes pour produire (


L'utilisation d'un logiciel statistiq
plus complexes (analyse statistique).


Produire rémlièrement : il est es
réguliers afin de constituer des séries chrono10


Produire à la demande : compte tc
possible de réaliser tel ou tel traitement pour rf


Procédures déterminées : afin d
rupture de série chronologique, les données dc
et répétitives (collecte des données, codage et i


Base (ou Banaue) de données : 1
fait explicitement référence à l'utilisation dt
Données Relationnelles (cf. supra) permet d'ac
fichiers. 11 permet en particulier d'exploi
(immatriculations d'une part et licences de tran


-10-


FORMATION STATISTIQUE


nation Statistique (SIS) comme la mise en oeuvre de
pduire répulièrement ou la demande des données
es sont stockées dans une Base (ou Banque) dg


le l'importance du système, la spécialisation du
tisticiens spécialisés par secteur, informaticiens,


ix des micro-ordinateurs et l'augmentation de leurs
le leur utilisation en matière de statistiques. On


leurs périphériques.
nécessaires.
elationnelles permettant de saisir, stocker et réaliser


:uls et des tableaux complexes ;
~aphiquement les données (intégré à la plupart des


s rapports.
: spécifique ne s'impose que pour les traitements les


ntiel que les données soient produites à intervalles
ques.


u de la masse d'informations stockées, il est souvent
mdre à une demande spécifique.


;surer la cohérence des données et d'éviter toute
lent être produites selon des procédures déterminées
isie, traitement, ...).


terme de "Base", contrairement à celui de Banque,
l'outil informatique ; un gestionnaire de Bases de
ider facilement aux données stockées dans différents
r simultanément plusieurs fichiers de la base
~ort d'autre part, par exemple).




13 13

▲back to top

1.2 - OBJECTIFS
La constitution d'un SIS renvoie à quatre objectifs.


L'Etat pour contrôler et prendre des décisions doit connaître avec précision le secteutr
concerné. Les mots "Etat" et "statistique" ont d'ailleurs la même origine.


Un Système d'Information Statistique permet un suivi systématique du système de
transport et d'en repérer les éventuelles transformations : prix de transport, coûts, parts du marché
entre transporteurs nationaux et étrangers en transport international, ...


Il est également une source d'informations pour les études sur le secteur des transports.
Diverses études peuvent utiliser les mêmes données de base. Dans un souci de cohérence, il est
important qu'elles utilisent les mêmes sources.


Enfin, les données que produit un SIS peuvent être utiles dans d'autres domaines :
compatibilité nationale, commerce extérieur, ...


2.1 - LES SOURCES
Deux types de sources peuvent être utilisées, les enquêtes et les fichiers administratifs.


Les enquêtes, lorsqu'elles sont réalisées selon les règles de la statistique, sont plus
fiables que les sources administratives mais peuvent se révéler extrêmement coûteuses.


La production de données par des enquêtes est particulièrement coûteuse. Pour ce type
de données, il vaut mieux utiliser des sources administratives en les complétant, éventuellement, par
des enquêtes ponctuelles.


Il est évident qu'il n'est pas du ressort d'un service statistique d'informatiser l'ensemble
des fichiers administratifs. Ceux-ci doivent lui être transmis par les services concernés : Service des
Cartes grises, des Licences de Transport, ... Une collaboration étroite entre le service statistique et
les autres services est alors nécessaire. Il est souvent souhaitable de faire remplir un questionnaire
statistique à l'occasion d'un acte administratif.


2.2 - LES DIFFERENTS TYPES DE DONNEES
Après une vue d'ensemble, nous présentons en détail les données relatives au transport


routier non urbain.


VUE D'ENSEMBLE


Les données à produire dépendent des besoins et des coûts de leur production mais
également de l'organisation spécifique du système de transport dans chaque pays. Un pays sans voie
ferrée n'aura pas à se préoccuper de données ferroviaire, par exemple.


Un SIS peut être amené à couvrir les domaines suivants :




14 14

▲back to top

- transport aérien : flux de passagers, fret et 1
parcs d'aéronefs, ...
- transport maritime : trafics par port d'embarqi
- transport fluvial et lacustre : nombre et 1
destination, ...
- transport ferroviaire : nombre et caractéristiqi
- transport urbain : parc de transport public, tra
- Transport routier non urbain (voir infra).


)ste par origine destination, mouvements d'aéronefs,


:ment, par compagnie maritime, taux de fret, ...
apacité des péniches ou pinasses, trafic origine-


:s des wagons, caractéristiques des voies, ...
ic, accidents, coûts de transports, tarifs, ...


Le nombre de données qui peu ent avoir à être centralisées dans une Banque de
Données est donc considérable. Nous nous foc liserons dans la suite de l'exposé sur le domaine des
transports routiers non urbains. l


Les données relatives aux transpo s aériens, maritimes et ferroviaires sont plus faciles à
produire et plus fiables que les données au transport routier car il s'agit d'un transport
beaucoup plus concentré : nombre points de chargementldéchargement, grandes
entreprises, ...


LE S D ONNEES RELATIVES AU TRANSPOIlT


En ce qui concerne le transport ro tier non urbain, cinq grandes catégories de données
peuvent être recensées.


ROUTIER NON URBAIN


Offre de transDort


Les données relatives à l'offre ement les infrastructures routières, les entreprises du
secteur, le parc de véhicules et leurs coûts


* Infrastructures routières


Source : inventaire routier
Données à recueillir par tronçon :


- kilométrage
- largeur
- nature de la chaussée
- état de la chaussée
- pente et courbure.


* Entreprises de transport


Source : fichier des licences ou
Données à recueillir :


- nombre et taille des entreprises
- créations - disparitions
- activités.




15 15

▲back to top

* Parc de véhicules


Sources : fichier des immatriculations, des licences de transport, des visites techniques, des
vignettes, ...
Données à recueillir :


immatriculations et ré-immatriculations
données sur le parc en fonction des types de véhicules, de leur capacité (passager ou
charge utile), de leur marque, de leur âge.


* Coûts d'exploitation des véhicules (données nécessaires à leur élaboration)


Sources : enquêtes, lettres de Voitures Obligatoires
Données à recueillir :


- données physiques : kilométrages, consommation de pneus, de pièces détachées, de
carburant, ...
- données monétaires : prix du carburant, des pneus, ...


Demande de transport


Les données concernent ici les trafics routiers et les flux de transport.


* Trafics routiers


Source : enquêtes de trafic
Données à recueillir :


Trafics par types de véhicules pour chaque tronçon du réseau.


* Flux de transport


Sources : enquêtes origine-destination (transport national), documents douaniers (transport
international), lettres de Voiture Obligatoires (national et international)
Données à recueillir :


- Enquêtes O-D : origine-destination des véhicules et des marchandises (en fonction de
leur nature et de leur poids). Le temps de transport est également une donnée nécessaire
mais difficile à recueillir.
- Documents douaniers : flux origine-destination par marchandise (nature, poids,
valeur), nationalité des véhicules.
-Lettres de Voiture Obligatoires : toutes ces données en transport national comme
international.


Prix de transDort


Il s'agit de données nécessaires à la mesure des performances du système de transport.


Sources : lettres de voiture, enquêtes
Données à recueillir : prix à la tonne.km, par marchandise, véhicule, origine-destination.




16 16

▲back to top

r 1
'
l


1


1 .


' i '
1


1


r 1


4


l
1


~
A


* Courtier de fret ~


* Transitaires 1
~


Accidents de la circulation en rase camp-


éhicules impliqués, ~
nt particulièrement


nombreuses. ~ ~


3.1 - UNITES DE MESURE
s sur les transports


i ~
La charge utile d'un véhicule dépend :
- des caractéristiques techniques des véhicules
- de la réglementation sur le poids des véhi~ule!~.


La capacité de charge utile d'un
charge utile de tous les véhicules qui le composent.


Mais compte tenu des surcharges
ainsi la capacité réelle de charge utile ce qui fai


Si l'on prend la charge effective
surestimer cette capacité (rapport charge
marchandises).


MESURE DES DISTANCES EN KM


La mesure des kilomètres peut être


- à vol d'oiseau,


i-idiquées par le constructeur, ~
parc est alors traditionnellement égale à l'addition de la


1:ratiquées en Afrique (de 50 à 100 %), on sous-estime
sse la comparaison offre-demande de transport.


maximum des véhicules, on risque par contre de
'


utile/volume utile trop important pour de nombreuses ~
~


a priori réalisée de quatre manières différentes :


'
l ~




17 17

▲back to top

- en fonction des kilomètres réellement parcourus par les véhicules,
- en fonction du trajet le plus court,
- en fonction du chemin optimal tel que l'on peut le calculer en fonction des distances et des coûts
d'exploitation des véhicules sur chaque tronçon du réseau.


Si l'on prend la distance réellement parcourue par les véhicules, on peut sous-estimer
certains prix de transport mesurés en tonne.km.


Mais si l'on choisit d'affecter un kilométrage à vol d'oiseau, par le trajet le plus court ou
par le trajet optimal, les données produites ne seront plus cohérentes avec celles sur le kilométrage
annuel des véhicules.


.................. ....
-..


/' B . . . . . . . . .
/ Route en bon état' \\. ,


900 km ..
'\\


Ville 1 \\
'..


i.,
..... -.._ -- * """


Ville 2 1 ' Route en mauvais ktat ~, . -
600 km


Un transport de 30 tonnes est payé 1 000 000 FCFA, quel que soit le trajet choisi
par le transporteur.
S'il choisit le trajet
A, le prix de transport sera de 55 FCFA la tonne.km, s'il
choisit le trajet B, il sera de 41
FCFA la tonne.km.


MESURE DES F7 ,UX DE TRANSPORT EN TONNE.KM


Une tonne.km est égale, par définition, à une tonne de marchandises transportée sur un
kilomètre.


Elle combine donc deux unités :
* la tonne


Il est possible de mesurer les flux en tonnes mais cela entraîne
1) une sous-estimation des transports longue distance,
2) une sur-estimation du transport des produits pondéreux.


* le kilomètre
Il est également possible de mesurer les flux en nombre de kilomètres réalisés par les
véhicules mais cela entraîne


3) une sur-estimation des expéditions de faible tonnage,
4) une sur-estimation des transports longue distance.


L'utilisation de la tonne.km permet de résoudre les points 1 et 3 mais pas les points 2 et
4. Elle sur-estime les transports de charges importantes sur de longs trajet. Or, un transport par
camion de 30 tonnes de coton sur 1 000 km n'est pas équivalent, du point de vue du service produit, à
100 transports par pick-up, de 3 tonnes, de produits maraîchers sur 100 km. Les différences de prix
constatées aux différents niveaux de la hiérarchie du système de transport sont liées à l'utilisation de
la tonne.km comme unité de mesure, qui considère comme équivalents des services pourtant très




18 18

▲back to top

différents. l
Derrière l'apparente neutralité de unités de mesure se cachent donc des choix, bien


souvent implicites. L'usage des unités us elles reste bien évidemment possible et même
indispensable, il suffit de garder à l'esprit les c nsquences de ces choix. i
3.2 - CLASSIFICATIONS l
On distingue deux types de classification :
- les classifications déductives ; on part des d nées brutes pour les regrouper en un certain nombre
de classes (voir supra) ;
- les classifications inductives ; on par établir une classification avant de produire les
données.
L'adoption d'un certain nombre de inductives est nécessaire au fonctionnement d'un
SIS.


Certaines classifications ement employées en statistique transport ne sont pas
entièrement satisfaisantes lorsqu'on e aux systèmes de transport des pays africains.


* Transport de personnes, transport de march dise. P
L'importance du transport mixte, en rticulier dans les pays sahéliens, rend souvent cette
classification non pertinente.


* Transport pour un compte propre, transport Our compte d'autrui P
De nombreuses entreprises sont la fois des entreprises commerciales transportant des


produits qui leur appartiennent (transport Our compte propre) et des entreprises de transport
proprement dites (transport pour compte d'au mi). Dans ces conditions, il est difficile de déterminer
précisément le nombre d'entreprises de trans rt. Il est également difficile de déterminer l'effectif du
parc de transport pour compte d'autrui. i


L'établissement d'une ture est nécessaire lorsque l'on doit réaliser une
classification complexe et qu'il faut d'un très grand nombre de cas différents.


Une nomenclature est une structure arborescente permettant de réaliser
des regroupements de postes plus Un code est ensuite affecté à chaque poste,
code permettant de repérer et sa nature.


Nous prendrons ici l'exemple d la classification des produits transportés. e(
Dans toute la mesure du possibl , une nomenclature doit répondre à deux conditions : P


- équilibre entre les postes,
- homogénéité.




19 19

▲back to top

En ce qui concerne une Nomenclature des Produits Transportés, il faut que chaque
poste regroupe des marchandises transportées dans des conditions homogènes. On peut par exemple
regrouper le coton et les engrais. Mais ces conditions ne peuvent pas toujours être respectées.


* l'arachide peut être à la fois un produit vivrier et un produit agro-industriel.
* les céréales peuvent être de provenance locales ou importées.


m
Sorgho - 7~ ~


Cédaieset 1
farines


Biens de conso.
alimentaires


Ensemble des


Niveau O Niveau 1 Niveau 2


01 biens de consommation alimentaire
01:01 céréales et farines
01:01:01 sorgho.


Une nomenclature doit tenir compte de la spécificité de chaque pays. Elle n'est jamais
totalement adaptée à un objet d'étude précis.


4 - FIABILITE DES SOURCES ADMINISTRATIVES
Nous avons déjà souligné que les données produites par enquête était plus fiables que


celles issues de documents administratifs mais qu'elles étaient très coûteuses si l'on voulait produire
des données en valeur absolue (enquête origine-destination par exemple).


Les sources administratives sont normalement des sources exhaustives mais le non-
respect de la réglementation se répercute sur la fiabilité des données.


- Transporteurs travaillant sans licence,
- Sous-estimation des prix indiqués sur les LVO,
- Sur-estimation du parc (non retrait des cartes grises).


Niveau 3


11 est par contre souvent possible de redresser les données issues des sources
administratives en comparant les données ou en réalisant des enquêtes complémentaires.




20 20

▲back to top

C - LES METH ES STATISTIQUES. P
Cette troisième partie comportera sections. La première commence par un petit rappel


historique dont l'objectif consiste à démystifi quelque peu une discipline scientifique vaste dont
nous n'en étudierons qu'une partie limitée : "la statistique descriptive". C'est pourquoi nous
préciserons dans un deuxième point les lirni es de ce cours de méthode. Enfin, il est essentiel
d'apprendre à développer un sens critique par pport à l'emploi de l'outil statistique. C'est pourquoi
nous avons repris, dans un troisième point, une classification des erreurs statistiques les plus
courantes proposée par J. KLATZMANN, dan ! son ouvrage "Attention statistiques !"(Il.


La deuxième section nous de préciser un certain nombre de définitions
essentielles. Il sera également en revue les principaux outils de traitement
statistique uni-varié. Ces outils population statistique au regard d'un seul
caractère. On distinguera tout puis nous présenterons une série
d'indicateurs de tendance


La troisième section traitera de 1 statistique bi-variée. Nous apprendrons cette fois à
utiliser les instmments statistiques qui permet ent l'observation d'une population au regard de deux
caractères pris simultanément. 1


Les deux dernières sections abord ront les méthodes factorielles et de classification. t
Chacune de ces sections sera il1 strée d'exemples extrait de l'enquête sur la mobilité


réalisée par le LET à Ouagadougou en février 992. L'échantillon d'enquête porte sur 3682 individus
de14 ans et plus. 1
1.1. UN PETIT HISTORIQUE DE LA STA ISTIQUE T


La statistique a d'abord été et a consisté à l'origine à observer des faits. Les
premiers recueils de données Ce sont les chefs d'Etat, qui les premiers
éprouvèrent le besoin de puissance : population, potentiel militaire,
richesses ... Les premiers avec la civilisation sumérienne, de 5000
à 2000 ans avant notre d'hommes et de biens inscrits sur des
tablettes d'argile. De des biens a lieu régulièrement en
Mésopotamie 3000 ans semble avoir été la première nation à
organiser des depuis l'an 2900 avant J-C, mais


à 2500 avant J-C). Sous le
tenu de déclarer ses sources


IJ. KLATZMANN, "Attention statistiques !
Découverte, essais, 1992,251 p.


Comment déjouer les pièges", Paris, Editions La




21 21

▲back to top

Si la statistique est très ancienne, l'apparition du mot statistique lui-même, est
relativement récent, même s'il est très difficile de l'attribuer à quelqu'un en particulier. Ii existe une
Biblioteca Statistica datant de 1701 et un Microscopium Statisticum remontant à 1672. On peut
encore trouver des traces du mot statistique dans le langage administratif français colbertien à travers
une Déclaration des biens, charges, dettes et statistiques des communautés de la généralité de
Bourgogne, établie par un certain Claude BOUCHU, intendant de Bourgogne de 1666 à 1669.


1.2. STATISTIQUE DESCRIPTIVE OU STATISTIQUE INDUCTIVE


La statistique descriptive résume, récapitule, analyse un ensemble de données à l'aide
d'un ou deux éléments d'information qui caractérisent la totalité de ces données. On distingue, tout
d'abord, la statistique uni-variée qui permet d'observer une population au regard d'un caractère et la
statistique bi-variée qui consiste à étudier une population en croisant deux caractères. Il est
également possible d'étudier une population en considérant simultanément toute une série de critères.
On sort alors du domaine de la statistique purement descriptive pour entrer dans ce que l'on appelle
communément "l'analyse de données". Cette approche propose une panoplie d'instruments assez
riche et recourt régulièrement aux représentations graphiques et à la géométrie. L'expansion de
l'informatique a largement contribué au développement de ces techniques qui remportent aujourd'hui
un large succès.


LA STATISTIOUE INDUCTIVE


La statistique inductive s'attache à deux catégories de problèmes : les problèmes
d'estimation visant à généraliser à une population les résultats obtenus sur un échantillon extrait de
cette population, les tests d'hypothèse ayant pour but d'accepter ou de rejeter la validité d'une
hypothèse. Quelle que soit la méthode, les échantillons doivent être aléatoires et simples. De plus,
des hypothèses sur la distribution de probabilité du phénomène dans la population mère sont souvent
nécessaires.


Exemples de problèmes : construction d'un intervalle de confiance pour estimer une
moyenne (problème d'estimation) ou test de conformité d'une moyenne (test d'hypothèse), tests
d'ajustement d'une distribution empirique à une distribution théorique, test d'indépendance de deux
caractères qualitatifs, test de l'égalité des moyennes entre elles dans le cadre d'une analyse de la
variance, utilisation de la régression linéaire à des fins de prévision, ...


En dépit des hypothèses lourdes portant sur la nature des distributions dans les
populations mères (l'hypothèse de normalité par exemple), ces techniques demeurent encore
largement utilisées, le meilleur exemple étant le développement de l'économétrie.




22 22

▲back to top

*


I
l


1 .
l J


c & ,


l


I


'.


*~
l


l
1


l


1 ~


~
répondre. Quelle valeur aura cette réponse ?


1 ~


LES STATISTIOUES TRUOUEES


~
Le fait d'interroger un millier de 5ersonnes au cours d'un sondage, permet de ce faire 1


L


une idée de l'opinion d'une population beaucoup
une population importante ne peut être
restreints. Que dire de l'opinion des agriculte~rs
agriculteurs. Compte tenu de leur place actuelle
souligne qu'il faudrait interroger plus de 15000


UES "VRAIES-FAUSSES"


Il s'agit de statistiques exactes qri
lieu à des interprétations erronées. Pour pouvoir
que les abscisses ou les ordonnées ne commencent
de la courbe représentée peuvent donner l'il1
réalité.


LES AFFIRMATIONS SANS AUCUN


Attention aux affirmations
fois pour qu'il devienne quasi-officiel. Personne
Klatzmann prend l'exemple des 50 millions de
frappé les imaginations. A l'époque, le nombre
était inférieur à ce chiffre.


plus importante. Mais l'interprétation qui vaut pour
interprétée de la même façon pour des groupes plus


lorsque sur 1000 personnes interrogées, sept sont
dans la population française, Joseph Klatzmann


personnes pour trouver parmi elles 1000 agriculteurs.
~
~ ~


présentées d'une certaine manière peuvent donner l


réaliser un graphique plus lisible, on peut souhaiter
pas à zéro. Cependant les variations observables


ision d'être plus importantes qu'elles ne le sont en 1


FONDIZMENT


intempestives. 11 suffit qu'un chiffre ait été repris plusieurs
1


dès lors ne le remet plus en doute. Joseph
morts de faim par an qui, il y a quelques années, a
total de décès par an, toutes catégories confondues, ' ~




23 23

▲back to top

LA PRECISION ILLUSOIRE


Beaucoup de résultats ne sont que des ordres de grandeur. Cela n'empêche pas de
nombreuses personnes de publier ces résultats avec un maximum de "précision". Le cas le plus
fréquent concerne les pourcentages fournis avec un, voire deux chiffres après la virgule. Le type
d'enquêtes permettant d'obtenir certains résultats et les risques d'erreurs importants devraient nous
inciter à une plus grande prudence.


LE S MO Y ENNES SANS SIGNIFICATION


Le recours aux moyennes permet de gagner en lisibilité. Il convient toutefois d'être
prudent. Quel intérêt constitue la comparaison de la densité de la population en Egypte et en France,
dans la mesure où en Egypte la quasi-totalité du territoire est un désert. La densité peut ainsi paraître
faible alors qu'au contraire, elle est importante dans les zones habitables.


E R
DIRE -


Beaucoup de gens sont friands de slogans du type :"il y a un chômeur de plus toutes les
deux minutes". Ce genre d'expression n'est pas sans comporter certains risques. En effet, est-on
capable d'évaluer ce que cela représente ? De quel pays s'agit-il ? Quelle est sa population active ?
Combien d'emplois ont été créés dans le même temps ?... Ce genre de simplification est pour le
moins dangereux.


L'exemple le plus classique consiste à comparer les revenus entre deux pays. Dans l'un
on peut vivre raisonnablement avec une certaine somme. Dans I'autre cette somme paraît dérisoire.


LES FAUSSES CORREJ .ATIONS


Une corrélation est une relation positive ou négative entre deux phénomènes. Cette
relation n'est pas absolue. La corrélation exprime souvent une relation de cause à effet. Si dans
certains cas cette relation est évidente, dans d'autre cas elle est bien difficile à affirmer. Parfois
chacun des deux phénomènes est à la fois la cause et l'effet, mais parfois la corrélation ne résulte
d'aucune cause ou effet entre les deux phénomènes observés. L'interaction d'un troisième phénomène
peut alors expliquer les variations observées.


Il existe enfin un certain nombre de pièges dans lesquels le statisticien n'est jamais à
l'abri de tomber : "Dans chaque région, on constate que les agriculteurs consomment par personne
plus de mil que les non agriculteurs. En revanche, au plan national, la consommation des non-
agriculteurs est supérieure à celle des agriculteurs". Il suffit pour cela que les agriculteurs soient
concentrés dans les régions où la consommation de mil est la plus faible.


Il est essentiel de bien faire la différence entre "la statistique" et "les statistiques". La
statistique regroupe l'ensemble des méthodes scientifiques qui permettent d'analyser
quantitativement l'information. Elle est de ce point de vue parfaitement rigoureuse. Les statistiques




24 24

▲back to top

1


1
l


1 ,
4


1


-*al


I


~


\\ ~


1
l


i
l ~
~


xquels conduit l'application de ces méthodes.
1 interprétés (volontairement ou non). Les
truqués. Tout au plus pourront-ils être mal


choisis face à un objectif donné.


l ~
e à arbitrer entre la recherche d'une plus ~ ~ nformation. Il est souvent difficile pour ne


brut constitué, par exemple, à partir des
oncemant une centaine d'individus ayant
1 du statisticien va consister à faire des


~
èses, pour extraire une information et la
panoplie d'outils. Les tableaux et les
s constituent pour le statisticien, deux
sentent l'avantage de la simplicité, les


~
~


s à avoir recouru aux statistiques était
s termes tels que la population ou les


vailler. Il conviendra toutefois de ne
graphique. Population et individus ~


doivent être pris au sens large du terme.


POPULATION STATISTIOUE
~


t le terme générique de population.
Lorsque l'on parle de population étudiée, il s'agir de la population française repérée par le


i
es expédiées par une entreprise de
iculier, d'accidents de la route qui


n ensemble d'êtres humains, à
immatériels ou encore à des
mble fini d'éléments pouvant


s précise. Les frontières de
tées avec précision. ~ ~


INDIVIDU STATZSTIOUE l ~
ation porte sur un individu
re, mais peuvent être fort


&


différents d'une population à l'autre. Il peit
déplacements d'individus ou de marchandises ...


s'agir de chômeurs, de jours d'une année, de ~ '




25 25

▲back to top

Un élément composant une population peut être caractérisé de très nombreuses façons.
Un individu peut être masculin ou féminin, être d'un certain âge, avoir un certain nombre d'enfants,
disposer d'un certain revenu ... Chacune de ces caractéristiques présente des spécificités et nécessite
un traitement propre. Mais la plupart du temps, pour pouvoir décrire de façon efficace un ensemble
d'individus on va procéder à des regroupements en sous-ensembles appelés caractères.


Les caractères


Pour décrire quantitativement une population, on s'efforce de classer les individus qui la
composent en sous-ensembles. Ce classement peut se faire relativement à un ou plusieurs caractères.
Le statisticien aura pour tâche de ne retenir que les caractères les plus pertinents, en agrégeant les
informations en sous-ensembles cohérents.


Les modalités


Chaque caractère étudié peut présenter deux ou plusieurs situations différentes que l'on
appelle modalités. Pour que le classement d'une unité statistique soit toujours possible sans
ambiguïté, les différentes modalités doivent vérifier les critères d'exhaustivité et d'incompatibilité.
L'incompatibilité signifie qu'aucun individu ne peut entrer dans deux modalités d'une variable.
L'exhaustivité signifie que tout individu doit pouvoir être classé dans une des modalités proposées.
Le respect de ces deux principes garantit le fait que la somme des effectifs de toutes les modalités
d'une variable donne l'effectif total de la population. Pour la même raison, il garantit que la somme
des fréquences relatives est égale à 1 (ou 100%). Tout individu ne peut être compté qu'une seule fois
(incompatibilité) et tout individu doit avoir été compté au moins une fois (exhaustivité).


Il arrive que l'on ait pas de renseignements sur un ou plusieurs individus : il suffit qu'ils
n'aient pas répondu à la question posée ou que l'on ne soit pas parvenu à se procurer l'information.
Deux solutions sont envisageables lors du traitement. La première consiste à créer une modalité
supplémentaire à la variable. Suivant les cas les individus seront rangés dans la catégorie : non
réponse, non valide, ne sait pas, sans réponse..; Dans la seconde, on se limite à l'ensemble des
individus ayant répondu. Dans ce cas, au lieu de travailler sur la population de départ, on travaillera
sur la sous-population des individus ayant fourni une réponse.


Enfin il sera possible de hiérarchiser les modalités selon le degré de finesse de
l'information disponible ou recherchée.


Caractere auantitatif - caractère aualitatif


Un caractère peut être soit qualitatif, soit quantitatif. Dans ce dernier cas, on lui associe
une variable statistique. Cette différence est fondamentale dans la mesure où elle donne lieu à des
traitements distincts de l'information. Le calcul d'indicateurs de tendance centrale ou de dispersion
n'auront, en particulier, de sens que pour les variables quantitatives.


Des caractères sont quantitatifs lorsque leurs modalités sont mesurables, c'est-à-dire
lorsque ces modalités peuvent être traduites par des nombres qui en mesurent les valeurs. Le
caractère quantitatif prend alors le terme de variable statistique. Les modalités figurent alors les
différentes valeurs possibles de la variable.




26 26

▲back to top

Les caractères qualitatifs sont d s caractères dont les modalités échappent à la mesure.
Celles-ci peuvent simplement être constatées.


Il est toujours possible de sformer une information de type quantitatif, en
information de type qualitatif. L'inverse plus exceptionnel et correspond à des cas
particuliers comme la création d'un


Variable quantitative discrète - variable quantitative continue


Une variable est dite discrète ne peut prendre qu'un nombre limité de
valeurs à l'intérieur de son sont soit des valeurs
exactes, soit des regroupements de par ménage, le nombre de
déplacements quotidiens, le entreprise, le nombre
d'employés d'une entreprise,


A l'inverse, une variable est dite ontinue lorsqu'elle peut prendre un nombre illimité
de valeurs à l'intérieur de son intervalle de var' tion. Une telle variable donne lieu, dans la réalité, à
des regroupements en classes. Le poids ou la ongueur d'un colis, le chiffre d'affaires, le salaire, ...,
sont des variables quantitatives continues. i


La frontière entre le "discret" et 1 "continu" est illusoire et artificielle, compte tenu de
la précision des techniques de mesure. Le re oupement des valeurs en classes donne lieu à deux
problèmes particuliers : t


- le choix de l'amplitude qui pourra A re constante ou variable,
- la définition des extrémités de clas es, en particulier la borne inférieure de la plus faible
classe et la borne supérieure de la lus forte classe pourront être définies a priori ou a
posteriori.
i


2.2. L'ANALYSE D'UN CARACTERE QUA ITATIF t
LA CONSTRUCTION D'UN TABLEAU DE FiEOUENCE


Nous allons réaliser une partition la population de départ sur la base de l'étude d'une
variable qualitative. Chaque individu va se trouver rangé dans un sous-ensemble
correspondant à l'une des modalités On va alors s'intéresser aux fréquences qui
représentent la part de l'effectif modalité par rapport à l'effectif total. Dans la
littérature statistique, on entre fréquences absolues (correspondant
aux effectifs de chaque (effectifs des modalités ramenés à l'effectif
total de la population).


L'effectif total est : N = Cini I
La fréquence d'une classe i s'écrit : = ni 1 N ti


Exem~le : la ré~artition ~ a r sexe


Parmi l'échantillon de l'enquête su: la mobilité à Ouagadougou, on va s'intéresser à la
proportion d'hommes et de femmes. Le caractè me étudié "sexe de l'individu" va donner lieu à deux
modalités "masculin" et "féminin". Il est dès 11)rs possible de construire un tableau présentant les




27 27

▲back to top

fréquences absolues et relatives. Nous avons ajouté une colonne libellant les fréquences relatives en
pourcentages.


On peut aisément vérifier que :
- N=Cini=n i+n2=1 698+ 1984=3682
- f l=n 1/N=1698/3682=0.46
- f2=n2/N=1984/3682=0.54


LE CHOIX D'UN GRAPHIOUE


Fréquences relatives (%)
f;*100


46
54


100


Nous le verrons plusieurs graphiques peuvent être utilisés pour représenter la
distribution de la population au regard d'un caractère qualitatif.


Fréquences relatives


fi
0.46
0.54


1


Modalités


Féminin
Masculin


Total


Le diaeramme circulaire


Fréquences absolues


ni
1698
1984


3682


Le plus courant est le diagramme circulaire, vulgairement appelé camembert en raison
de sa forme. II s'agit d'un cercle découpé en parts (ou secteurs) dont les surfaces sont
proportionnelles à l'effectif qu'elles représentent. Sachant que la circonférence d'un cercle est égale à
2nR, lorsque l'on multiplie cette longueur par les fréquences relatives libellées en pourcentage, on
obtient la part de cercle dont chaque modalité doit disposer pour avoir une surface proportionnelle à
son effectif.


Répartition par sexe


Masculin
53.9%


Source : eiiquPre intiiage (.)uîgadougou 92




28 28

▲back to top

âtons ou Le diagramme en b


Celui-ci est également assez courant.
simples bâtons, ou par des rectangles de base
(ou aux fréquences).


Répan


2500


2000


1500


1 O00


500


~


~
, '
i ;


~
.. -.!


~


'~ ~


1


1 ~
-26- l


i
1
i


i


Dans ce cas, les modalités sont représentées par de
~


constante et de hauteur proportionnelle aux effectifs ~
1
1


1 tion par sexe ~


~


. ' - ,


. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


. . . . . . . . . . . . . - - - - . .


. . . . . . . . . . . . - - - - . . .


. . . . . . . . . . . . . . . . . - .


'


.


Cependant ce type de représentations présente ains pièges. Le lecteur ne sait pas si il doit prendre ~ en considération les longueurs, les surfaces s volumes du diagramme figuratif. Ce genre de
représentation aboutit souvent à une sur-re tation des grands effectifs, comme l'indique le i


1
1 ~ ~
1, ~
1


. . . . . -


. . . . . .


. . . . . .


O


graphique qui suit. Ceci se comprend facile
l'aide d'une représentation à deux dimensions.


2.3. L'ANALYSE D'UN CARACTERE


Tout au long de cette présentatiori,
variables quantitatives discrètes et variables


C A R A C m OUANTITATIF DISCRET


La détermination des fréauences relatives


On s'intéresse ici aux variables qui
l'intérieur de leur intervalle de variation. Les
correspondant aux différentes valeurs de la
modalités des caractères qualitatifs. On pouna
brutes (fréquences absolues) ou en rapportant


Masculin
1984


.ninage Ouagadougou 97


représentations possibles, on peut encore citer les ~
la distribution du caractère à l'aide d'illustrations. ~


1 eiiectifl


r on représente un phénomène à une dimension à ~
QUANTITATIF


nous allons retrouver la distinction évoquée entre
quzntitatives continues.


ne peuvent prendre qu'un nombre de valeurs limité à 1
'ndividus statistiques sont rangés en sous-ensembles i


'
viriable X. Ces valeurs jouent le même rôle que les


présenter les résultats relativement aux données
les effectifs correspondant à chaque valeur de X, à


l'effectif total (fréquences relatives). Il sera,
valeurs de X.


FBminin
1698


Sourw : znquêie


Les autres représentations


Parmi les nombreuses autres
diagrammes figuratifs qui consistent à présen


comme précédemment, possible de regrouper certaines


1 i ~
l


1


I
1 .




29 29

▲back to top

Exem~ie la réDartition des individus selon leur mobilité auotidienne :


Ce tableau de couples (ni, Xi) décrit une distribution statistique. Nous avons vu que le
caractère quantitatif prenait habituellement le terme de variable statistique. On parlera de
distribution statistique de la variable X.


20
2 1


Total


Ida détermination des fréquences cumulées


Les fréquences relatives offrent une bonne description de la distribution d'une
population en regard d'une variable. Une autre lecture peut être apportée par le cumul des
informations. Si l'on reprend l'exemple précédent, un raisonnement en fréquences cumulées
permettra de répondre à des questions du type : combien d'individus se déplacent moins de trois fois
par jour? combien d'individus se déplacent au moins quatre fois ? combien d'individus ont une
mobilité de plus de deux ?...


19
2 1
---


Pour répondre à ces questions, il sera nécessaire de compléter le tableau précédent. La
fréquence cumulée Fi est la somme des fréquences de chaque classe correspondant aux valeurs de la
variable statistique X inférieures à l'extrémité supérieure (la borne supérieure) de la classe i :


1
1


3682


0.0003
0.0003


1


0.03%
0.03%


1 0 0




30 30

▲back to top

F~~ = Cfi (avec 1 compris entre i et k)




31 31

▲back to top

Représentations d'une variable discrète


Le diagramme différentiel


C'est le même principe que pour les variables qualitatives


Répartition selon la mobilité


1)iap::iiiiniç. JiCiZrciitiel


O 5 10 15 20
Soiirce : enqiiîte niénage Ouagadougou 92


Le diagramme intégral


La représentation de la fonction cumulative conduit à la réalisation d'une courbe en
escaliers sur la base de la définition suivante :


F(x) = C fi (1 variant de 1 à i), t/ x E ]xi, xi+l[


Répartition selon la mobilité


Diagriimiiie iiitkgral


Source : enquète rriénape Ouagadougou 92




32 32

▲back to top

CARACTERE OUANTITATIF CONTINU


ni sont les effectifs de chaque classe
fi sont les fréquences relatives


Fi sont les fréquences cumulées


Représentations d'une variable continue


La courbe de distribution




33 33

▲back to top

rectangles de l'histogramme et surtout il ne faudra en aucun cas utiliser ces données pour tracer la
courbe de répartition.


Répartition selon l'âge
Dirigrdriirne differeritiel


10 15 20 25 30 35 40 45 50 55 60 65 70


Age
Source : enquête ménage Ouagadougou 92


fi' Dernière recommandation importante : les logiciels ont tendance à développer des
graphiques qu'ils baptisent histogrammes dès que ceux-ci peuvent être présentés à l'aide de
rectangles. Ce terme est abusif dans la mesure ou la représentation offerte par le logiciel correspond
davantage aux représentations propres aux variables quantitatives discrètes, ou aux quantitatives
continues, lorsque les amplitudes sont égales et que les rectangles apparaissent collés.


Plusieurs problèmes pourront ultérieurement se poser :


- souvent les bornes extrêmes ne sont pas précisées. Elles peuvent être déduites
éventuellement si on a une information concernant l'ensemble de la population. Par
exemple, si on travaille sur la distribution des salaires dans une entreprise et que l'on
dispose de la masse salariale de l'ensemble de l'entreprise, on doit pouvoir définir une
borne extrême sans commettre d'erreur trop importante,
- très souvent, on ne dispose pas des données brutes. Lorsque l'on reçoit l'information, la
population est déjà répartie en classes. Si l'on souhaite recourir à des instruments
statistiques, il est alors nécessaire de poser certaines hypothèses quant à la répartition des
individus à l'intérieur d'une classe. L'une des hypothèses les plus courantes, est
l'hypothèse d'équirépartition. Cette hypothèse signifie que l'on considère qu'à l'intérieur
d'une classe, aux différentes valeurs de la variable correspondent des effectifs identiques.
Elle permet également de considérer que la moyenne d'une classe correspond au centre
de la classe, c'est à dire à la valeur située à égale distance de la borne inférieure et de la
borne supérieure. L'acceptation d'une telle hypothèse n'est pas sans conséquences. Elle
pourra dans certains cas surestimer ou sous-estimer certains indicateurs de tendance
centrale ou de dispersion.




34 34

▲back to top

~ ~; La fonction de répartition
i


Le tracé de la fonction de rép ition va s'effectuer en prenant pour abscisses les 1
1 différentes bornes de classes, et comme ordo es les fréquences relatives ou les effectifs. En aucun


cas on ne considérera les fréquences ou effec corrigés qui ont servis à dresser l'histogramme. ~
i ,
1 -~


Diagramme iiit6gs;il


120


l : foiiction de i6paititic7ii 1


* . L i !
~
~
i
~


~ i
~
l ~
~ ~


10 15 20 25 30 35 4C 45 50 55 60 65 70 75 80


Age
Source : enquête


2.4. LES CARACTERISTIQUES DE TENDANCE


Un tableau de données ou un gral
Cependant cette image peut dépendre en
informations. C'est pourquoi pour limiter d'une
l'interprétation, on résume les tableaux statistiq
et de dispersion. Nous allons successivement ét


Le nombre de données recueillies
fait ces informations ne peuvent, la plupart d~
caractériser cette population l'on est donc amené
ceux nous paraissant les mieux correspondre
ensemble de données quotidiennes sur un mois


Plus généralement pour résumer
tendance centrale tels que le mode, la médiane c


IdEMsm


Le mode d'une distribution corresfond
(OU la fréquence) est le plus élevé.


Cas de variables discretes . .


r~énage Ouagadougoii 92


CENTRALES


he apportent une première image d'une distribution.
partie de la subjectivité de celui qui interprète ces


part cette subjectivité et d'autre part pour en faciliter
les au travers de caractéristiques de tendance centrale
idier ces deux ensembles.


sur la population étudiée est souvent très élevé. De ce
temps, être utilisées comme telles. Pour essayer de


à réduire le nombre de paramètres disponibles à
2.u problème étudié. On peut par exemple réduire un
. une donnée moyenne mensuelle.


:es données recueillies on utilise des indicateurs de 1
u la moyenne. ~


à la valeur de la variable pour laquelle !'effectif 1
1 ~ ~


;: '


~'
~ ~ ~ 1
i
1


. . ,




35 35

▲back to top

Le mode d'une population peut être déterminé directement à partir d'un tableau de
données ou sur la base d'un graphique. Ainsi le mode de la distribution de la mobilité se lit dans le
tableau de la page 27 ou sur le graphique différentiel de la page 29 : il est de 4.


Cas de variables continues


Lorsque les classes proposées sont identiques, le mode se détermine aussi simplement
que dans le cas d'une variable discrète. On parlera, cette fois, de classe modale. En revanche, lorsque
les amplitudes des classes considérées sont inégales, il convient comme pour la détermination de
l'histogramme de raisonner sur la base des effectifs ou des fréquences comgées. Si l'on reprend le
tableau relatif à l'aage des individus de la page 30, on déterminera la classe modale à partir de la
colonne des fréquences comgées. Dans cet exemple la classe modale est la classe [19-22[. Ceci se
trouve une fois encore confirmé par l'allure de l'histogramme correspondant situé en page 3 1.


. .
Intérêts et limites


Intérêts :
- il permet de se faire une première idée de la tendance centrale d'une série,
- connaître sa valeur peut être particulièrement intéressant lorsque la distribution des
valeurs est asymétrique,
- il est facile à obtenir,
- il a une signification concrète,
- il permet de repérer des particularités (distribution pluri-modale).


Limites :
- il est très instable,
- il est parfois trompeur (distribution pluri-modale),
- il est mal adapté à l'analyse de distributions statistiques regroupées en classes (variables
continues) car sa détermination dépend du découpage des classes,
- il ne se prête pas aux calculs algébriques,
- il est plus sensible que la médiane et que la moyenne arithmétique aux fluctuations
d'échantillonnage.


La médiane est la valeur de la variable qui partage les individus statistiques, rangés par
ordre de valeurs croissant ou décroissant, en deux sous-populations identiques.


a) Les individus ne sont pas regroupés en classes


Après avoir classé les individus par ordre croissant, par exemple, on déterminera la
médiane en se basant sur le rang de l'individu situé au milieu de la population. Cependant l'effectif
total de la population peut être pair ou impair.


Si l'effectif de la population est impair, la médiane correspondra à la valeur de la
variable pour l'individu situé au rang (n+1)/2, n étant l'effectif total.


Si l'effectif total est pair, on s'intéressera aux individus situés aux rangs ni2 et (n+2)/2.
Si ces deux individus présentent une valeur commune par rapport à la variable, on pourra déterminer




36 36

▲back to top

Supposons les notes obtenues lors 'un test, trois cas pourront être distinguées : P
Cas 1 : 8 9 11 11 12 12 14
Cas 2 : 8 9 11 11 12 12 13 14
Cas 3 : 9 9 11 12 12 12 13 14


Dans le premier cas la dans le second cas, les individus situés au milieu
de la population ont obtenu la est donc 11. Dans le dernier cas, les individus
situés au centre de la série on retiendra donc l'intervalle médian
[ i l , 121.


b) Les individus sont regroupés en classes l
Pour déterminer la valeur de la on retiendra l'hypothèse d'équirépartition des


individus à l'intérieur des classes. On une classe médiane, puis, le cas échéant,
on déterminera par interpolation pour la médiane. Cette précision peut
apparaître, dans certains cas


C'est le théorème de Thalès nous p rmet de déterminer la médiane. 1


=borne inférieure de l'intervalle
B=borne supérieure de
n=effectif total de la population
C et D=effectifs bornes de l'intervalle médian


Du graphique précédent on déduit a formule permettant de calculer la médiane : I
Me = A + [(B - )*(rd2 - C)] I (D - C)




37 37

▲back to top

Si l'on reprend l'exemple de l'âge, on constate que la population se compose de 3682
individus statistiques. La classe médiane devra contenir les valeurs prises par les 1841ème et
1 8 4 2 ~ ~ e individus. A l'aide de la colonne des effectifs cumulés, on détermine la classe médiane [25-
3 1 [.


Il reste à calculer la médiane à l'aide d'une interpolation linéaire :
Me = A + [(B - A)*(d2 - C)] / (D - C)


Soit dans notre exemple :
Me = 25 + [(3 1-25)*(3682/2- 1757)]/(2347- 1757)


= 25.85


Intérêts et limites
. .


Intérêts :
- elle est relativement facile à calculer dans la mesure où il faut simplement classer les
observations et cumuler les effectifs,
- elle a une signification claire, précise et concrète,
- elle n'est pas influencée par les valeurs aberrantes.


Iana&s :
k b - son calcul peut poser des problèmes dans le cas où l'hypothèse d'équirépartition pour la


classe médiane est douteuse,
- elle se prête moins bien que la moyenne arithmétique aux calculs algébriques et est plus
sensible aux fluctuations d'échantillonnage,
- son emploi n'est pas conseillé pour des variables discrètes ayant des "sauts" importants
ou des variables continues ne comptant que peu d'observations car sa signification est
alors très incertaine.


La logique de la définition des quantiles est la même que celle de la médiane. Au lieu
de chercher une valeur qui scinde la série en deux sous-populations égales (50% et 50%), on cherche
une valeur qui scinde la population en quatre (quartile), dix (déciles), cent (centiles) ... sous-
ensembles égaux.


Les quartiles sont les valeurs qui partagent la série en quatre sous-ensembles égaux.
Us sont généralement notés : QI, Q2, Q3. Chaque intervalle qu'ils définissent contient 25% des
observations ( d 4 de l'effectif n). L'intervalle Q3-Q1 est appelé intervalle inter-quartile et contient
50% des observations.


Les déciles sont les valeurs qui partagent la série en dix sous-ensembles égaux. Ils sont
généralement notés : Dl ... D9. Chaque intervalle qu'ils définissent contient 10% des observations
( d l 0 de l'effectif n). L'intervalle D9-Dl est appelé intervalle interdécile et contient 80% des
observations.


Les centiles sont les valeurs qui partagent la série en cent sous-ensembles égaux. Ils
sont généralement notés : Pl ... P99. Chaque intervalle qu'ils définissent contient 1% des observations
(d l00 de l'effectif n). L'intervalle P99-Pl est appelé intervalle inter-centile et contient 98% des
observations.




38 38

▲back to top

l l


J,A MOYENNE ARITHMETIOUE


La moyenne arithmétique est eur de tendance centrale le plus couramment
utilisé. Elle correspond au rapport entre la s s valeurs prises par la variable par les différents
individus et le nombre total de ces individus. avons vu que le statisticien pouvait être confronté
à plusieurs types de tableaux. De ce fait, ules de calcul peuvent être employées suivant ' ,
l'objectif recherché. m l


Dans un tableau individus-v que ligne correspond à un individu et chaque ~ +.* colonne à une variable. Pour calculer la uffit d'additionner les valeurs composant une
colonne représentant une variable quant e diviser par le nombre total d'individus du


l


tableau. On utilise alors la formule suivante :


- l N
x = - x x ,
a v e c ~ = x n ,


~
N 1=, l ~


En revanche lorsque les indi upés en classes, il convient de tenir compte
des effectifs, en général différents, de utilise alors la formule de la moyenne
arithmétique pondérée, soit : ~


l


Par exemple, la moyenne de la mobili de la page 27 est de :
(0*423+1*34+2* 1024+..


~
Celle de l'âge du tableau de la page 30 est de :


~
(15*294+17.5*580+ ......


Si l'on calcule cette moyenne non pées en classe mais sur les données
individuelles de départ, nous trouvons 29.66. ~ ~


l
Intérêts et limites i


Intérêts :
- la moyenne arithmétiqu
- elle est plus sensible qu
- elle est de pratique courante, l


1


- elle se prête bien aux c I


inductive ou en analyse de données. 1
&&&&:


l


Li6tt.b - les valeurs exceptionn
- pour les variables disc '. 1
la variable,
- lorsqu'elle est déte
rechercher de précision illusoire,
- une même moyenn


l




39 39

▲back to top

2.5. LES CARACTERISTIQUES DE DISPERSION


Les indicateurs de tendance centrale ne rendent compte que d'une partie de la
distnbution statistique d'une population. Ainsi, une valeur moyenne de 9 dans un cours n'a pas la
même signification si les notes s'échelonnent de 6 à 16 ou si elles varient de 2 à 19 ... D'où l'intérêt
d'étudier la dispersion des données autour de la tendance centrale. Cette dispersion peut être
caractérisée par un certain nombre d'indicateurs : l'étendue, l'intervalle inter-quartile, la variance,
l'écart-type et le coefficient de variation.


L'étendue est la différence entre la valeur la plus haute et la valeur la plus basse de
la distribution. Ainsi dans une classe où les notes vont de 6 à 13, l'étendue est de 13-6=7. Lorsque les
notes s'échelonnent de 2 à 19, l'étendue est de 17.


L'étendue ne fournit pas une bonne représentation de la dispersion, en effet cet
indicateur dépend trop des valeurs extrêmes de la distribution.


L'intervalle inter-quartile (Eq) est la différence entre la valeur du troisième quartile
et la valeur du premier quartile.
La méthode de calcul des quartiles a été exposée dans le
paragraphe sur les quantiles, dans le chapitre relatif aux indicateurs de tendance centrale.


Pour des séries prenant des valeurs comparables, plus la valeur de l'intervalle inter-
quartile est faible, plus la distnbution est regroupée autour de la moyenne. Inversement, un intervalle
inter-quartile élevé est le signe d'une grande dispersion.


Les caractéristiques de dispersion de cet indicateur sont assez imparfaites. Elles ne se
prêtent que très mal aux calculs algébriques.


Sa détermination est d'autant plus imprécise que l'on se rapproche de valeurs extrêmes :
il ne dépend en fait que du rang des observations, et non de leur valeur ou de leur écart relatif. Pour
prendre en compte à la fois les valeurs et les écarts relatifs entre observations, il faut utiliser I'écart-
tY Pe.


VARIANCE ET L'ECART-TYPE


L'écart-type est l'indicateur le plus fréquemment utilisé. L'écart-type est la racine carrée
de la variance qui se calcule à partir des carrés des écarts à la moyenne que l'on somme et dont on
calcule la moyenne.


r Lo saue les individus ne sont as regroup és en cl asses


La variance est donnée par la formule suivante :


1 -
Var = - C ( x i - X)*OÙ N est l'effectif total et la moyenne de la série


N i=,




40 40

▲back to top

La variance étant une somme d carrés, les grandeurs qu'elle prend ne sont pas très
faciles à interpréter. Pour avoir un indicateur primé dans les mêmes unités que les observations, on
définit l'écart-type comme étant la racine


Lorsaue les individus sont reproupés en classet.


La variance de la série des xi sera bonnée par la formule :


ouencore:


- ni (x i - x ) ~


n.
ouencore:o= x f , ( x i - x ) ~ ecf , =-


/ i l - % N
L E COEFFICENT DE VARIATION


Les indicateurs tels que la arithmétique ou l'écart-type sont des grandeurs de
même espèce que la variable étudiée. si les valeurs sont exprimées en francs, il en sera
de même pour la moyenne et deux séries, dont les observations ne sont pas
exprimées dans la même unité peut poser problème. Le coefficient de
variation qui est un nombre ces inconvénients. Il est égal à :


a v = =
X


la moyenne et l'écart-type
permettra de calculer le coefficient de variation


3. L'ANALYSE DES DISTRIBUTIONS A D:%UXVARIABX,ES


Jusqu'à présent, notre travail s'est
qui nous intéressaient. Pour cela nous avons ei
distributions de ces populations, de les représeriter
nous disposions à l'aide d'indicateur de tendince
population choisie a été observée par rapport à
privilégiée au cours de la première phase du
cette première analyse que le statisticien va
semblé se dessiner. Il va alors s'efforcer au cour;
éventuels qui pourraient exister entre certaines
l'occasion de passer en revue les trois méthodes
variables :


- le tri croisé (croisement de deux
- l'analyse de la variance (croisemer
variable qualitative explicative),
- l'ajustement linéaire (croisement de


imité à I'analyse unidimensionnelle des populations
recours à des outils nous permettant de décrire les


graphiquement ou de résumer l'information dont
centrale ou de dispersion. A chaque fois la


un critère unique. Une telle approche est en général
t-aitement d'une enquête. C'est souvent à la suite de
titre tenté d'expliquer certains phénomènes qui ont


d'une seconde étape d'établir ou de vérifier les liens
llariables. Les trois paragraphes qui suivent vont être


de base de I'analyse de la distribution à deux


varcables qualitatives),
t d'une variable quantitative à expliquer avec une


deux variables quantitatives).




41 41

▲back to top

3.1. LES DISTRIBUTIONS STATISTIQUES QUALITATIVES BIVARIEES


La présentation des données sous forme de tableaux à deux dimensions (on dit
encore tableaux à double entrée ou tableaux croisés) devient nécessaire dès lors que l'on
cherche à décrire une population non plus selon un caractère, mais selon deux caractères
qualitatifs pris simultanément.


Exem~ie : la distribution des individus selon le sexe et le niveau d'étude


On peut décomposer cette distribution statistique à deux caractères en plusieurs
distributions statistiques simples :


- les distributions marginales, données par les totaux en ligne et en colonne, permettent
de connaître la distribution des personnes selon le sexe (total en ligne), et la distnbution
des personnes selon le niveau d'étude (total en colonne),
- la distribution des fréquences des personnes selon le sexe et le niveau d'études est
obtenue en divisant les effectifs de chaque case du tableau par l'effectif total,


Sexe \\ Niv. Etud.
Masculin
Féminin


Total


- les distributions conditionnelles en ligne et en colonne sont obtenues en divisant
respectivement les effectifs de chaque case du tableau 1 par les totaux en ligne et en
colonne. Dans notre exemple, la distribution conditionnelle en ligne (ou profil en ligne)
représente, pour chaque sexe, la répartition selon le statut matnmonial (tableau 3). La
distribution conditionnelle en colonne (ou profil en colonne) représente, pour chaque
statut matnmonial, la distribution selon le sexe (tableau 4).


Ecole coranique
106
20


126


Secondaire
86 1
644
1505


Sexe \\ Niv. Etud.
Masculin
Féminin


Total


Sans étude
333
603
936


Primaire
436
347
783


Supérieur
238
82
320


Ecole coranique
2.88%
0.54%
3.42%


Sexe \\ Niv. Etud.
Masculin
Féminin


Total


Non rép.
10
2
12


Sexe \\ Niv. Etud.
Masculin
Féminin


Total


Total
1984
1698
3682


Primaire
1 1.84%
9.42%
21.27%


Ecole coranique
5.34%
1.18%
3.42%


Ecole coranique
84.13%
15.87%
100.00%


Secondaire
23.38%
17.49%
40.87%


Primaire
21.98%
20.44%
21.27%


Primaire
55.68%
44.32%
100.00%


Supérieur
6.46%
2.23%
8.69%


Secondaire
43.40%
37.93%
40.87%


Secondaire
57.21%
42.79%
100.00%


Sans étude
9.04%
16.38%
25.42%


Supérieur
12.00%
4.83%
8.69%


Supérieur
74.38%
25.63%
100.00%


Non rép.
0.27%
0.05%
0.33%


Sans étude
16.78%
35.51%
25.42%


Total
53.88%
46.12%
100.00%


Sans étude
35.58%
64.42%
100.00%


Non rép.
0.50%
0.12%
0.33%


Total
100.00%
100.00%
100.00%


Non rép.
83.33%
16.67%
100.00%


Total
53.88%
46.12%
100.00%




42 42

▲back to top

Masculin


3.2. L'ANALYSE DE LA VARIANCE


quantitative mobilité.




43 43

▲back to top

Notre premier travail va consister à calculer la mobilité urbaine moyenne des
populations masculines et féminines. La moyenne de la mobilité urbaine est de 3,12 pour la
population féminine. La moyenne de la mobilité urbaine est de 4,21 pour la population masculine.


Le second est de calculer la variance de la mobilité urbaine. Elle est de 4,80 pour la
population féminine et de 6,97 pour la population masculine. Pour la population totale, elle est de
6.25.


LA DECOMPOSITION DE J ,A VARIANCE


La moyenne est un opérateur linéaire. Elle bénéficie à ce titre d'un certain nombre de
propriétés dont l'une des plus importantes s'énonce de la manière suivante : "La moyenne d'une
population est une moyenne pondérée des moyennes des sous-populations qui la composent." Cela
signifie dans notre exemple que la mobilité moyenne des hommes est égal à la moyenne pondérée
des moyennes des hommes et des femmes.


La variance contrairement à la moyenne n'est pas un opérateur linéaire. La variance
d'une population n'est pas égale à la moyenne pondérée des variances des différentes sous-
populations qui la composent. La variance se compose en fait de deux parties complémentaires que
l'on appelle variance inter-classe (variance inter-population - variance expliquée - variance des
moyennes) et variance intra-classe (variance intra-population - variance résiduelle - moyenne des
variances). Avant de poursuivre, nous allons tenté d'expliquer ces deux composantes.


Lorsque l'on essaie d'expliquer la dispersion des valeurs prises par une variable
quantitative comme le salaire par l'appartenance à une modalité.dlune variable qualitative comme le
sexe, on effectue une décomposition de la variance. Celle-ci va consister à isoler les différentes sous-
populations caractérisées par une modalité particulière et à les comparer entre elles.


Il faudra ensuite s'interroger pour savoir si la diversité de la mobilité observée peut
s'expliquer par le fait que l'on soit un homme ou une femme ou si, une fois les deux sous-populations
isolées, on constate que dans chacun des groupes demeure une forte variabilité de la mobilité. il va
donc falloir décomposer la variance observée sur la variable qu'on s'efforce d'expliquer (la mobilité),
en deux parties la variance inter-classe et la variance intra-classe, puis mesurer celle qui est la plus
importante.


J .a vanance inter-classe


La variance inter-classe mesure la dispersion entre les moyennes de plusieurs sous-
populations. Pour mesurer cet écart on va comparer chaque moyenne à la moyenne générale. On va
ainsi calculer la différence entre la moyenne d'une sous-population et la moyenne de la population.
En ce qui concerne l'exemple qui nous intéresse, on va comparer la mobilité moyenne des hommes
avec celle de la population totale, puis la mobilité moyenne des femmes avec celle de la population
totale.


Dans la mesure où certains écarts peuvent apparaître positifs, tandis que d'autres seront
négatifs, on court une nouvelle fois un risque d'élaborer un indicateur qui dans certains cas fournira
des valeurs proches de zéro. Pour éviter ce piège, on élèvera la différence calculée au carré. il restera
ensuite à pondérer les écarts mesurés par les effectifs concernés. Il est aisé de constater que cette
formule présente de nombreuses similitudes avec la formule de la variance. Il s'agit bien ici du calcul
d'une variance des moyennes.




44 44

▲back to top

Le calcul de la décomposition de
dans notre exemple donne :


-43-


~
la variance et du pourcentage de variance expliquée


~
1


1
1


-
l
l


- - .
l


l
I


l
l


1


~
- 1
. l


l
l


l
I


l


l
l


Effectifs
Moyenne


Variance totale
Variance inter-classse
Variance intra-classe


~ ~ ~
Hommes


Le pourcentage de variance expli
signifie que la variabilité de la variable mobilit
des classes qu'à une variance entre les classes.
différente selon le sexe.


3.3. L'A JUSTEMENT LINEAIRE


Il s'agit d'étudier le lien entre deux
Nous pouvons distinguer deux cas


- soit les variables X et Y
- soit il existe une liaiso


laquelle.


La première étape conduit à réfléc


La seconde étape consiste à visua
dans un repère composé de deux axes, nous O
l'examen du nuage, on peut avoir une idée du 1
Y. Lorsque le nuage suggère une dépendance
connaissance d'une des deux variables permet 1
dépendance linéaire.


LE CHOIX DE LA METHODE


La méthode des moindres écar
minimum la somme des valeurs absolues des di:


Femmes Ensemble


1
uée est de 0.29/6.25=4.64 %. Ce faible pourcentage
est plus due à une variance à l'intérieure de chacune 1


l eci n'exclut pas le fait que la mobilité peut être très


~
variables quantitatives.
:
ont indépendantes,


fonctionnelle et la difficulté est alors de trouver


ir sur la signification des variables.


iser graphiquement les données. En les représentant


~
tenons un nuage de points dit "nuage statistique". A
en de dépendance qui existe entre les variables X et


~ ~ elative, on peut se demander dans quelle mesure la connaissance de l'autre. Nous n'étudierons ici que la
conduit à la détermination de la droite qui rend


férences :


1984
4.21
6.97


z1 I Y ,
Cette méthode a l'intérêt de donrier


puisqu'elle fait intervenir les coordonnées à
algébrique à des calculs inextricables.


1698 3682
3.12 3.71
4.80 6.25


-a.x1 -b I ~
un poids moindre aux couples (xi yi) aberrants


Lne puissance unitaire mais elle conduit sur le plan
l


~ l
1


l


l ~
~


1984/3682*(4.21-3.71) 1698/3682*(3.12-3.71)' = 0.29
(6.97* 1984)/3682 (4.80* 1698)/3682 = 5.96




45 45

▲back to top

La variance intra-classe


La variance intra-classe mesure quant à elle la dispersion qui demeure à l'intérieur de
chaque sous-population. Une fois que l'on a isolé les hommes et les femmes, elle va permettre
d'établir une synthèse sur la dispersion entre la mobilité d'une femme et la mobilité moyenne des
femmes et entre la mobilité d'un homme et la mobilité moyenne des hommes. Une fois calculée la
variance propre à la sous-population des femmes, puis la variance propre à la sous-population des
hommes, il restera à calculer la moyenne de ces variances en pondérant les variances par les effectifs
de chaque sous-population.


Confrontation des variances


Si la variance inter-classe est faible tandis que la variance intra-classe est forte, cela
signifie que l'on observe de grandes différences à l'intérieur de chaque classe.


Si au contraire on constate une forte variance inter-classe et une faible variance intra-
classe, cela signifie que les individus constituant les sous-populations isolées ont un comportement
relativement homogène, tandis que les moyennes de chaque classe sont très hétérogènes entre elles.
Dans ce cas on peut considérer que la variable segmentante explique bien la dispersion observée sur
la variable quantitative.


Le pourcentaFe de variance ex~liauée


L'indicateur que nous utiliserons pour conclure à la qualité de la segmentation proposée
est le pourcentage de variance expliquée. 11 consiste à faire le rapport entre la variance inter-classe et
la variance totale. Si ce rapport est inférieur à 50 % le pouvoir explicatif de la variable qualitative
sélectionnée peut être considéré comme insuffisant.


Dans la mesure où il est extrêmement rare qu'un facteur explique à lui seul toute la
variabilité observée, on ne trouvera jamais de pourcentage égal à 100.


Il convient également de se méfier du nombre de classes retenues. Bien souvent, les
étudiants sont tentés de conserver un maximum de classes de peur de perdre une partie de
l'information. On se retrouve alors avec une quantité considérable de sous-populations. Or, en
poussant le raisonnement à l'extrême, ont pourrait très bien envisager d'avoir autant de sous-
populations que d'individus dans la population de départ. Que se passerait-il alors ? 11 n'y aurait plus
aucune variance à l'intérieur de chaque classe. Par conséquent, la variance inter-classe serait égale à
la variance totale. Ce n'est pas réellement le but recherché. En fait le travail du statisticien va
consister à tenter d'élaborer une typologie en regroupant des individus présentant des comportements
homogènes.


Il n'est pas possible de fournir un nombre limite de classes, car chaque exemple dépend
de l'effectif de la population de départ. On s'interdira toutefois de descendre au dessous du seuil de
cinq individus par classe. On travaillera ainsi en général sur deux à cinq ou six sous-populations.
Cela supposera dans certains cas de procéder à une réagrégation des modalités en acceptant de
perdre une certaine richesse d'information au profit d'une plus grande lisibilité.




46 46

▲back to top

d'échelle et d'origine.




47 47

▲back to top

L'ajustement des moindres carrés ordinaires


LA DEFINITION DES PARAMEmS


11 s'agit de minimiser les carrés des écarts comptés parallèlement à l'axe des ordonnées,
car il est supposé qu'une des deux variables, à savoir l'abscisse X est "prédéterminée" :


Soit la droite D recherchée d'équation y = a x + b.
2


Il faut rendre minimum z di = z (y, - axi - b)l
C'est un trinôme du second degré par rapport à b qui est minimum quand la dérivée est


nulle, soit :


En divisant par 2n, on tombe sur


-
y = a; + b est la moyenne des x et Y celle des y


Ce qui montre d'une part que C d i = O et d'autre part que la droite des moindres


carrés passe par le point moyen du nuage de points (x, ;)
En considérant le trinôme précédent par rapport à a. La dérivée s'annule pour :


- -
Ce qui donne si l'on remplace b par y - a x :




48 48

▲back to top

Divisons chacun des membres de a fraction par n le nombre d'observations 1
Y =


xi n - x


Vous aurez sûrement reconnu da la partie inférieure de la fraction, la variance de X.
La partie supérieure de la fraction est appelée


Nous avons don a=COV(X,Y)NAR(X) 1
La covariance indique le degré dépendance de deux variables. Si X et Y sont


indépendantes alors la covariance est nulle LA RECIPROQUE N'EST PAS VRAI. Une
covariance positive indiquera une relation les deux variables, c'est à dire que si l'une
s'élève, l'autre tendra à le faire aussi. négative indiquera une relation
négative entre les deux variables, ainsi à être faible. Le problème de
la covariance est qu'elle dépend des X et Y sont exprimées, c'est
pourquoi on a cherché à l'améliorer


Le coefficient de corrélation pe de neutraliser tout changement d'échelle, il varie
entre -1 et 1 et mesure l'intensité de la liaison


R~ est appelé coefficient de déte nation et qualifie la qualité de l'ajustement. .t.
Nous avons donc déterminé a droite d'ajustement avec x comme variable


prédéterminée. Cette droite est appelée droite régression de y par rapport à x. Si Y est considérée
comme variable prédéterminée, nous la même façon une droite de régression de x par
rapport à y, d'équation :


x=aly+b' O symétriquement P
Remarquons qu'en effectuant le roduit des coefficients directeurs des deux droites


nous obtenons : P
soit le carré du coefficient de corrélation R. On a donc a a ' = ~ ~ .




49 49

▲back to top

Attention, l'absence de corrélation linéaire (r=O) n'implique en aucune façon l'absence
d'une corrélation non linéaire. Par ailleurs, il faut bien distinguer la liaison corrélative qui concerne
des structures de nombres et la liaison réelle qui correspond à une relation de cause à effet. Par
exemple, on trouverait une forte corrélation entre l'évaporation d'un liquide et la fermentation d'une
matière organique alors que ces deux phénomènes sont totalement indépendants (la chaleur est le
phénomène étranger qui a provoqué des variations concomitantes). D'autre part, les couples (x,y)
utilisés pour le calcul de la corrélation, ne sont, en général, qu'un échantillon de la population.
D'autres échantillons (de même effectif) auraient donné d'autres valeurs de R.


A titre d'exemple, nous donnons les résultats de régressions entre la mobilité et l'âge ou
les revenus mensuels chez les habitants de Ouagadougou en 1992. Nous cherchons à expliquer la
mobilité par l'âge ou par les revenus. Les équations obtenues sont les suivantes :


Mobilité=-0.027 Age + 4.5 1 (R-0.022)


Le niveau d'explication fourni par la variable explicative est très faible dans les deux
cas. Il est surtout surprenant dans le deuxième, car l'on pourrait supposer que la mobilité est
fortement liée au revenu.


4. LES ANALYSES FACTORIELLES


Les analyses factorielles, comme d'ailleurs les méthodes de classification abordées
ensuite, ne doivent leur vogue actuelle qu'au développement récent de la puissance de calcul des
ordinateurs. "Pratiquement", ce sont donc des méthodes récentes, même si leurs fondements
mathématiques sont eux connus depuis bien longtemps (calcul matriciel élémentaire).


Les analyses factorielles visent à réduire de manière raisonnée la quantité d'information contenue
dans un important d'ensemble de données (de quelques dizaines à plusieurs millions) afin de rendre
cette information intelligible. Elles produisent des représentations graphiques simples de la structure
initialement invisible des données, tout en cherchant à minimiser les erreurs de perspective dues à
l'abandon de certaines facettes des phénomènes.


4.1 LE PRINCIPE GENERAL


Un même principe fonde les diverses méthodes d'analyse factorielle. On a observé N
paramètres sur un groupe de K individus et constitué le tableau individus-variables résultant. Ces K
individus peuvent alors être considérés comme des points d'un espace à N dimensions. L'inertie de ce
nuage par rapport à son centre de gravité, au sens physique (une masse multipliée par le carré d'une
distance), représente en fait l'hétérogénéité des points, leur variabilité. Chercher à réduire la masse
de données revient ainsi à chercher à réduire la dimension de l'espace dans lequel on observe les
individus. Or, normalement (c'est-à-dire hors situation d'indépendance parfaite), le nuage présente
des directions privilégiées, sur lesquelles il est plus allongé et donc sur lesquelles l'inertie résultant
de la projection des points initiaux est plus élevée. En d'autres termes, le nuage est plus proche d'un
ballon de rugby que d'un ballon de football. Des calculs matriciels (il s'agit en fait d'une
diagonalisation) montrent qu'il est possible de repérer aisément dans l'espace ces directions
privilégiées, appelées axes factoriels. A chacun de ces axes est associé un paramètre quantitatif, la
valeur propre, égal à la part d'inertie du nuage de départ reprise par cette direction. On voit ainsi
qu'un axe correspondant à une valeur propre faible n'apportera que peu d'information sur le
phénomène et pourra donc être délaissé.




50 50

▲back to top

Si l'on ne souhaite alors conse qu'une information par individus, on retiendra la
valeur de sa projection sur l'axe la valeur propre la plus élevée. Si l'on accepte d'en
conserver deux, on ajoutera à celle qui correspond à la seconde valeur
propre la plus élevée et ainsi les meilleurs résumés à une, deux, ...
dimensions.


Il ne reste plus alors "qu'"à in rpréter la signification de ces axes. Des aides à
l'interprétation ont été conçues pour faciliter


- contribution d'un point au positionnement axe (l'inertie expliquée par l'axe est la somme des
inerties des projections sur l'axe des du nuage). Un point à l'inertie élevée sur un
axe aura "attiré" cet axe ;
- contribution d'un axe à l'inertie d'un de cosinus carré). Elle mesure l'erreur
commise lors de la projection du lorsque le cosinus carré se
rapproche de 1.


Les différentes méthodes d'analy e factorielle se différencient alors par le type de
données qu'elles peuvent supporter. t


Elle a été conçue pour des tableaux de contingence, mais peut être
utilisée avec n'importe quel sommes en ligne et en colonne ont un sens. On est
alors amené à parler multiples (AFCM). L'AFC présente
l'originalité de traiter du tableau de départ.


Deux modalités d'une variable


met donc en évidence des


On retrouve donc bien la règle 'interprétation que nous avions énoncée pour les
tableaux de contingence : leur étude se fait en comparant les distributions conditionnelles. L'AFC
simplifie cette étude en montrant les proximités ntre modalités et les raisons de ces proximités. t
4.3 L'ANALYSE EN COMPOSANTES PR1 CIPALES (ACP) 4


Si on observe sur une population les valeurs de N variables hétérogènes (par
exemple le prix, la quantité, la distance, ...), en colonne restent admissibles tandis que
les sommes en ligne n'ont plus de sens. de I'AFC multiple reste possible si l'on
transforme ces variables quantitatives en L'analyse en composantes principales
permet toutefois de traiter directement des variables est le
plus souvent indispensable pour


Deux variables sont proches si elles sont corré 'es positivement, diamétralement opposées si elles
sont corrélées négativement. L'absence de CO élation conduit à des points situés sur des axes
perpendiculaires. Deux individus sont proches s ils présentent pratiquement les mêmes réponses sur I




51 51

▲back to top

toutes les questions. Contrairement à I'AFC, I'ACP ne révèle donc pas des proximités de structure
mais de valeur entre individus.


5. LES METHODES DE CLASSIFICATION


A partir d'une population d'individus caractérisés par un ensemble de variables, les
méthodes de classification fournissent des partitions de la population en P classes, les plus
homogènes possibles. Contrairement aux méthodes factorielles, on ne cherche pas à ici à réduire le
nombre de variables mais le nombre d'individus.


On distingue généralement des méthodes hiérarchiques et des méthodes non
hiérarchiaues. Les méthodes hiérarchiques produisent une suite de partitions de la population, soit en
désagrégeant peu à peu la population (stratépie descendante), soit en l'agrégeant peu à peu (stratéie
ascendante). Les méthodes non hiérarchiques fournissent directement une partition de la population
en un nombre de classes déterminé à l'avance. Les méthodes descendantes, moins onéreuses en
termes de calcul, sont actuellement plus délaissées que les deux autres méthodes.


5.1 LA SEGMENTATION


La segmentation est une méthode descendante hiérarchique. On cherche à expliquer le
comportement d'une variable quantitative ou qualitative par un ensemble de variables qualitatives. A
la première étape, la partition comprend une seule classe, la population entière. On recherche alors la
variable la plus explicative (au sens d'un critère fixé a priori) et l'on teste ensuite toutes les coupures
de la population en deux classes permises par des regroupements de modalités de cette variable. La
meilleure coupure éclate ainsi la population en deux classes, définies chacune par un ensemble de
modalités de la variable explicative. Puis, pour chacun des deux groupes, on reproduit le processus.
Pour des variables à expliquer quantitatives, le critère de choix peut être la maximisation de la
variance inter-classes (stratégie cohérente avec la technique de l'analyse de la variance). Pour des
variables à expliquer qualitatives, on peut retenir la partition fournissant le CHI 2 le plus élevé.


5.2 LA CLASSIFICATION ASCENDANTE HIERARCHIQUE


La çlassification ascenda . . nte hierarchia~ (CAH) est une méthode ... ascendante
hiérarchique. A la première étape, on dispose d'autant de classes que d'individus dans la population.
Soit N ce nombre. On recherche alors les deux individus les plus proches, que l'on agrége. A la
seconde étape, on se retrouve donc avec N-1 classes (N-2 classes ne sont d'ailleurs constituées que
d'un seul individu). On recherche alors les deux classes les plus proches pour les regrouper. Le
processus est répété jusqu'à l'obtention d'une seule classe intégrant l'ensemble de la population. La
suite de partitions ainsi créée constitue un arbre, chaque regroupement de deux classes étant
dénommé noeud. La proximité entre individus et la proximité entre classes peuvent être définies de
diverses manières. Un critère usuel revient à chercher à minimiser à chaque étape la perte d'inertie
totale du nuage résultant de l'agrégation de deux classes. Sur le plan pratique, différents algorithmes
ont été mis au point afin d'accélérer la vitesse de la méthode (voisins réciproques, ...), mais le
résultat final peut dépendre de la stratégie de calcul.


La partition en K classes obtenue par un tel processus est la meilleure partition en K
classes, une fois définie la partition en K+l classes qui est son aînée ; rien ne garantit donc qu'elle
soit la meilleure partition en K classes. Enfin, dans le cas où la stratégie d'agrégation retenue est
celle de la minimisation de la perte d'inertie, on appelle niveau d'un noeud la perte d'inertie
occasionnée par ce regroupement. La somme des niveaux pour l'ensemble des noeuds est alors égale




52 52

▲back to top

à l'inertie du nuage. Le choix d'une partition,
en observant l'allure de la courbe des niveaux
endroits préférentiels de coupure de l'arbre.


5.3 LES NUEES DYNAMIQUES


Les nuées dvnamiques sont une dc:s
nombre K de classes et l'on définit une partitioi
initiaux. On cherche alors à améliorer cette
changement de classe faisant décroître le plus
nouveaux centres de gravité et l'on réaffecte alcrs
centres de gravité. Le processus est répété .
mouvements d'individus inférieur à un certain
un certain seuil, ...). La partition finale dépenc
amené à rechercher des "noyaux durs" en
partitions obtenues à partir de différentes
le risque d'accroître le nombre de classes.


Quelque soit la méthode de
typologie produite, à caractériser les classes
mais aussi à partir de variables "illustratives", 1
individus. Plus encore peut-être qu'avec les autres
fournis par les méthodes de classification doiv:nt
analyse socio-économique.


En conclusion générale sur les
ces différentes techniques, à une, deux O ~ J
complémentaires que concurrentes. Les outils
servent,dans une première étape, à se familiaris
peuvent ensuite être testées par des tableaux
Ultérieurement, enfin, on cherchera à réduire
analyses factorielles et classifications. Mais il
économique revient toujours à l'analyste, pas à


-50-


l


c'est-à-dire le choix d'un nombre de classes, s'effectue
cumulés, les décrochages de cette courbe étant des ~ ~
méthodes non hiérarchiques. On se fixe a priori un


initiale en K classes qui fournit K centres de gravité ~ partition en recherchant pour chaque individu le
possible l'inertie intra-classe. On calcule ensuite de ~


les individus aux classes définies par ces nouveaux
usqu'à satisfaction d'un critère d'arrêt (nombre de


seuil, décroissance de l'inertie intra-classe inférieure à
le plus souvent de la partition initiale. On est donc


~
identifiant les individus toujours associés dans les


initialisations du processus, mais avec comme conséquence


1
c1as:ification retenue, on a toujours intérêt, une fois la


obtenues non seulement à partir des variables de départ
ar exemple de positionnement socio-économique des


1 méthodes de la statistique descriptive, les résultats
n'être considérés que comme des outils dans une ~


méthodes de la statistique descriptive, nous dirons que
~


de multiples dimensions, sont beaucoup plus
de la statistique descriptive à une dimension


:r avec les différentes variables. Des liaisons binaires
de contingence, des analyses de variance, ...


e nombre d'individus et de variables en enchaînant
ne s'agit que d'outils et la tâche de l'analyse socio-


~
l'ordinateur ! ~ ~


~ ~ ~ ~
l


1


I I
*w ~


l


l


l
I ~


l
I


l


l


~
l '


1 -


l




53 53

▲back to top

Table de matières


............................................................................................................................... Introduction 1
.................................................................................. A . Les ensembles ponctuels de données 2


................................................................................................... 1 . Concevoir les enquêtes 2
....................................................................................................... . 1.1 Définir les besoins 2


1.2 . Les enquêtes transport ................................................................................................. 4
. Quelques définitions ......................................................................................................... 5


............................................................................................... 2 - produire les informations 7
2.1 - la collecte sur le terrain ............................................................................................... 7


.............................................................................................. 2.2 - la mise sur informatique 8 . .
B Les systèmes d'information statistique ................................................................................ 10


1 - Définition et objectifs ................................................................................................... 10
1.1 - Définition .................................................................................................................. 10
1.2 - Objectifs ................................................................................................................... 11


.................................................... 2 - Les différentes données à recueillir et leurs sources 11
2.1 - Les sources ................................................................................................................ 11
2.2 - Les différents types de données ................................................................................ 11
3.1 - Unités de mesure ....................................................................................................... 14
3.2 - Classifications ........................................................................................................... 16
4 - Fiabilité des sources administratives ............................................................................ 17


C - Les Méthodes statistiques ................................................................................................. 18
................................................................................... 1 . Quelques précisions importantes 18


1.1. Un petit historique de la statistique ............................................................................ 18
1.2. statistique descriptive ou statistique inductive ........................................................... 19
1.3. sources d'erreurs courantes en statistique ................................................................... 20 . . . .
2 . Statistique descnptive uni-Vanee .................................................................................. 22
2.1. Quelques définitions fondamentales ........................................................................... 22
2.2. L'analyse d'un caractère qualitatif .............................................................................. 24


........................................................................... 2.3. L'analyse d'un caractère quantitatif -26
2.4. Les caractéristiques de tendance centrale ................................................................... 32
2.5. les caractéristiques de dispersion ............................................................................... 37
3 . L'analyse des distributions à deux variables .................................................................. 38
3.1. Les distributions statistiques qualitatives bivariées ................................................... 39
3.2. L'analyse de la variance .............................................................................................. 40


................................................................................................... 3.3. L'ajustement linéaire 43
4 . Les analyses factorielles ................................................................................................ 47
4.1 Le principe général ...................................................................................................... 47
4.2 L'analyse factorielle des correspondances (AFC) ....................................................... 48
4.3 L'analyse en composantes principales (ACP) .............................................................. 48
5 . Les méthodes de classification ...................................................................................... 49
5.1 La segmentation ........................................................................................................... 49
5.2 La Classification ascendante hierarchique .................................................................. 49
5.3 Les nuées dynamiques ................................................................................................. 50




54 54

▲back to top