LA STATISTIQUE BIEN TEMPÉRÉE: RÉFLEXIONS SUR L'APPLICATION DE LA STATISTIQUE A LA SOCIOLOGIE

LA STATISTIQUE BIEN TEMPÉRÉE: RÉFLEXIONS SUR L'APPLICATION DE LA STATISTIQUE A LASOCIOLOGIEAuthor(s): François-André IsambertSource: Cahiers Internationaux de Sociologie, NOUVELLE SÉRIE, Vol. 18 (Janvier-Juin 1955),pp. 125-137Published by: Presses Universitaires de FranceStable URL: http://www.jstor.org/stable/40688915 .

Accessed: 20/06/2014 21:05

Your use of the JSTOR archive indicates your acceptance of the Terms & Conditions of Use, available at .http://www.jstor.org/page/info/about/policies/terms.jsp

.JSTOR is a not-for-profit service that helps scholars, researchers, and students discover, use, and build upon a wide range ofcontent in a trusted digital archive. We use information technology and tools to increase productivity and facilitate new formsof scholarship. For more information about JSTOR, please contact [email protected].

.

Presses Universitaires de France is collaborating with JSTOR to digitize, preserve and extend access toCahiers Internationaux de Sociologie.

http://www.jstor.org

This content downloaded from 185.44.78.76 on Fri, 20 Jun 2014 21:05:20 PMAll use subject to JSTOR Terms and Conditions

http://www.jstor.org/action/showPublisher?publisherCode=puf

http://www.jstor.org/stable/40688915?origin=JSTOR-pdf

http://www.jstor.org/page/info/about/policies/terms.jsp


ÉTUDES CRITIQUES

LA STATISTIQUE BIEN TEMPÉRÉE RÉFLEXIONS SUR L'APPLICATION

DE LA STATISTIQUE A LA SOCIOLOGIE

par François-André Isambert

«II est vraiment dommage, écrit L. Festinger (1), pour celui qui pratique les sciences sociales, que les problèmes qui ont sti- mulé la croissance de la statistique dans le passé soient venus d'autres domaines et que, par conséquent, les développements statistiques soient souvent mal applicables aux faits de la science sociale. » De fait, si la statistique doit son nom aux premiers dénombrements des États, c'est ensuite vers de tout autres domaines qu'elle se dirige. Elle ne devient scientifique qu'en s'assi- milant la théorie des probabilités, ce qui l'entraîne sur le terrain des jeux de hasard, des erreurs de mesures, des variations aléatoires de phénomènes physiques.... C'est ensuite la thermodynamique, puis la physique atomique qui en font usage, et lorsque, par le cheminement de la biologie et de la psychologie, elle fait retour aux sciences sociales, c'est d'un outil forgé entre d'autres mains que le sociologue est amené à se servir.

Un coup d'œil jeté sur quelques traités récents de statistique confirmera ce jugement. Un des traités les plus appréciés, et les mieux faits, se donne pour tâche de « mettre les étudiants des sciences sociales aussi bien que des sciences de la nature au courant des fondements de la méthode statistique moderne » (2). Certes, un apprentissage commun du calcul des probabilités est nécessaire aux uns comme aux autres. Mais les problèmes d'application sont-ils les mêmes? Certains traités se disent faits « pour les sciences sociales » ; mais ils ressemblent à ceux du type précédent comme des frères. Les exemples sont pris dans le domaine social, mais

(1) Research Methods in Social Relations, New York, 1951, p. 715. L. Festin- ger vient d'exprimer à nouveau ce point de vue dans « Les Mathématiques et les Sciences Sociales », numéro spécial du Bulletin International des Sciences Sociales^ vol. VI, n° 4, 1954, p. 686-691, article : « L'application des mathématiques à l'expérimentation contrôlée en sociologie. »

(2) Freund, Modem Elementary Statistics, New York, 1952 ; préface p. 5.

- 125 -



FRANCOIS-ANDRE ISAMBERT

sans que le problème de l'adéquation du calcul des probabilités aux sociétés humaines soit posé. Tout au plus signale-t-on que la distribution statistique fondamentale est la distribution normale représentée par la courbe de Gauss, alors que les distributions sont fréquemment anormales dans les sciences sociales. On donne alors des critères de dissymétrie (skewness) et de rétrécissement (kurtosis) sans que la signification expérimentale de ces anomalies soit analysée (1). On rajoutera un chapitre sur les variations dans le temps, telles que les économistes les étudient, ou sur les méthodes élémentaires de la démographie (2). Mais ces chapitres appar- raissent comme des appendices dont la liaison théorique avec le reste de l'ouvrage laisse à désirer. De plus, ils ne posent pas les problèmes généraux d'application dont nous voudrions ici nous occuper. Il est enfin significatif que, parmi les ouvrages dont le sociologue est amené à se servir le plus souvent figurent deux traités destinés aux psychologues (3). Sans vouloir ici rouvrir la querelle périmée entre psychologie et sociologie, on peut faire observer que certains problèmes posés aux sociologues ne trouvent pas dans ces traités leur réponse et que, si la psychologie sociale s'y trouve relativement à l'aise, ceux qui abordent les faits sociaux sous un angle proprement collectif n'y trouvent pas leur compte (4).

Durkheim, après avoir considéré dans les Règles de la Méthode Sociologique le domaine des faits collectifs comme exerçant une contrainte régulatrice sur les faits individuels, pense en trouver dans le Suicide un exemple typique. Que le suicide soit un fait collectif lui semble évident. « Car, autrement, comment expliquer que, chaque année, toutes ces volontés particulières qui s'ignorent mutuellement viennent en même nombre aboutir au même but (5) ». Cette constance du taux du suicide ne peut provenir que « d'une même cause ou d'un même groupe de causes qui dominent les individus (6) ». Certes, cette cause pourrait être extra-sociale, d'où le passage en revue et l'élimination successive des facteurs sociaux, géographiques, etc.... Veut-on une preuve supplémentaire? a Non seulement ce taux est constant pendant de longues périodes de temps, mais l'invariabilité en est même plus grande que celle des principaux phénomènes démographiques (7) ». Durkheim assi-

(1) Par exemple dans Hagood, Statistics for Sociologists, New York, 1941. (2) Par exemple Thomas G. Me. Gormick, Elementary Social Statistics. New

York et Londres. 1941. (3) Me Ne mar, Introduction aux méthodes statistiques appliquées à la Psycho-

logie, Paris, 1950. (4) Nous voyons ainsi l'idée exprimée récemment par M. Gurvitch, Déler-

minismes sociaux et liberté humaine (p. 54-55, note 2 et pp. 99-147) selon laquelle les modèles mathématiques sont inadaptés aux déterminismes sociaux. Etant d'accord avec lui sur le fait que les liaisons fonctionnelles restent à la surface de ces déterminismes et n'en expriment qu'une première approche quantitative, nous cherchons néanmoins dans quelle mesure les liaisons fonctionnelles elles- mêmes sont saisissables dans le domaine social au moyen de l'outil mathématique, quitte à les dépasser par la suite.

5) Durkheim, Le Suicide, p. 343. 6) Ibid., même page. 7) Ibid., p. 11.

- 126 -



STATISTIQUE ET SOCIOLOGIE

mile donc la régularité d'un fait social portant sur un grand nombre d'individus à la manifestation d'une causalité spécifiquement sociale, distincte de celle qui résulte de la simple somme de faits individuels. Halbwachs, de son côté, insistera dans son Quélelet sur la nécessité de faire intervenir des causes régulatrices, biologiques ou sociales.

Une telle manière d'aborder la question n'est, chez Durkheim, pas exempte de confusion. Il ne lui apparaît pas clairement qu'une régulation de type aléatoire pourait expliquer la constance du taux de suicide et que cette régulation est totalement hétérogène au déterminisme collectif telle qu'il l'entend. Aussi est-il conduit à poser des problèmes aussi gratuits que celui-ci : « Pourquoi la société ne paie-t-elle sa redevance que par échéances successives? (1). » C'est chez Halbwachs que nous voyons le plus nettement distinguer les deux types de déterminisme. Après avoir montré, à la suite de March (2) que la « loi des grands nombres » s'explique par la simple combinaison de variations indépendantes, il s'applique à nous montrer que les faits biologiques, démographiques et de psychologie collective (3) ne répondent précisément pas à cette condition de l'indépendance et qu'il faut donc faire appel à des mécanismes d'un autre type. Ce qui, chez Halbwachs, n'est sans doute pas suffisamment explicité, c'est que les variations qui affectent les divers individus d'une population étant relativemenl indépendantes, le déterminisme qui affecte l'ensemble reste relativement aléatoire, et que certaines régularités peuvent s'expliquer principalement par la loi des grands nombres.

Pour plus de clarté, repartons de l'idée d'un fait quelconque, présentant une variable aléatoire. Ce cas sera réalisé si cette variable peut être considérée comme la somme d'un grand nombre de composantes, variant indépendamment les unes des autres, chaque variation élémentaire étant de faible amplitude par rapport aux variations d'ensemble de la variable. Celle-ci pourra, dans certains cas, prendre un grand nombre de valeurs, voire être continue (exemple : la taille, le poids), dans d'autres cas, prendre seulement deux valeurs (généralement il s'agit d'une qualité que possède ou ne possède pas l'objet : couleur, profession, réponse positive à une question, etc.). Mais il n'y a statistique que si l'objet se rencontre en un certain nombre d'exemplaires. La distribution de la variable dans la collection de ces exemplaires n'est parfaitement aléatoire que si ces exemplaires eux-mêmes (par exemple les individus composant une population) sont indépendants les uns des autres. De telles conditions sont rarement réalisées dans la nature, aussi les exemples en sont-ils pris généralement dans le mécanisme artificiel des jeux de hasard (4). C'est que ces conditions

(1) /&«*., p. 368. . ..__ . _ (2) Halbwachs, « La Théorie de lHomme moyen, essai sur Quételet et la

statistique morale », pp. 45-47, citant March, article « statistique », dans De la méthode dans les sciences. 2e série, 1911, pp. 355 et suiv.

(3) Voir en particulier la conclusion de l'ouvrage cité p. 162 et suiv. (4) Cf. Halbwachs, op. cit., pp. 51-54.

- 127 -



FRANÇOIS-ANDRÉ ISAMBERT

sont, en somme, assez rigoureuses. De plus, une constance du mode de détermination est requise à la base (constance de la forme des dés ou de la pièce de monnaie, constance de la composition du genre de cartes, etc.). Lorsque cette constance ne peut être établie avec certitude, on risque toujours qu'un phénomène, bien qu'en un sens fruit du hasard, ne présente pas la régularité aléatoire caractéristique (1). Nous dirons donc, en employant ce terme dans un sens très général, qu'une répartition aléatoire s'établit sur la base d'une structure déterminée du phénomène et que c'est cette structure que traduit la distribution concentrée de par la loi des grands nombres autour des cas les plus probables (c'est par exemple la symétrie bilatérale de la pièce de monnaie que traduit l'égaie fréquence des piles et des faces dans une partie prolongée).

Cette structure peut, dans certains cas, être très simple et s'exprimer, au minimum, par une constante. En ce cas, la distribution du phénomène se prête très facilement au calcul des proba- bilités, étant la plupart du temps gaussienne. On a également un cas très simple lorsque deux grandeurs varient corrélativement selon une fonction linéaire, avec distribution normale de chacune des variables et distributions liées (2) normales elles aussi. C'est en somme le cas où par rapport à la loi fonctionnelle la plus simple de toutes, une perturbation aléatoire se produit. Mais cette structure peut aussi être complexe, et c'est ce qui se produit la plupart du temps dans les faits sociaux (3).

D'abord le postulat de la constance est rarement réalisé. Incons- tance dans le temps d'abord (4) qui rend toujours les extrapola- tions hasardeuses (et non pas seulement aléatoires, c.'est-à-dire qu'un calcul de probabilité sur une variation à long terme risque toujours de rencontrer l'obstacle d'une transformation des conditions du phénomène). Hétérogénéité dans la composition des groupes, d'autre part, rendant inopérante l'idée d'un continuum social. Mais, aussi bien dans le temps que dans l'espace, deux types d'hétérogénéité doivent être ici distingués. Le premier est variation de conditions dans un même cadre de référence Ainsi, lorsque divers éléments ethniques, ou même parfois lorsque diverses

(1) Cf. Poirier, Remarques sur la probabilité des inductions, Paris, 1931, pp. 145-149.

(2) C'est-à-dire distribution des écarts entre les x et les y d'une part et la posi- tion qu'ils occuperaient s'ils suivaient l'un par rapport à l'autre une loi fonctionnelle rigoureuse, soit les y' = y - ax - b et les x' = x - y •

n

(3) Nous rejoignons ainsi l'opposition faite par M. Gurvitch entre structures et éléments astructurels de la vie sociale, à cette réserve près que, sans mettre en cause cette distinction, la notion de variations aléatoires ne couvre qu'en partie les éléments astructurels dans la mesure où les termes sont relativement indépen- dants, ou tout au moins dans la mesure ou leur mode de variation équivaut pratiquement à une indépendance relative. Nous répudions ainsi l'emploi du terme « structure » dans le sens de « rapport de proportions » dans une distribution. Précisons, d'autre part, que nous n'entrerons pas ici dans les distinctions de fond entre les divers types de structures, mais seulement dans les distinctions opéra- toires suggérées par les problèmes d'adaptation de l'outil statisticrue.

(4) Cf. Gurvitch, op. cit., pp. 29-40.

- 128 -




classes sociales (1) sont mêlées dans une même collection, les carac- téristiques anthropométriques des diverses sous-populations ne sont pas les mêmes. Une analyse de variance (2) appliquée à chacune des sous-populations pourra montrer si la différence de distribution y est significativement différente. Il faut noter que l'analyse de variance suppose déjà distinguées les deux sous-populations et n'est pas un test d'homogénéité s'appliquant directement à la population totale : la statisticien est amené à procédé par hypo- thèse et tâtonnements, essayant au besoin plusieurs modes de subdivision avant de trouver une hétérogénéité confirmable par l'expérience (3).

Ce type d'hétérogénéité pose déjà un problème à l'échantil- lonnage. Certes, l'échantillonnage dit « au hasard » ne suppose pas une population répartie de façon homogène. Cette condition serait requise seulement si l'on choisissait un secteur de la population en le tenant pour représentatif du tout. (Une telle coupure se fait nécessairement dans le temps, tout sondage étant un instantané, aussi la signification d'un sondage ne saurait-elle être durable, à moins qu'on n'ait prouvé par divers sondages la stabilité du phé- nomène dans le temps.) Mais, de fait, il est rare que l'enquêteur ne sélectionne pas plus ou moins volontairement des sous-groupes où il puisera ses données. Dans le meilleur des cas, ce groupage peut être lui aussi aléatoire (c'est-à-dire contrôlé et non pas livré à l'initiative personnelle) ; nous avons alors un tirage en grappe. Mais la validité du tirage en grappe est sensible à l'homogénéité interne des « grains » et à leurs différences entre eux (4). La corré- lation intragroupe devrait, en toute rigueur, être calculée. On peut se demander si certaines divergences entre des sondages et des enquêtes numériquement plus complètes ne trouvent pas là une partie de leur origine (5). A plus forte raison, le statisticien est-il dérouté lorsqu'un cadre de référence commun ne peut plus être tracé. Ou plutôt, ce qui se produit le plus souvent, c'est que, les variables restant nominalement les mêmes, leur signification change et le danger réside dans une assimilation abusive. Tel est en particulier le cas des enquêtes par questionnaires, portant sur divers milieux, sans que l'on ait contrôlé l'univocité des questions

(1) Cf. Chombart de Lauwe, Paris et V Agglomération parisienne, t. I, p. 93. (2) Cf. Lambert, a Statistiques appliquées à la Sociologie et à la psychologie

sociale », numéro spécial du Bulletin de liaison des chercheurs du Centre d'Études Sociologiques y p. 39 et suiv.

(3) II est à noter que 1 utilisation faite par le psychologue de lanalyse de variance est quelque peu différente : deux échantillons lui étant donnés, il se demande simplement s'ils font partie d'une même population, c'est-à-dire que les variations sont également réparties dans les deux échantillons.

(4) Cf. Thionet, Méthodes statistiques modernes des administrations fédérales aux Etats-Unis. Paris. 1946. pp. 42-50.

(5) En particulier les divergences entre l'enquête de l'I. F. 0. P. sur la pratique religieuse en France et les résultats du chanoine Boulard. Cf. Sondage, numéro spécial : La Pratique religieuse en France. La carte de pratique publiée par Sondage, comparée à la Carte religieuse de la France rurale du chanoine Boulard nivelle singulièrement les différences.

- 129 -

CAHIERS INTERN. DE SOCIOLOGIE 9




posées (1). La seule solution sera évidemment, ici, de procéder par enquêtes fractionnées, la synthèse échappant à tout traite- ment statistique.

Mais plaçons-nous dans un milieu statistiquement homogène ou relativement tel, la structuration peut se manifester d'une autre manière par une loi de distribution différente de la répartition aléatoire. C'est à propos des courbes en J en psychologie sociale que le problème a été le plus précisément posé. G. W. Allport (2) examine la distribution des comportements respectivement dans les cas où les sujets apprécient individuellement la conduite à suivre (comportement « empiriques ») et où ils reçoivent un ordre qui leur assigne un but (comportements « téliques »). Par exemple, on mesure la vitesse des voitures passant à un carrefour sans feu de signalisation et passant à un carrefour où le feu est au rouge. Dans le premier cas, les vitessess se distribuent normale- ment. Dans le second cas, nous avons la répartition suivante, sur 2.114 voitures observées :

Arrêt 1.594 75,5 % Passage très au ralenti 422 22 % Faible ralentissement 47 2 % Pas de ralentissement 11 0,5 %

L'observation, de 10 en 10 minutes, de l'arrivée des salariés dans une usine où il faut pointer, présente un phénomène analogue. Ce qui caractérise la courbe en J, c'est que le maximum est à une extrémité avec non seulement décroissance à partir de cette extré- mité, mais encore décroissance de la pente, caractères qui l'opposent radicalement à la courbe en cloche de Gauss. On a mis en doute des caractéristiques dans les exemples présentés par G. W. Allport (3). Le fond de l'argumentation d'Allport n'en est pas pour autant réfuté. Laissons de côté certaines considérations contestables sur le caractère cumulatif d'une distribution comme celle qui est présentée plus haut. Allport distingue, dans le cas de l'heure d'arri- vée des salariés :

Io la norme (c'est-à-dire l'heure prescrite), 2° la tendance biologique commune (qui tend vers la moindre fatigue, donc va en sens contraire de l'effort pour être à l'heure) ; 3° la distribution des caractéristiques individuelles ; 4° le hasard.

Faisons remarquer que les caractéristiques individuelles se distribuent de façon aléatoire et réduisons à trois les types d'action qui se manifestent ici.

Il reste que, si nous prenons la population des salariés de cette entreprise à laquelle nous pourrons, pour les besoins de l'exposé, accorder l'homogénéité, nous pouvons d'abord la considérer comme donnée, avec une multitude de caractéristiques individuelles aux-

(1) Tel nous paraît être en particulier le plus gros reproche à faire à l'enquête précitée de l'I. F. O. P.

(2) « The J. Curve Hypothesis of Conforming Behavior », in Journal of Social Psychology, mai 1934, pp. 141-183.

(3) Par exemple J. Dudycha, in Sociometry, vol. I, 1937, pp. 144-154.

- 130 -




quelles nous pouvons attribuer une répartition aléatoire. L'idée d'une régulation psycho-biologique (encore que l'impératif de la non-fatigue puisse être fortement teinté de social) modifie en quelque sorte le champ de probabilité. A supposer que la fonction de fréquence introduite soit linéaire, la distribution reste gaussienne. On notera que, dans beaucoup de phénomènes, une portion réduite d'une fonction non linéaire peut être assimilée à une fonction linéaire, ce qui, joint au fait que les cas extrêmes comptent peu pour l'allure générale de la distribution, fait qu'un grand nombre de distributions psychologiques ou biologiques gardent une allure normale. Mais plaquons là-dessus une règle accompagnée de sanc- tion, les fréquences correspondant aux diverses valeurs de la variable fondamentale sont affectées, d'une part d'une disconti- nuité pour la valeur limite de l'heure d'arrivée permise, d'autre part, d'une fonction qui pourra ne plus être du tout linéaire, voire être elle-même discontinue si les conduites au-delà de certains seuils changent de signification. Aussi la courbe dite en J est-elle vraisemblablement plus complexe que ne le pense Allport ou M. Stoetzel (1), les formules proposées ne donnant que des appro- ximations destinées à être corrigées. Soulignons la difficulté, dans un cas de cette sorte, pour distinguer, la distribution empi- rique étant donnée, une composante aléatoire et les modifications qu'elle subit. La plupart du temps, le sociologue ne pourra traiter celle-là que négativement, c'est-à-dire montrer de quelle manière la répartition réelle diverge d'une répartition normale : il usera de divers tests d'asymétrie, de rétrécissement ; il devra aussi étudier empiriquement les portions de courbe et les fréquences relatives correspondantes comparées à celles de la courbe normale réduite. Mais le problème théorique subsiste et vaudrait un examen plus attentif. Nous pouvons assimiler, jusqu'à un certain point, à un tel problème certaines répartitions économiques. Ainsi, la pénurie donne à la distribution de la consommation une allure nettement dissymétrique (2).

Nous avons raisonné jusqu'ici comme si des atomes de proba- bilité se mouvaient dans une dépendance commune, mais sans lien direct entre eux. Or, précisément, nous avons là une hypothèse fausse et le schéma se complique d'autant. Le comportement des employés d' Allport doit être saisi avec ses interdépendances (faits d'imitation, regroupements divers...). Ce qui ajoute une nouvelle cause d'anormalité, due au fait que la population en question est un réseau plus ou moins serré ou lâche d'interrelations. Même les faits biologiques n'échappent pas à ces relations. Ce pourra être, par exemple, au point de vue génétique le jeu des affinités dans les croisements, affectant la répartition des caractéristiques métriques. Ce sera l'interdépendance du sexe des jumeaux. Dans le premier cas, la dépendance est faible et les caractéristiques anthropomé-

(1) Contribution à VÉtude expérimentale des opinions, pp. 46-53. (2) Cf. par exemple les courbes données par jagquemyns, La òociète neige

sous V occupation allemande^ Bruxelles, 1950, t. I, Alimentation et État de Santé.

- 131 -




triques gardent une allure gaussienne. Mais dans le second cas, elle est statistiquement sensible (1). Tout se passe comme dans une urne de Borei où dans une certaine proportion le tirage d'une boule entraîne celui d'une autre de même espèce. Aussi avons-nous une « explication de l'origine des séries hypernormales par la dépendance de certains événements (2) ». Inutile de préciser que, dans un groupe étendu, cette interdépendance est extrêmement difficile à mesurer : seul pourra en être mesurée la résultante, c'est-à-dire la similitude ou au contraire la polarisation qui en résulte à l'intérieur des sous-groupes conduisant à une hétéro- généité pour la population d'ensemble.

A cette interdépendance des faits individuels, nous rattache- rons les cas où chacun dépend de tous les autres lorsque la répar- tition de l'ensemble affecte les chances de chacun. C'est à un mécanisme de ce genre qu'Halbwachs rattache le maintien du taux de masculinité. Le cas le plus simple peut être assimilé à l'urne de contenance limitée et dont on extrait successivement toutes les boules. La composition de la part déjà tirée influe sur la probabilité de sortie pour les boules restantes. De telles actions s'exercent dans la répartition de la consommation lorsque les subsistances sont limitées, en rendant plus « improbables » les fortes consommations, ce qui vient renforcer la dissymétrie dont nous parlions plus haut (3). D'une façon générale, les faits économiques de conjonc- ture répondent au moins partiellement à ce schéma. Il est regret- table, que dans le passé des sciences sociales, ce type de détermi- nisme global ait été entaché de jugements de valeur. Halbwachs écrivait qu'« il y a bien des raisons pour penser qu'une société a, en général, la mortalité qui lui convient (4) ». Ce faisant, il s'inspi- rait d'un organicisme, plus ou moins latent chez Durkheim. En fait, une action, telle que la distribution de l'ensemble influe sur la posi- tion probable des parties, n'implique ni une stabilisation, ni, à plus forte raison, une adaptation. De plus, ici encore, cette action est souvent le fait de démarche collectives, discontinues, échappant par là-même à tout mécanisme et à toute expression fonctionnelle.

Nous voyons donc, que, si le calcul des probabilités appliqué aux faits sociaux se complique du fait des déterminismes propres à ceux-ci, c'est par un processus beaucoup plus variable que ne le concevait Durkheim, et même, jusqu'à un certain point, Halb- wachs. La régulation collective de Durkheim est, en fait, une combinaison, en proportions diverses, d'aléas, d'homogénéité des conditions de base, de structuration dynamique autour de normes et d'interdépendance, constituant autant de type différents de modèles mathématiques.

(1) Fréchet et Halbwachs, Le calcul des probabilités à la portée de tous, pp. 278-283.

(2) Ibid., p. 275. (3) Les cas présentés par M. Jacquemyns sont privilégiés puisque la population

choisie est socialement homogène donc de niveau économique voisin. Dans le cas de grandes différences dans le revenu, la probabilité dont nous parlons ici serait évidemment submergée et n'aurait plus grand sens.

(4) Halbwachs, op. cit., p. 97.

- 132 -




*

C'est le rôle méthodologique général de ces modèles mathéma- tiques qu'il nous fait maintenant examiner. Nous démontrerons que tout procédé statistique concret suppose implicitement un modèle. D'abord, de la façon la plus générale l'examen sous forme de répartition des cas individuels suppose la séparabilité de tels cas et nous met sur le chemin de la répartition aléatoire. Le chemin est plus qu'à moitié parcouru si nous considérons cette répartition comme une distribution caractérisée principalement par sa moyenne et sa dispersion. Les groupes réels dans lesquels les cas individuels sont insérés ne peuvent alors apparaître que comme des variables affectant un à un les individus. Aussi, n'est-ce ensuite que par des procédés de rattrapage que l'on peut tenir compte de la structuration de la population. Encore faut-il bien se rendre compte que ce n'est pas la structure elle-même qui apparaît alors mais les perturbations qu'elles introduirait dans une population imaginaire amorphe qui se trouverait structurée par un coup de baguette magique.

Prenons garde, d'autre part, que le modèle de la répartition aléatoire est à la base de la plupart des procédés statistiques courants, sans qu'il soit toujours facile d'y apporter les correctifs nécessaires. Ainsi, parmi les tests statistiques, le t de Student ne peut s'utiliser que si l'on suppose normale la distribution parente de l'échantillon observé (1). C'est surtout l'utilisation des coeffi- cients de corrélations qui posent un problème important. Remar- quons d'abord qu'un coefficient de corrélation n'exprime pas une liaison fonctionnelle, mais seulement le degré d'adéquation à une liaison fonctionnelle conçue, dans le cas le plus simple (2), comme linéaire. En ce cas, il suppose répartie de façon gaussienne les deux distributions liées des x par rapport aux y et des y par rapport aux x et, par voie de conséquence, les deux distributions marginales des x d'une part, des y d'autre part. Si la fonction n'est plus linéaire, cette conséquence ne se vérifie plus. Il faut alors choisir entre une transformation des mesures et l'utilisation d'un autre coefficient. Mais il arrive souvent au sociologue que ces x et ces y soient anormalement répartis. S'il suppose néanmoins aléatoires les distributions liées et linéaire la fonction, il pourra « normaliser » ses distributions. Il pourra aussi (mais en ce cas seulement) employer la corrélation par rang. Mais outre la non- linéarité de la fonction, c'est tout le problème du caractère aléa- toire des variations réciproques des x et des y qui se trouve posé

(1) Mac Nemar, op. cit., p. 216. (1) Le coefficient de Bravais-Pe arson peut prendre la forme :

V Sî/a

[e exprime l'écart entre une mesure y et le F(x) correspondant] exprimant ainsi ce en quoi l'écart type lié des y par rapport à une fonction linéaire quelconque diverge de l'écart type marginal, et de même pour les x.

- 133 -




et de la normalité qui en résulte. Cette condition n'est remplie ni en cas de variations de conditions dues à des transformations dans la durée, ou à l'hétérogénéité du champ social (en ce cas la corrélation par rang elle-même n'a plus de signification), ni en cas d'interdépendance sensible des x entre eux ou des y entre eux, ni en cas d'action systématique sur le lien entre les x et les y. On voit combien est théorique, peu adaptée, la mesure courante de la corrélation aux besoins du sociologue. Ici aussi, le sociologue, s'il part de la statistique courante, doit affiner progressivement son outil. S'il veut utiliser les formules habituelles, il doit les rap- porter à une population fictive dont la répartition aura été trans- formée pour les besoins de la cause ou bien il lui faudra utiliser de nouveaux outils.

Pourtant c'est bien ainsi que l'observateur est souvent amené à pratiquer lorsqu'il ne sait pas quels sont les éléments structu- rants de l'objet étudié. Vaille que vaille, il est obligé de suivre la voie qui va du moins significatif au plus significatif, de l'accès au structuré par l'antichambre de l'aléatoire. C'est par la négation de l'aléatoire pur qu'il accède aux structures. C'est la voie des tests statistiques et de l'hypothèse nulle. Voie négative qui le rejettera successivement des hypothèses les plus frustes vers des hypothèses plus fines. Le danger est que l'hypothèse fruste n'est souvent pas confirmable statistiquement, surtout si l'on procède par échantillon. Un échantillon dit « suffisant » n'est tel en effet, que par rapport à la détermination de sa moyenne, ce qui est de tout les paramètres le plus fondamental, mais aussi le moins élaboré. Enfin, la marge d'erreurs inévitable dans l'établissement de la statistique empêche elle-même souvent l'observation fine.

Néanmoins la voie inverse peut être dans bien des cas préfé- rable. Caractérisant la méthode statistique de pure observation, M. Gurvitch écrit : « Les différents cadres du réel se présentent ici à nous comme des urnes qui ne nous ont pas d'avance livré leurs secrets (1 ) », or, en fait, nous connaissons souvent, ou tout au moins nous supposons une partie du secret. C'est ce secret que Durhkeim cherchait à nous dévoiler dans le Suicide et Halbwachs de manière plus générale dans le Quételet. Ne nous faisons pas d'illusions, ce n'est pas par pure induction statistique qu'ils ordonnent les faits. La statistique arrive ici pour confirmer ou infirmer les hypo- thèses, étant bien entendu que la confirmation n'est jamais défi- nitive et reste simplement une non-infirmation. Mais cette non- infirmation tire toute sa force de la convergence d'une multitude d'indices nous permettant d'établir un schéma de cadre réel dans lequel se déroule le phénomène.

Les techniques peuvent ici varier. Lorsque nous nous trouvons devant un phénomène relativement simple, défini par une loi prédominante, dans un cadre déterminé, telles les grandes lois de la démographie, nous cherchons une vérification directe : nous construisons en regard le phénomène calculé et le phénomène

(l) Op. cit., p. 52.

- 134 -




observé. Le problème reviendra, une fonction y = F(x) étant posé, à mesurer les écarts entre les y0 observés et les y. D'un point de vue simplement descriptif il est souvent préférable de s'en tenir à la solution la plus simple : la mesure de l'erreur arithmétique moyenne, soit :

S[yo- y' N '

ou de l'erreur moyenne relative :

v 'yo-y' Ny

Rappelons que les sciences physiques utilisent fréquemment ce genre de calcul d'erreur, ne se croyant pas obligées de se référer à chaque fois au calcul des probabilités. Mais si nous tenons à faire intervenir celui-ci, il faut bien voir ici les limites de sa signification. Dans le cas de la distribution d'une seule variable, il implique que nous considérons le champ de notre observation comme infini en droit. Nous nous demandons alors si l'importance et la fréquence relatives des différences entre le phénomène observé et le phénomène calculé sont dues à la seule limitation du nombre de cas observés (étant admis que dans une série indéfinie, d'observa- tions, l'erreur relative s'annulerait) ou à des perturbations mar- quant l'insuffisance de notre estimation. Remarquons bien que la question se pose en termes radicalement différents des cas où nous partons de la population donnée avec sa dispersion propre. Ici, ce qui était dispersion est maintenant supposé obéir à une loi, et c'est une dispersion au second degré que nous examinons. A cette dispersion au second degré s'appliquent des tests statistiques, comme le test du x2 (1). La réponse négative à ce test n'implique pas la fausseté totale de l'hypothèse mais amènera à la conclusion que les perturbations observées n'ont pas pour origine les aléas de l'échantillonnage. Dans le cas d'une distribution à deux variables c'est à une fonction que nous avons affaire. Toute divergence entre les cas observés et la loi proposée ne peut être due qu'à une perturbation, quelle que soit la petitesse de l'échantillon : la fréquence ne jouant plus le rôle de variable. Aussi le calcul des probabilités n'a-t-il à intervenir que dans la mesure où l'on se demande si l'écart (on emploiera ici de préférence l'écart type lié) :

/S(y0- ^) V N '

observé peut être lui-même l'objet d'une variation aléatoire due à la petitesse de l'échantillon, ce qui mène à une réponse ambiguë (l'écart aléatoire étant aussi bien négatif que positif). La variation relative par rapport à la loi prévue n'est peut être pas aussi forte

(1) Cf. par exemple l'usage qu'en fait M. J. Stoetzel, op. cit., pp. 30-32, et 38-50.

- 135 -



FRANCOIS-ANDRE I S AMBER T

qu'on ne pourrait le croire d'abord ; mais le pessimiste en conclura à l'inverse qu'il est fort possible qu'elle soit plus grave.

Mais ces cas simples sont hélas rares (1). D'abord il est rare qu'un phénomène se présente dans l'observation (nous laissons de côté la production expérimentale du phénomène) d'une façon aussi satisfaisante pour le statisticien. Même les phénomènes démographiques se présentent le plus souvent dans une extrême complexité. De multiples lois devraient ici intervenir. Dans une méthodologie rigoureuse, c'est par une méthode des résidus qu'il faudrait procéder. Les économistes, connaissent bien la méthode qui consiste à annuler l'effet d'une variation, soit cyclique, soit tendancielle. Lorsque d'autres types de variations apparaissent alors dans leur pureté, c'est non seulement une mise en évidence de celles-ci, mais encore une confirmation de la justesse de l'estimation de celles-là. Par élimination successive, on doit retomber sur des variations de type aléatoire. Par élimination successive des lois fonctionnelles, on doit retomber sur une corrélation nulle. Le chemin est en fait fort difficile et, une fois de plus la finesse de la matière d'observation n'est pas toujours suffisante. De plus, si le secret de l'urne nous est parfois entre-dévoilé, ce n'est parfois que dans ses lignes les plus générales : nous nous atten- dons à l'existence d'une loi fonctionnelle d'un certain type, sans, pour autant, en connaître les paramètres. Si cette fonction est censée constituer l'ossature principale du phénomène, une tech- nique d'ajustement de courbes pourra faire l'affaire. Mais dans les cas complexes, il n'y a plus de solution rigoureuse, le tâtonnement est maître.

C'est pourquoi le sociologue est amené très souvent à réduire ses prétentions ; il se contentera de vérifier qu'il y a liaison fonctionnelle, qu'il y a interdépendance, etc., sans préciser quelle est mathématiquement cette liaison fonctionnelle, cette interdé- pendance. De ce point de vue, les tests statistiques courants sont valables, à la condition d'adapter, comme nous l'avons dit plus haut soit l'outil à la population, soit l'inverse. Dans le cas simple, où deux variables qualitatives se combinent, l'utilisation du Xa est évidemment, et à juste titre, de pratique courante.

Une complexité dont nous ne ferons ici qu'esquisser les contours resurgit pourtant d'une autre source. C'est qu'en effet, les liaisons sont ici multiples et forment des systèmes. Lorsque divers éléments d'une situation personnelle ou diverses réponses à un questionnaire sont liés entre eux, on ne peut les considérer simplement comme liés deux à deux : ils forment des systèmes pluridimensionnels. De plus, dans bien des cas, l'indépendance des variables que recherche l'analyse fonctionnelle passe loin, en importance, derrière celle de constellation typique polarisant la distribution des variables

(1) C'est pourquoi les analogies physico-mathématiques (cf. par exemple « Les Mathématiques des communications sociales », par Colin Cherry in Bulletin International des Sciences Sociales, numéro cité, pp. 672-685) ont une valeur heuristique indéniable, mais ne sauraient être considérées que comme le fruit d'une abstraction schématisante qu'il convient toujours de relativiser.

- 136 -




empiriques. C'est pourquoi, en particulier, il nous semble que les méthodes « d'analyse du contenu » qui visent seulement à dégager des «attitudes» indépendantes (1) manquent un des aspects importants de la matière sur laquelle elles s'exercent.

De telles réflexions sont sans doute trop vagues et trop géné- rales pour satisfaire les sociologues. Aussi n'est-ce pas tant à résoudre les problèmes qu'à les poser que nous nous sommes efforcés. Et si tant est qu'un problème correctement posé est par là même résolu, nous avons conscience de n'avoir posé le plus souvent que des avant-problèmes. Encore faut-il convenir que ceux- ci sont rarement évoqués par ceux des statisticiens qui veulent que leur outil soit utilisable pour les sciences sociales. Aussi est-on toujours tenté d'appliquer mécaniquement des recettes toutes faites. Le contact de l'expérience et la réflexion qui en découle amènent à reconnaître l'inadéquation actuelle de cet outil à la matière. Encore faut-il aller plus loin : une réflexion méthodolo- gique plus poussée doit permettre à la sociologie non seulement de prendre ses distances avec la statistique, mais de modeler à son usage ce qui en est pour elle utilisable. Ce travail doit être une constante adaptation à l'infinie diversité des déterminismes sociaux; les quelques progrès de la théorie mathématique dans le sens de l'adéquation à certains comportements humains (2) ne nous auto- risent aucunement à pousser dès maintenant un cri de victoire.

Centre d'Études Sociologiques, Paris.

(1) Cf. principalement B. Berelson, Content analysis in communication research, Chicago, 1952, pp. 105-108.

De son côté, l'analyse scalaire, avec son idée de la « structure latente » n'échappe pas entièrement à ce reproche. Cette « structure » a beau s'étendre sur plusieurs réponses mises dans un certain ordre, elle n'en reste pas moins une forme de cette atome psycho-social qu'est l'attitude. Cf. par exemple Stouffer «Scaling Concepts and scaling theory » in Research methods in Social Relations, pp. 681 et suiv.

(2) Par exemple la fameuse «Théorie des jeux», cf. J. Von Neumann et C. Morgenstern, Theory of games and Economic Behavior, Princeton, 1947.

- 137 -



Documents

LA STATISTIQUE BIEN TEMPÉRÉE: RÉFLEXIONS SUR L'APPLICATION DE LA STATISTIQUE A LA SOCIOLOGIE