38
Le Répertoire National des Entreprises en Tunisie Contrat de jumelage ° TU/07/AA/OT/02 Développement d’un Système d’Informations Statistiques sur les Entreprises (SISE) en Tunisie Documentation finale

Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Le Répertoire National des Entreprises en Tunisie

Contrat de jumelage ° TU/07/AA/OT/02

Développement d’un Système d’Informations Statistiques sur les Entreprises (SISE) en Tunisie

Documentation finale

Page 2: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

2

Sommaire

1. Introduction .................................................................................................................................. 3

2. Diagnostic et évaluation du RNE existant .................................................................................. 4

2.1 Les sources de mise à jour du Répertoire National des Entreprises ............................................... 5

2.2 Le contenu du Répertoire National des Entreprises........................................................................ 8

3. Analyses des nouvelles sources disponibles .............................................................................. 16

4. Les méthodologies statistiques pour la réalisation du nouveau Répertoire Statistique des

Entreprises Tunisien. .......................................................................................................................... 22

4.1. Introduction .................................................................................................................................. 22

4.2. Le contenu du RNE et les sources disponibles pour l'estimation des caractères .......................... 23

4.3. L’identification de la population du répertoire (estimation de l'état de l'activité) ........................ 25

4.4. Le choix du nombre des employés ............................................................................................... 29

4.5. Le choix du code d'activité économique....................................................................................... 33

5. Recommandations ...................................................................................................................... 35

Liste des tableaux ................................................................................................................................ 38

Page 3: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

3

1. Introduction La disponibilité de répertoires statistiques d’entreprises pouvant refléter la réalité économique nationale et d’en comprendre les dynamiques évolutives, prend de plus en plus une importance capitale. L’élaboration des statistiques nécessaires pour obtenir les indicateurs conjoncturels et structurels utiles pour l’analyse du système national ne peut pas faire abstraction de la présence d’un répertoire statistique d’entreprises – de bonne qualité et constamment mis à jour – développé en suivant les méthodologies les plus adaptées au contexte de référence. Concernant les utilisateurs internes du Système national statistique, il est évident que l’objectif de l’utilisation d’un répertoire d’entreprises est d’alimenter les données d’échantillons et de population nécessaires à la conduite des enquêtes. A cette fin, l’utilité pour les statistiques structurelles et conjoncturelles est fondamentale, étant donné qu’un répertoire peut fournir un annuaire dont pourront être tirées des listes d’adresses pour l’envoi de questionnaires dans le cadre d’enquêtes statistiques et peut également fournir une population d’entreprises pour laquelle il sera possible de préparer des plans d’échantillonnage efficaces et de suivre les panels. De plus, il doit servir de base pour l’extrapolation des résultats des enquêtes par échantillonnage en vue de produire des estimations de la population d’entreprises, garantissant ainsi la convergence entre les résultats des différentes enquêtes. Avec une utilisation appropriée de la liste comme univers des unités actives, le répertoire permet d’éviter les doubles emplois et omissions dans la collecte d’informations sur les entreprises ainsi que d’améliorer le champ d’observation ou révéler les inexactitudes dans la collecte de données statistiques. Par ailleurs, le répertoire permet de contrôler le chevauchement des enquêtes grâce à une coordination effective des échantillons, réduisant ainsi à la fois les coûts et la charge de la réponse, de manière à contribuer au suivi et à la répartition de la charge que représente la réponse aux enquêtes statistiques pour les entreprises. Enfin, en termes d’actualité pour présenter une qualité suffisante aussi bien pour les utilisateurs que pour les utilisations, le répertoire doit être mis à jour au moins une fois par an pour enregistrer les créations et les suppressions, ainsi que les changements d’adresse et les variables de stratification. Par rapport aux utilisateurs externes, la diffusion des informations sur la structure et l’évolution d’un système économique – avec différents niveaux de désagrégation en termes sectoriels, dimensionnels et territoriaux – représente un instrument fondamental de support des décisions de politique économique et sociales et des analyses des comportements des opérateurs économiques. Les objectifs pour les répertoires d’entreprises à usage statistique sont la couverture, la qualité et l’autorité. Le répertoire statistique doit couvrir la plus grande partie possible de l’activité économique nationale. Un répertoire d’entreprises de qualité, en termes d’exactitude des données, fréquence des mises à jour et cohérence des procédés, permettra d’améliorer l’efficacité du système statistique national, qui devrait à son tour permettre de réduire la charge que représente la réponse pour les entreprises. Enfin, il doit être reconnu comme source faisant office d’autorité pour les données relatives aux populations et à la démographie des entreprises et constituer le cadre d’échantillonnage de toutes les enquêtes sur les entreprises au sein du système national de statistique. L’analyse de l’état des lieux du répertoire tunisien a été effectuée en tenant compte des ces trois aspects fondamentaux. Il est clair que l’atteinte de certains résultats déterminés en termes d’utilisations possibles d’un répertoire statistique est liée à la qualité des procédures adoptées. Ceci signifie que pour construire un répertoire statistique de bonne qualité, il faut développer convenablement chaque phase du processus en évaluant (et en documentant de manière adaptée) la qualité, à partir de l’acquisition et du traitement des sources de base pour parvenir aux méthodes de

Page 4: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

4

diffusion du répertoire, en passant par les procédures d’intégration des sources, les méthodologies d’estimation des variables et celles de contrôle et correction (micro et macro). Une première évaluation du Répertoire National des Entreprises tunisien et du degré de son écart avec un « répertoire statistique » (tel que défini dans la littérature) en termes de définitions et classifications adoptées, de couverture et de variables enregistrées, a été faite en tenant compte de certaines indications de base identifiées dans le “Business Register Recommendations Manual” de l’Eurostat. Pour atteindre l’objectif d’améliorer la qualité du répertoire des entreprises de l’INS, trois activités différentes ont été programmées : − Evaluation approfondie de l’état du répertoire statistique tunisien (§2). − Vérification des possibilités d’amélioration de la qualité du répertoire, que ce soit en

terme d’unités qu'en terme de variables à travers l’utilisation des sources d'informations externes ou de nouvelles variables fournies (§3).

− Développement et application de nouvelles méthodologies pour l’estimation des principales variables du RNE : état d’activité, employés et activité économique (§4).

2. Diagnostic et évaluation du RNE existant Pour identifier de nouvelles sources et de nouvelles méthodes pour améliorer la qualité du RNE, on a effectué, comme première étape de l’activité, une évaluation des avantages et des inconvénients de l’existant, en analysant le processus de construction et de mise à jour à l’aide de sources administratives et l’attribution des principales variables économiques. Concernant le cadre juridique, le décret n° 94-780 du 4 avril 1994 portant création du répertoire national d’entreprises a chargé l’Institut National de la Statistique de l’initialisation du répertoire, de sa mise à jour, de sa gestion et de l’exploitation et la diffusion des données. Les principaux partenaires actuels de l’INS dans la gestion du répertoire sont le Ministère des Finances représenté par la Direction Générale des Impôts (DGI) et la Caisse Nationale de la Sécurité Sociale (CNSS). En effet, l’article 6 indique que ces administrations et tout autre organisme public disposant d'informations relatives aux entreprises, sont tenus de fournir régulièrement à l'Institut National de la Statistique les créations d'entreprises ainsi que toute modification d'informations spécifiques au répertoire et relatives aux entreprises. La première phase de la construction du Répertoire National tunisien des Entreprises concerne l'analyse et le traitement de ces deux sources administratives gérées par les partenaires de l'INS. Les procédures d’intégration entre plusieurs sources administratives consistent à créer une première version de répertoire, non encore statistique et qui correspond à l’union des sources administratives existantes. Pour définir et évaluer l'utilisation des sources administratives pour la construction d'un répertoire statistique, il faut garder à l'esprit que les sources dites "sources administratives" sont des sources contenant des informations dont la collecte n’est pas initialement destinée à des fins statistiques. Cette définition au sens large1 permet de prendre en compte pratiquement la totalité des intrants provenant de sources autres que les enquêtes dans les répertoires d’entreprises, quelle que soit leur origine. A noter que cette définition reflète certainement plus la réalité des nations où les fonctions qui étaient auparavant assumées par le secteur public sont transférées en partie ou en totalité au secteur privé. En effet, généralement les sources administratives étaient définies comme des fichiers de données collectées par des administrations publiques aux fins de gestion des impôts ou des prestations, ou aux fins de recensement des populations. Pour les nations où le secteur publique est encore dépositaire

1 Définition tirée du Business Register Recommendations Manual

Page 5: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

5

des principales fonctions administratives, "l'ancienne" définition est tout de même en mesure de bien décrire le contexte de référence, en particulier par rapport à certaines problématiques typiques des relations entre les institutions telles que le cadre juridique de référence, le secret statistique et l'utilisation de définitions, classifications et procédures différentes. Les thématiques relative aux avantages et inconvénients de l'utilisation de sources administratives ont été traitées dans le document relatif, élaboré pour le présent projet de jumelage2. Les considérations générales faites dans un tel document sont également valables pour l'utilisation de sources administratives pour la réalisation et la mise à jour d'un Répertoire Statistiques d'Entreprises. 2.1 Les sources de mise à jour du Répertoire National des Entreprises La mise à jour (maj) du RNE est basée sur les deux sources provenant de la DGI (Direction

générale des impôts) et de la CNSS (Caisse Nationale de sécurité sociale). Le tableau suivant décrit les deux sources : unité, couverture, variables, périodicité et utilisation.

A noter que les deux sources ne possèdent pas toujours un identifiant commun. Un ensemble d’opération est mise en place pour exploiter ces fichiers. Direction générale des impôts - DGI La DGI opère à travers une Direction Générale et une série de bureaux de contrôle régionaux qui collectent et conservent les déclarations fiscales, enregistrent une partie des déclarations et effectuent les contrôles.

2 Voir le document ‘Utilisation des données administratives à des fins statistiques dans le projet de jumelage international avec l’Institut National de la Statistique en Tunisie’, V. De Giorgi, 2010

Source Utilisation Unité Périodicité Retard Remarque

maj

Unité légale :

patenté

Mensuelle

1 mois

Un fichier de maj

maj et

démographie

Unité légale :

patenté

Annuelle

1 mois

Un fichier de

global

D.G.I

démographie

Unité légale

Annuelle

14 mois

Fichier de déclaration mensuelle - annuelle

maj et

démographie

Employer

trimestrielle

6 mois

maj

Indépendant

trimestrielle

6 mois

C.N.S.S.

maj

Employer

Annuelle

8 mois

Nombre des salariés/trimestre

Page 6: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

6

La DGI est la base de référence pour le Répertoire. Sont fournis à l'INS toutes les unités actives ou en cessation. Elle est alimentée par les nouvelles matricules fournies par la DGI mensuellement. Il existe deux types de cessation : provisoire et définitive. L’entreprise passe en premier lieu par une phase de cessation provisoire (durant les phases de faillite ou de liquidation par exemple) et peut ensuite cesser définitivement son activité. Les entreprises dans la première phase sont aussi considérées comme ayant cessé leur activité. Tous les 5 ans, la DGI vérifie les entreprises qui n’ont pas déclaré d’impôts pour une certaine période et à la fin de cette vérification, il peut y avoir un décret de « radiation ». Dans les archives de la DGI, toutes les personnes morales et physiques qui exercent une activité industrielle ou commerciale sont identifiées par un "matricule fiscal (MF)" (composé de 7 chiffres + 1 code de contrôle). Le MF des personnes physiques et morales change si un changement de la forme juridique est vérifié. Concernant les codes identifiants, on doit en outre préciser que les personnes physiques qui n'exercent aucune activité industrielle ou commerciale sont identifiées par un autre code, le CIN et que dans cette catégorie sont inclus les agriculteurs et les pêcheurs. Pour chaque déclaration fiscale des sujets qui exercent une activité industrielle ou commerciale la structure d'identification enregistrée contient: - Le code du Bureau de contrôle local où la déclaration est déposée; - Le matricule fiscal ; - La dénomination ; - L’adresse du siège principal; - Le code de l'activité économique principale ; - Le code de l'activité économique secondaire. Dans cet archive administratif, sont aussi enregistrées les unités locales, avec leur propre code d'activité économique, s'il est différent de celui du siège principal et sont identifiées par un code progressif au sein du même MF. Trois flux d’informations proviennent de la source fiscale (180 BUREAUX): − Un fichier (MAJ) qui concerne uniquement les mises à jour (nouveaux matricules

fiscaux ou changements des caractères, comme l’adresse, état d’activité, activité économique exercée) ; la périodicité est mensuelle ;

− Un fichier global avec périodicité annuelle qui contient tous les matricules fiscaux ; un fichier de déclarations fiscales qui est annuel et qui contient les déclarations de la TVA (mensuelles) et les déclarations du chiffre d’affaires (annuelles). On y trouve les entreprises suivant le régime réel (180.000 unités) et on y trouve aussi les déclarations annuelles de presque 200 milles entreprises soumises au régime forfaitaire

− Les modalités de déclaration sont « oui » et « non ». Observations : La connaissance des potentialités informatives des données de la DGI n'est pas encore complète au sein de l'INS. Il y a une nécessité de fournir plus d'effort non seulement pour la compréhension des données actuellement fournies (ex: une connaissance plus approfondie concernant la distinction entre cessation provisoire et cessation définitive) mais également dans les acquisitions, quoique dans la limite des lois actuelles, de nouvelles informations. Par exemple, les premières entrevues effectuées durant le projet avec les responsables de la DGI ont permis l'acquisition pour chaque entreprise, de la classe du chiffre d'affaires, qui est une information très utilisée pour la réalisation des méthodologies d'estimation des variables du nouveau RNE.

Page 7: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

7

Caisse Nationale de sécurité sociale – CNSS Toutes les informations relatives à l’emploi sont fournies à l’INS par la CNSS ; La caisse nationale collecte les informations des employeurs qui effectuent une retenue à la source pour leurs salariés (sont inclus également les consultants et les professionnels utilisés par l'entreprise). Trois fichiers arrivent à partir de cette source (50 BUREAUX):

− Un fichier trimestriel par employeur; − Un fichier trimestriel par indépendant (TNS); − Un fichier annuel de déclaration du nombre des salariés. Les informations collectées, annuellement, pour chaque entreprise sont:

- Code CIN du salarié ; - Nom et prénom du salarié ; - Montant su salaire ; - Durée de la période de l'emploi ; - Retenue effectuée.

A un niveau définitoire, certaines précisions au sujet du fichier de la CNSS sont nécessaires. C'est les "employer" qui emploient les salariés; toutes les personnes morales qui emploient des salariés sont dans l'archive "employer"; les personnes physiques se trouvent dans l'archive "indépendant" et s'ils emploient des salariés, elle sont aussi dans l'archive "employer" (les unités en communs sont environ 70.000). En outre, il faut souligner que, comme c'est souvent le cas lors de l'utilisation de sources de type social/contributif, le salarié qui travaille pour la même entreprise mais durant deux périodes différentes est déclaré deux fois. Observations : Pour le répertoire 2007, on trouve uniquement 61.000 unités qui figurent à la fois dans le fichier employeur et dans le fichier indépendants (appelé aussi fichier des Travailleurs Non Salariés). Le décalage pour les archives trimestrielles est de 6 mois. Pour l’archive annuel, les données fournies concernent non seulement l’année en cours mais aussi les deux précédentes. Généralement, les données parviennent au cours des mois de juillet/août de l’année t+1. Il faudrait vérifier quel est le nombre d’entreprises qui sont en « cessation provisoire », qui ont en réalité des employés et qui pourraient donc faire partie des résidus CNSS non appariés avec la DGI et être des entreprises encore actives. D'autres limites importantes à une exploitation statistique complète des données des la CNSS, résident dans l'absence d'une distinction entre les salariés permanent et ceux occasionnels, ainsi que l'absence d'informations sur les jours travaillés. Cette dernière variable est présente dans les modèles d'acquisition des données mais n'est pas enregistrée parce qu'elle est considérée comme de très basse qualité.

Enquête de qualité du RNE – ECAQ Un premier pas effectué par l'INS en vue d'avoir à sa disposition un Répertoire de type statistique a consisté dans la réalisation d'une enquête qui a pour objectifs le contrôle et l’amélioration de la qualité des données du Répertoire. La réunion des archives administratives disponibles, en effet, a tout de suite montré les limites typiques de l'utilisation de pareilles sources, en particulier, concernant la justesse des variables qui ne sont pas directement liées aux objectifs institutionnels des organismes qui les ont fournis. En effet, les sources administratives à disposition (DGI et CNSS) ne se préoccupent pas de la correction des variables qui ne sont pas étroitement liées à leurs propres

Page 8: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

8

fins (Par exemple, pour la DGI, l’adresse n’est pas aussi importante que la forme juridique ; en effet, la première a une faible qualité par rapport à la deuxième variable qui est presque toujours correcte. Le contraire se trouve dans l’archive CNSS). L’enquête ECAQ a été effectuée par des enquêteurs et a concerné environ 41.000 entreprises (ayant au moins 2 salariés) avec l’objectif d’identifier : les unités fausses actives (détermination du statut d’activité correct) ; les erreurs de localisation ; les erreurs d’attribution du code d’activité économique. Les enquêteurs sont des travailleurs avec un contrat temporaire, spécialement engagés et ensuite formés par l’INS et par les superviseurs régionaux. Observations : Le répertoire ayant entre autres pour fonction de permettre la mobilisation d’informations dans les fichiers administratifs, il faut gérer des passerelles avec ces fichiers. Les identifiants utilisés pour enregistrer les unités dans les fichiers administratifs doivent donc être inclus dans le répertoire d’entreprises. Il faudrait prévoir de maintenir en mémoire dans le répertoire toutes les modifications effectuées au cours du temps aux valeurs des principales variables, à travers l’utilisation de méta informations appropriées. Pour le moment, il serait suffisant de connaître la provenance de la valeur choisie (quelle est l’archive administrative dont on l’a tirée, si elle a été modifiée par l’enquête qualité, si elle a été corrigée par le réviseur, etc.), en maintenant la valeur d’origine en mémoire. On rencontre le même type de besoin dans l’enquête qualité, pour laquelle on ne dispose pas pour le moment des données précédant la valeur de l’enquête.

2.2 Le contenu du Répertoire National des Entreprises

Le RNE recueille les informations sur les entreprises (et d'une manière tout à fait orientée). La définition théorique et adoptée de l’entreprise est la suivante : Entreprise = unité légale = patenté DGI. Concernant la couverture, le RNE contient, d'un point de vue théorique, toutes les entreprises sans distinction par rapport au secteur d'activité ou à la dimension. Le seul secteur pour lequel l'archive est tout à fait partielle est celui de l'agriculture. Matricule fiscal et identifiant commun (source DGI) Le processus de mise à jour des données consiste dans l’appariement des données de source DGI avec celles de la CNSS pour attribuer le matricule fiscal aux unités de la CNSS. L’appariement se fait au niveau central, mais en décomposant les données selon la variable localisation au niveau de région. Le matricule fiscal est utilisé comme clé pour les entreprises où cette variable est présente dans les deux sources (solution pour environ 40% des entreprises de source CNSS). Toutes les données résultant de l’appariement passent par un processus de validation manuelle (cette activité de validation manuelle est effectuée par 6 personnes occasionnelles). Pour les autres entreprises, qui ont un matricule fiscal erroné ou un appariement qui n’a pas été validé manuellement, on utilise d’autres clés, pour un appariement défini probabiliste : la paire code CIN et date de naissance, pour l’appariement avec l’archive TNS et pour les deux archives, la paire raison sociale et adresse (solution pour environ 50% des entreprises). L’appariement probabiliste et du type semi manuel et il est effectué par les mêmes personnes occasionnelles. Le résidu final est constitué par environ 1500 à 2000 unités par trimestre auxquelles on ne réussit pas à attribuer un matricule fiscal. Pour ce résidu, l’INS prépare des listes que la CNSS envoie par la suite aux bureaux fiscaux de compétence territoriale qui se chargent de chercher

Page 9: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

9

ces unités. Le flux de retour de la part de la DGI est par contre faible (environ 100 unités par trimestre). A la fin de cette procédure, environ 170.000 unités sont appariées sur un total d’environ 250.000 appartenant au fichier employeur. Les unités employeur qui sont activité (selon la CNSS) s’élèvent à 117.000 unités dont 104.000 sont appariées. Un code interne INS est attribué à toute nouvelle création fiscale (patenté) qu’elle soit appariée ou non. Le code interne pour les unités locales est formé en attribuant au code de l’entreprise un code progressif de trois chiffres. Toutes les décisions prises par l’INS concernant les appariements définitifs sont communiquées à la CNSS qui reçoit les matricules fiscales depuis 2000 dans l’archive employeur, alors que pour l’archive indépendants, c’est uniquement depuis 2004. Pour les nouvelles entreprises, il devrait y avoir moins de problèmes d’appariement. Les responsables de la CNSS ont la possibilité d’insérer les données sur les cotisations même s’ils ne saisissent pas le matricule fiscal de l’entreprise, en utilisant une sorte de code fictif. Cette technique n’est pas conseillée. Ce manque de contrôle sur la validité du matricule fiscal détermine aussi la présence de nombreux faux doublons. La qualité du matricule fiscal dans l’archive CNSS semble avoir diminué depuis 2004 (une estimation INS enregistre une chute de 90% à 40% de codes exacts). Observations : Concernant le problème d'identification du code identifiant commun à adopter au niveau national, il faut toujours considérer que les identifiants ne doivent pas changer pendant toute la vie de l’unité identifiée. Donc, si les caractéristiques attachées à cette unité peuvent évoluer au cours de la vie de l’unité, son identifiant doit être indépendant de ces caractéristiques. Il est important de ne pas confondre les identifiant des différentes catégories d’unité. Il est donc préférable d’adopter des structures d’identifiants (longueur et type de caractère) différentes pour chaque type d’unité. Il n’est pas nécessaire d’examiner la question de choix de l’identifiant national commun à adopter (code INS, matricule fiscal ou autre). On doit seulement souligner la nécessité que tous les organismes impliqués (autorités fiscales, CNSS, INS et autres organismes détenteurs de sources d'informations concernant les entreprises) utilisent un identifiant commun unique, à utiliser dans le répertoire, dans les enquêtes et dans chaque communication avec les entreprises. Si le choix se porte sur un code différent du code interne INS, ce dernier devra nécessairement être en relation biunivoque avec ce code. L’utilisation du matricule fiscal dans l’expérience italienne s’est révélée très appropriée puisque c’est un code dont l’entreprise dispose elle-même et dont elle est habituée à utiliser dans tous ses actes officiels. Si le choix devait se porter sur le matricule fiscal, la présence d’un identifiant interne à l’INS serait aussi important soit pour prévenir l’adoption de la définition européenne d’entreprise (entreprise = la plus petite combinaison d’unités légales) soit pour la possibilité de gérer en interne les codes d’entreprise et les codes d’unités locales. La solution pratique de lier l’entreprise au matricule fiscal est certainement acceptable. De plus, la présence d’un code INS autonome garantit la possibilité de développer dans le futur de nouvelles méthodologies (profiling) capables de lier des unités légales différentes. La définition théorique peut certainement être elle aussi revue à la lumière des nouvelles définitions adoptées par la Communauté Européenne pour garantir la comparabilité internationale. Dans l'attente de l'adoption d'un code identifiant univoque, il est apparu la nécessité de réaliser des procédure automatique de linkage afin de réduire le plus possible les coûts et les

Page 10: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

10

temps du processus d'appariement manuel, réduisant ainsi l'impact des choix faits sur la base des "sensibilités" et "capacités" relatives de chacune des personne intervenant dans cette activité. Le développement de procédures automatiques pour l’appariement nécessite une première et longue phase préliminaire pour prédisposer de “dictionnaires” adéquats. Sans la construction des dictionnaires (erreurs fréquentes, différentes manières d’écrire les adresses) aucune procédure ne pourra garantir des résultats efficaces. En effet, ceci est valable pour la situation particulière de la Tunisie, où certains termes peuvent être écrits de deux (ou plusieurs) manières différentes et toutes les deux étant correctes. Les algorithmes existants sont différents et peuvent être développés dans différents environnements et en utilisant différents. Nom La raison sociale (RS) est la dénomination des personnes morales et le nom et le prénom pour les personnes physiques. Dans le RNE une RS d’une entreprise peut être mentionnée dans plusieurs sources de différentes façons (problème d’harmonisation) avec des abréviations différentes et parfois avec un problème d’ordre pour les personnes physique (nom prénom). Les solutions possibles, qui peuvent également supporter les procédures automatiques d'appariement, sont : harmoniser les écritures dans les sources ; harmoniser les écritures dans le RNE (procédure automatique de normalisation) ; harmoniser les définitions. Forme juridique La forme juridique (également appelée statut juridique) de l’unité légale est une information très utile non seulement pour lever toute ambiguïté dans les recherches d’identification, mais aussi en tant que critère éventuel de sélection ou de stratification des enquêtes. L’information, provenant des sources disponibles, est présente dans le répertoire et semble être de bonne qualité. Localisation géographique (Fonte DGI, CNSS) Chaque unité doit avoir au moins une adresse. Si possible, les adresses doivent être complétées avec tous les détails stipulés par la réglementation postale (code postal, numéro de boîte postale, etc.) et le numéro de téléphone, de télécopie, le courrier électronique et l’adresse du site web. Les adresses des deux sources administratives à disposition ne sont pas normalisées. Pour indiquer la ville, il y a seulement la description et non pas une codification. L’ordre à suivre dans les adresses est le suivant : gouvernorat (24), délégation (264), localité (correspond à peu de choses près à la ville). Le domicile fiscal et l’adresse de l’unité locale où l’activité est exercée sont présents. L’enquête ECAQ a permis d'apporter des améliorations qualitatives en identifiant les principales causes d'erreurs dans les variables de localisation (même en termes de normalisation manquante). Les deux adresses reçues à partir des deux sources sont comparées. Les erreurs peuvent être dues à : une déclaration imprécise ; une erreur d’insertion ou de codification des données ; un changement d’adresse non déclaré (cause principale) ; une volatilité du type d’activité (construction, sélection de personnel). Les adresses fournies par la DGI sont relatives au moment de l’inscription de l’entreprise pour la demande de la patente. Celles-ci sont contrôlées sur le terrain par les bureaux territoriaux du fisc environ une semaine après l’inscription, mais après ce premier contrôle il n’y en a pas d’autres. L’entreprise n’a pas tendance à communiquer son changement d’adresse et le personnel n’est pas suffisant pour faire des recherches plus approfondies. Le seul autre contrôle fiscal se fait lorsqu’une entreprise ne fait pas de déclarations fiscales depuis plus de

Page 11: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

11

cinq ans. En 2004, environ 45.000 entreprises ont été contrôlées, alors qu’en 2007, plus de 100.000 entreprises l’ont été. Le cas du contact manqué par l’enquêteur nécessite des informations au bureau régional DGI compétent. Ces derniers ont reçu une note de la DGI centrale où il leur est officiellement demandé d’aider à retrouver les unités sur le territoire. L’enquêteur utilise aussi Internet et les pages jaunes. S’il trouve une nouvelle adresse de l’entreprise, il retourne pour la recontacter à la nouvelle adresse. L’enquête a aussi permis d'évaluer et d'accroitre le nombre d'unités locales présentes dans le Répertoire. Précédemment, la source DGI à elle seule comportait 11.000 unités locales seulement. Observations : A partir de l'enquête on aurait du obtenir le résultat du test des deux sources à disposition (DGI et CNSS) en termes de localisation, en vérifiant combien de fois l’adresse choisie et testée avec l’enquête provient de l’une ou l’autre source, ou si c’était une adresse différente des deux qui ont été comparées. Cette information ne semble pas être disponible. En général, il serait utile de:

− Insérer dans le Répertoire un code à partir duquel il serait possible de remonter d'une manière univoque à la localisation sur le territoire. Actuellement, pour indiquer la ville ou la localité il y a uniquement des descriptions et non pas une codification. Une analyse du code postal pourrait être utile, les experts INS retiennent que dans les 95% des cas, une seule ville correspond à un code donné.

− Trouver des sources qui peuvent donner des informations sur les unités locales, parce que celles qui sont disponibles ne sont pas suffisantes.

− Normaliser les écritures des adresses. − Revoir la définition d’établissement en parlant plus généralement d’unité locale

(définitions européennes). Il est nécessaire d’acquérir de nouvelles sources pour l’identification des unités locales, puisque la source fiscale n’est pas suffisante. La seule source à évaluer pour le moment semble être la STEG pour ce type d’information, même si dans la situation actuelle, il pourrait y avoir des problèmes pour l’appariement. Code d’activité économique (Source DGI) A toute unité statistique, entreprise, unité locale ou unité d’activité économique devront être associées des variables définissant ses activités. Les entreprises et les unités locales doivent indiquer l’activité principale réellement exercée au sein de l’unité. Les activités secondaires significatives doivent être enregistrées. L’activité principale d’une entreprise est l’activité qui contribue le plus à sa valeur ajoutée. Dans notre cas, en absence de valeur ajoutée par activité, on codifie l’activité principale en se basant sur les libellés mentionnés dans le fichier de la DGI. La source principale pour l’attribution du code NAT (au moins pour les premiers chiffres) est la source fiscale, qui n’utilise pas la même classification que l’INS. La nomenclature fiscale est beaucoup moins détaillée (environ 90 codes) par rapport à celle qui dérive de la NACE (plus de 500 codes) et elle se base sur une classification de 1986. Les tables de passage utilisées ne garantissent pas toujours l’attribution d’un code unique à cinq chiffres. Dans le cas de codes incomplets ou pour des vérifications supplémentaires de qualité, l’INS utilise des méthodes d’attribution manuelle pour compléter ou attribuer complètement le code NAT en se basant sur la description (libellé) fournie par la DGI. Pour cette activité, deux personnes occasionnelles sont impliquées.

Page 12: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

12

Récemment, la possibilité d’utiliser ces libellés pour l’attribution du code a perdu une grande partie de son potentiel. En effet, depuis 2006, la description de l’activité que le patenté a l’intention d’exercer n’est plus enregistrée, mais elle est utilisée uniquement par le bureau régional de la DGI pour la codifier en utilisant leur classification (et donc le choix est effectué en se basant sur une liste de 90 codes seulement). Le libellé qui est présent aujourd’hui dans le répertoire de la DGI est uniquement celui qui a été généré automatiquement et en correspondance avec la code indiqué. (la description originale existe en réalité, mais elle est en arabe et sans matricule fiscal). Concernant l’utilisation de l’autre source disponible, les experts du Répertoire tunisien retiennent que le code d’activité fourni par la CNSS a une faible qualité parce qu’il est lié à une classification très ancienne (1981). L’enquête ECAQ a permis d'identifier les principales causes d'erreurs dans l'attribution du code d'activité économique. Les erreurs peuvent être dues à : déclaration imprécise ; erreurs de codification (le personnel occasionnel de l’INS change souvent au cours du temps et cette activité semble donc avoir des règles subjectives) ; activité différente de celle déclarée ; déclaration manquante de changement d’activité ; erreurs de codification par rapport à la nomenclature NAT (liées au fait que le libellé présent dans la source DGI n’est plus tout à fait spontané). En évaluant la qualité de la source DGI, il n'est pas superflu de dire et de garder à l'esprit que l'activité déclarée à la DGI détermine l’application de différents niveaux de taxation. Observations : L’attribution du code correct d’activité économique pour les entreprises de grande taille influence notablement la publication des données et des tableaux. Pour cette raison, la seule analyse des descriptions fournies à la DGI ne peut pas suffire. Dans ce cas aussi, il est nécessaire d’avoir une comparaison avec le Registre de Commerce et l’API. À l’avenir, il sera aussi important de réussir à avoir les copies scannées des bilans des entreprises pour d’éventuels contrôles manuels sur les réalités les plus significatives et problématiques. La création d’un groupe d'experts de la classification, internes à l’institut, pourrait aussi permettre une certaine stabilité dans le temps des décisions prises et des interprétations adoptées pour la codification. Pendant ce temps, on devra aussi tenter une analyse pour la vérification de la qualité du code d’activité économique fourni par l’archive CNSS, du moment qu’avec une telle classification on pourrait parvenir à attribuer au moins les deux premiers chiffres NAT. Des analyses pour vérifier la qualité des données CNSS pour ces variables n’ont même pas été faites récemment. On pourrait tenter une vérification, à partir du moment où avec cette classification, on pourrait parvenir à attribuer au moins les deux premiers chiffres NAT. Le développement de procédures plus ou moins automatiques pour le traitement de lignes de texte pour la codification de l’activité économique présuppose une évaluation attentive et adéquate non seulement des supports informatiques à disposition mais aussi des ressources humaines destinées aux analyses préliminaires des données. En effet, on doit souligner que toutes les phases nécessitent une première et longue phase préliminaire pour prédisposer de “dictionnaires” adéquats. C’est certainement cet aspect principal qui doit être clair au moment où l’on décide d’adopter une procédure d’appariement. Sans la construction des dictionnaires (erreurs fréquentes, différentes manières la même activité économique) aucune procédure ne pourra garantir des résultats efficaces. Les algorithmes existants sont différents et peuvent être développés dans différents environnements et en utilisant différents.

Taille La mesure de la taille des unités statistiques est essentielle pour les phases de sondage, l’extrapolation des résultats à la population et l’analyse des populations. Plusieurs critères

Page 13: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

13

peuvent être pris en compte pour construire un indicateur de taille: l’emploi, le chiffre d’affaires, le montant des actifs nets, etc. Dans notre cas, la version de base du Répertoire dérivé des procédures d'appariement des sources DGI et CNSS ne contient pas la variable chiffre d’affaires (CA). Une variable certainement essentielle pour laquelle l'utilisation d'autres sources administratives a été suggérée (toujours à partir de la DGI, un fichier avec les tranches de chiffre d’affaires ; API ; INNORPI). De plus, une fois à disposition il sera utile de mettre en place une méthodologie de comparaison entre les CA mentionnés dans les sources et ceux mentionnés par les enquêtes. Dans notre cas, en absence de chiffre d’affaire on classifie les entreprises par tranche de salariés (MicroE, PetiteE, MoyenneE et GrandeE). Dans le cas d'une codification de la taille en fonction de l’emploi, le répertoire doit enregistrer le nombre réel des personnes employées. L’objectif principal n’est pas de mesurer l’emploi mais d’obtenir une variable de stratification. La référence temporelle utilisée pour mesurer l’emploi doit être l’année, ce qui signifie que la population active doit être une moyenne annuelle, bien que l’on puisse calculer approximativement ce chiffre en prenant le nombre de personnes employées (occupées) à un moment donné de l’année si c’est la seule information disponible. Actuellement, la seule source pour la mise à jour des données sur l’emploi est constituée par les archives (trimestrielles ou annuelles) de la CNSS, avec seulement une indication du nombre de salariés sans préciser la décomposition permanents et occasionnels. Les salariés d’une année de référence (t) sont calculés une première fois comme provisoires (en utilisant les données des deux trimestres précédents au mois de janvier (t+1) et ensuite comme définitifs dans les mois de juillet/août (t+1) lorsqu’on dispose des quatre trimestres. On a choisi d’enregistrer dans le Répertoire uniquement la donnée ponctuelle se référant au 31.12.(t) qui coïncide toujours avec le quatrième trimestre de l’année (à l’exception de certains cas particuliers, par exemple lorsque la présence de trimestres avec une donnée manquante est vérifiée). Le choix d’utilisation d’une donnée ponctuelle est exigé par les responsables des enquêtes économiques. Observations : On a vérifié la présence de données manquantes dans les déclarations trimestrielles des salariés parce que dans plusieurs cas, les employeurs ne paient pas trimestriellement les cotisations puisqu’ils ont la possibilité de régulariser leur situation en soldant tout le montant dans le dernier trimestre et dans certains cas aussi pour les années précédentes. Il faudrait trouver une méthode d’attribution des salariés - que ce soit pour la donnée ponctuelle ou moyenne pour pouvoir mesurer la taille réelle des entreprises durant l’année - qui prenne en considération toutes les données manquantes, que ce soient celles qui sont erronées ou celles qui sont justifiées par une activité saisonnière de l’entreprise ou par une suspension réelle des activités. Pour les analyses préliminaires, il faut utiliser les séries temporelles des données CNSS, qui, durant le mois d’août de chaque année et depuis 2004, sont fournies à l’INS (formées par les données des cotisations trimestrielles des années t, t-1 et t-2). On pourrait analyser après combien de temps les données se référant à la même année t deviennent stables en étudiant la cohérence entre la fourniture obtenues dans les années suivantes se référant à la même année t. Il serait aussi utile de comparer la donnée du Répertoire avec celle des employés enregistrés dans les différentes enquêtes économiques. Concernant l’emploi, les problèmes sont essentiellement de trois types : − Sources à disposition ; − Définitions utilisées ; − Choix de la valeur ou des valeurs à enregistrer dans le Répertoire.

Page 14: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

14

Pour le moment, la seule source disponible pour la détermination du nombre de salariés est constituée par les fichiers de la CNSS. C’est sûrement la source la plus complète, au moins pour le secteur privé, et il serait opportun de prévoir certaines lignes d’actions futures pour rendre l’utilisation toujours meilleure. Il est nécessaire de faire des pressions dans les confrontations avec la CNSS jusqu’à ce que les variables d’identification soient toujours enregistrées sans la possibilité de contourner le système de saisie des données comme cela est fait maintenant, même à la lumière de la volonté du gouvernement d’étendre l’obligation de cotisation à environ 90% des entités économiques tunisiennes. La solution idéale prévoit aussi l’enregistrement d’une adresse normalisée et l’adoption de la nomenclature liée à la NACE (dans le long terme). Par contre, de la part de l’INS, il est nécessaire de constituer des tables de données dans lesquelles mémoriser toutes les fournitures trimestrielles et annuelles reçues, où le lien serait possible à travers le code interne CNSS. Le besoin de garder la « mémoire historique » des sources (pas seulement des données appariées avec le répertoire) est nécessaire aussi pour les analysées ayant pour but d’évaluer : − Les tendances (trend) d’évolution, − Les différents comportements des entreprises dans l’enregistrement des cotisations

dans différentes situations, − L’effet des changements réglementaires qui régulent la cotisation, − La mesure de la qualité des fournitures d’une année à l’autre qui se réfèrent à une

même année de cotisation, − Le décalage temporel après lequel les données se référant à une même année t sont

fixées, − L’effet de saisonnalité, − Les éventuels phénomènes récurrents (ex : champs vides seulement dans des périodes

déterminées de l’année). Si les données tirées de cette source peuvent être suffisantes pour les entreprises de petite taille, par contre, pour les entreprises de grande taille il serait plus approprié de rechercher de nouvelles sources pour avoir un minimum de comparaison entre les données comptables et les données du type administratif. Les fichiers les plus appropriés pour faire les premières évaluations sont certainement soit le Registre de Commerce soit l’API. Surtout pour les entreprises de grande et moyenne taille, on peut exploiter l’information recueillie dans les différentes enquêtes économiques de l’INS, à comparer avec la donnée du répertoire de source administrative pour son éventuelle modification. Le problème des définitions à utiliser est certainement lié à la valeur qu’on veut enregistrer dans le Répertoire. L’utilisation de définitions communautaires, adaptées à la réalité tunisienne, est sûrement possible. Le choix d’une donnée ponctuelle ou d’une donnée moyenne dépend des objectifs de l’institut et de la source dont on dispose. Il est certainement possible de prévoir l’enregistrement des deux valeurs. La création d’une valeur moyenne pour les secteurs caractérisés par une forte saisonnalité ou pour lesquels les données manquantes sont récurrentes dans des périodes déterminées de l’année est appropriée même pour les utilisateurs du Répertoire (les responsables des enquêtes). En effet, la donnée moyenne permet d’avoir une mesure de la taille réelle des entreprises dans l’année et qui tienne compte de toutes les données manquantes, aussi bien erronées ou justifiés par une activité saisonnière de l’entreprise ou d’une suspension réelle des activités. Pour le moment, aucune source ne semble être disponible pour la détermination de l’emploi non salarié (indépendants). Le problème de définition exacte de cette variable se pose aussi, à travers sa comparaison avec la définition européenne. Il semble qu’il n’y a aucune source

Page 15: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

15

pour mesurer les membres de la famille qui travaillent dans les entreprises non salariées. On devrait aussi analyser la présence d’archives au sein des chambres de commerce et qui peuvent donner des informations sur les associés des entreprises de capitaux. En conclusion, certaines améliorations possibles pourraient être obtenues, en utilisant plusieurs sources administratives (API, CNSS salariés) et statistiques (les résultats des enquêtes économiques) et avec la mise en place d'une méthodologie pour mesurer l’emploi en se basant sur les diverses sources : correction des valeurs aberrantes, valeurs manquantes. Variables démographiques Les Date de création et Date de cessation doivent au moins être gérées pour chaque unité pour permettre une première analyse démographique de la population des entreprises et de leurs unités locales. L’évaluation approfondie de l’état du répertoire statistique tunisien, a concernée en particulier les aspects suivants. Date de début d’activité (aucune source) Le RNE contient la date de création de l’unité légale qui ne correspond pas à la date de début de l’activité. Il faut étudier la possibilité d'utiliser s'autres sources, comme l'INNORPI et l'API. Pour le moment, la seule source potentiellement utile est le Registre de Commerce qui serait analysé en termes de couverture et de fiabilité. Lorsqu’on disposera des déclarations de la TVA, on pourra utiliser la date de la première déclaration fiscale. Ou bien, on peut étudier la manière d’utiliser la date de la première déclaration des cotisations payées. C’est une variable liée à l’état d’activité de l’entreprise et ce sera cette date où l’entreprise a été reconnue pour la première fois active selon certains signaux. Date de cessation La situation économique réelle est parfois différente de la situation administrative (problème de déclaration de cessation) État d’activité ou situation Théoriquement, seules les entreprises et leurs unités locales en activité devront être gérées dans le répertoire. Dans la pratique, pour de multiples raisons, on sera souvent obligé de prendre en compte dans le répertoire des unités légales inactives, ou de conserver des entreprises ou des unités statistiques ayant cessé leur activité (utilisant un code précisant l’état, "vivant" ou "mort" de l’unité). Observations : Jusqu'à aujourd’hui, l’état d’activité est déterminé en grande partie par les signaux provenant de la DGI. Seule la présence de signaux provenant de nouvelles sources administratives pourrait permettre le développement de méthodologies différentes (déclarations de CA, commerce extérieur, Consommation STEG, etc.). L’enquête ECAQ a tout de même permis d'apporter des améliorations qualitatives, en identifiant les causes principales qui ont déterminé des erreurs dans l'état d'activité (les fausses actives): lag temporel entre l'évènement et l'enregistrement de celui-ci; déclaration manquante de l'entreprise, absence de relation directe entre l'entreprise et le Répertoire; activités exercées peu stables dans le temps.

Page 16: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

16

3. Analyses des nouvelles sources disponibles Un des objectifs du projet a été celui d'effectuer une première analyse des nouvelles données et de parvenir à une première évaluation des sources disponibles. En particulier, au cours des nombreuses missions effectuées par les experts, certaines sources administratives, qui auraient pu être intégrer dans le processus de construction et de mise à jour du répertoire statistique, ont été examinées. Dans ce but, les réunions effectuées avec les principaux représentants des institutions administratives de référence ont été très utiles afin d'acquérir les informations nécessaires à une interprétation correcte des données et des variables contenues dans les sources, et d'en évaluer tous les aspects, en particulier l'aspect couverture en vue d'une possible fourniture. Quelques nouvelles sources ont été examinées en vue d’une utilisation future, avec un détail d’approfondissement différent. On a vu rapidement les sources Pages Jaunes, UTICA, Tunisie Télécom, Répertoire des petits métiers, et Douanes, et nous nous sommes arrêtés plus longuement sur la STEG, l’API et l’INNORPI (les trois sources et toutes les variables présentes ont été examinées dans le détail). Cette premières analyse des nouvelles sources, en termes de contenu, couverture, périodicité de mise à jour et utilisation a priori, nous a permis d’avoir une vision sur les solutions possibles aux problèmes du RNE. Pages Jaunes

Elle ne semble pas être une source exhaustive pour les adresses, les unités locales, les numéros de téléphone, e-mail. Il semble qu'elle contient uniquement 6.000 unités sur les 500.000 entreprises actives du Répertoire. UTICA

Union Tunisienne de l’Industrie, du Commerce et de l’Artisanat. Elle contient 15.000 unités mais possède de grands problèmes de mise à jour et n’est disponible que sous le format papier. Tunisie Télécom

Elle semble être une excellente source, au moins pour obtenir les numéros de téléphone des entreprises. Elle pourrait aussi être utile pour les variables de localisation. C’est un monopole en Tunisie, l’archive pourrait donc être exhaustif. Important : le code du Registre de Commerce est joint à chaque usager du téléphone. Répertoire des petits métiers

C’est seulement un projet et il n’est pas encore prêt, mais il serait utile d’avoir des contacts dans cette phase initiale pour pouvoir disposer dans le futur d’une nouvelle source très utile, structurée d’une manière à être utilisable. C’est un répertoire détenu par le Ministère du Commerce et qui s’adresse à des personnes différentes des artisans qui ont une autorisation particulière pour exercer leur activité, des petits travailleurs qui ont la carte de « petit métier ». L’INS s’est chargé de l’alimenter. L’archive contiendra donc, en plus du code interne de la source, le code INS ainsi que tous ceux qu’on peut tirer de l’appariement avec le répertoire. Ces personnes seront tenues de déclarer leur ouverture (en déclarant le matricule fiscal) et tous les éventuels changements d’activité économique ou d’adresse. Le flux de retour des données serait mensuel. Ceci pourrait constituer une source privilégiée pour des activités économiques particulières avec peu de salariés (on estime l’implication de 200/300 mille personnes, pour l’instant, la base de données possédée par le Ministère du Commerce contient 27.000 unités).

Page 17: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

17

Douanes

C’est un archive d’environ 69.000 entreprises qui font de l’import/export. Pour le moment, l’INS possède un fichier avec les variables: numéro de la douane, matricule fiscal, catégorie (personne physique ou morale), raison sociale, adresse (toutes les variables de localisation dans un seul champ); mais les douanes possèdent d’autres informations importantes parmi lesquelles il y a la valeur et le volume des échanges. Depuis 2001, il y a une correspondance biunivoque entre le matricule douanier et le matricule fiscal, en effet, c’est depuis cette date que la DGI fournit les données sur les échanges au lieu de la douane. Pour le moment, ces données sont possédées par le service qui s’occupe des statistiques conjoncturelles à l’intérieur de l’INS, c'était donc facile d’obtenir les données pour une première vérification d’utilisation. Ce fichier pourrait être utilisé pour la détermination de la variable « état d’activité », comme un signal supplémentaire d’activité de l’entreprise. En plus, dans cet archive, un code est associé à chaque produit exporté, reconductible à la classification Prodcom, dont l'analyse pourra être sans doute utile pour l'identification de l'activité exercée par l'entreprise. Le total des exportations est utilisé aussi pour corriger la tranche de chiffre d’affaire déclaré à la DGI Registre du Commerce – INNORPI

Aux termes des dispositions légales, L’INNORPI a en charge: − le stockage et la délivrance de l’information commerciale (informations, statistiques,

documents comptables, disponibilité d’un nom commercial ou raison sociale, n° du registre du commerce, renseignement sur le gérant ou les actionnaires.

− la fourniture de l’information dépend des commerçants et industriels, dans la mesure où ils sont les détenteurs de l’information et qu’ils sont tenus légalement de s’immatriculer et de déclarer périodiquement toutes les modifications et les adjonctions ultérieures.

L’INNORPI dispose de deux bases de données bilingues (arabe / français) pour la gestion du Registre Central du Commerce. Ces bases sont développées sous ACCESS et concernent les personnes morales et les personnes physiques. Les champs constituant un enregistrement sont définis conformément aux formulaires existants dans les dossiers parvenus des différents tribunaux. Les informations contenues dans les dossiers sont principalement en arabe ce qui amène les opérateurs de saisie à faire une traduction afin de compléter les informations en français. Principaux champs constituant un enregistrement d’une personne morale : Type de déclaration (création de personne morale, modification, arrêt d’activité ou ouverture d’agence) ; Code Immatriculation RCC ; Date d’enregistrement ; Code déclaration de patente ; Tribunal ; Nom Commercial ; Forme juridique ; Adresse ; Date de début d’activité ; Code activité ; Objet de l’activité ; Capital ; Effectif ; Noms des responsables. Principaux champs constituant un enregistrement d’une personne physique : Type de déclaration (création de personne physique, modification, arrêt d’activité) ; Code Immatriculation RCC ; Date d’enregistrement ; Code déclaration de patente ; Tribunal ; Nom et Prénom ; Adresse personnelle ; Adresse commerciale ; Dénomination ; Date de début d’activité ; Code activité ; Objet de l’activité. Considérations générales Le Registre de Commerce (RC) est certainement une source ayant un intérêt notable. Les Chambres de Commerce sont présentes au niveau régional (au moins 1 chambre de commerce par gouvernorat pour un total de 24). L’archive, au niveau centralisé, est gérée par l’INNORPI qui a pour objectif la traduction de toutes les informations de l’archive de l’arabe au français et leur normalisation par la suite.

Page 18: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

18

En particulier, on enregistre les données déjà normalisées des variables « raison sociale », « adresse » (c’est celle du siège) et « activité économique ». Il faut souligner que pour cette dernière variable, le RC est la seule source qui utilise la même classification NAT de l’INS. D’autres informations cruciales contenues dans le RC sont le téléphone, le capital social et l’effectif déclaré à la fin de l’année. Ces deux dernières informations sont celles qui sont présentes dans les bilans déposés par les entreprises à la fin de l’année. Au sein de cet organisme, les bilans de l’entreprise sont aussi disponibles pour les entreprises qui ont l’obligation de déposer leurs bilans à la fin de l’année. L’opération de scanning suivie par l’enregistrement électronique a commencé depuis peu mais les perspectives sont certainement intéressantes. La base de données contient près de 260.000 unités, mais un projet de l’UE est en cours d’exécution pour le développement du RC, avec une mise à jour qui sera prise en charge par l’INS. Le matricule fiscal a aussi été introduit dans le RC, parce qu’il faut obligatoirement le présenter au moment de l’enregistrement des entreprises. Grâce au projet, le code interne INS et le code CNSS ont pu être ajoutés. La couverture semble être très élevée. Parmi les 260.000 unités, près de 170.000 sont des personnes physiques et 87.000 des personnes morales. On peut relever des doublons à partir de ces nombres élevés. Le problème devrait être dû au manque de suppressions des entreprises qui ne sont plus actives. Le matricule fiscal a été justement introduit pour résoudre ce problème. L’idée de l’INNORPI de gérer à l’avenir toute l’archive en Oracle parce qu’on se dirige vers une extension de l’obligation d’inscription à tous les sujets (projet en collaboration avec la Banque Mondiale) constitue un autre thème intéressant pour arriver à nouer de forts rapports d’échange de données avec l’INS. Nous avons pu faire au sein de l’INS une première évaluation du Registre de Commerce parce qu’ils disposaient d’une version complète relative à l’année 2006. La base de données existe d’une façon complète jusqu’à l’année de référence 2006. Nous avons examiné la base de 42.357 personnes morales, mais dans la nouvelle archive qui se réfère à 2007 il semble qu’il en existe 67.000. Les variables suivantes sont présentes dans la version qui a été examinée :

− Code RC (12 chiffres, les deux premiers pour le tribunal; une lettre pour distinguer les personnes morales commerciales [B] et non commerciales [C] des personnes physiques [A], cinq chiffres de code interne de l’entreprise, quatre chiffres pour l’année de référence);

− Matricule fiscal (variable n_déclaration); − Salariés pris à partir du bilan et recueillis à la fin de l’année ; − Code d’activité économique (la même classification NAT de l’INS) insérée par les

experts de l’INNORPI ; − Date de début de l’activité : se réfère au début de l’activité au sens économique ; − Adresse normalisée.

Observations : On recommande de commencer au plus vite une collaboration avec cet organisme: il faut profiter du fait qu’ils soient pour le moment très intéressés à un appariement de leurs données avec ceux du répertoire, puisqu’ils ont besoin d’avoir la liste des matricules fiscaux avec les raisons sociales et les libellés de l’activité économique en français. En effet, leur archive enregistre les informations en arabe qui doivent être traduites par la suite en français et de cette façon ils pourraient bénéficier d’une traduction déjà présente. De plus, lorsqu’à l’avenir, l’INS devra fournir des informations obligatoirement en arabe on pourra bénéficier des liens consolidés avec cet organisme. Parce que cette collaboration est à double sens, l’INNORPI pourrait être sollicité pour un commencement immédiat de la phase d’enregistrement

Page 19: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

19

télématique des bilans et une poursuite à haut régime de l’enregistrement (scanning) sur support informatique des bilans sur papier déjà déposés par les entreprises. On devra examiner les autres informations éventuelles possédées par l’INNORPI et de toutes les archives provinciales. En effet, les informations sur l’état de faillite, liquidation, etc. semblent très importantes et sont sûrement présentes dans leur archive. Le RC est la seule source dont on peut tirer l’information sur la date de début d’activité des entreprises. Le RC est une source fondamentale pour l’estimation de l’état d’activité des entreprises puisqu’on dispose des données sur le capital et sur l’effectif es salariés. Il est aussi utilisable pour contrôler l’estimation du nombre d’effectifs salariés à la fin de l’année. Le RC est un archive d’entreprises, il n’est donc pas utilisable comme source pour les unités locales. Il faudrait examiner la couverture des unités contenues parce qu’il semble que certaines formes juridiques n’ont pas l’obligation de s’inscrire aux Chambres de Commerce, même les responsables de l’INS affirment que la couverture sera totale dans le futur. API - Agence de Promotion de l’Industrie

L’agence est une structure du Ministère de l’Industrie et elle est organisée en une structure centrale à Tunis et en 23 structures locales présentes dans chaque gouvernorat. L’objectif de l’agence est de contrôler les projets industriels, ceux qui sont nouveaux et ceux qui sont déjà réalisés et leurs extensions ainsi que de développer des activités de promotion. Champ d'observation L’API a la mission fondamentale de promouvoir les entreprises industrielles qui opèrent dans le secteur manufacturier. Sont exclus : les secteurs des constructions, de l’extraction et du raffinage. Type de collecte et méthode: Les enquêtes ne sont pas prévues par aucune loi. Les entreprises ont intérêt à collaborer avec l’API car elles tirent des avantages de l’activité de promotion de l’API. Le problème de refus de répondre n’est pas significatif. Les enquêtes ont pour objet toutes les entreprises de 10 employés et plus. Les entreprises actuellement présentes dans la base de données sont autour de 5.600. L’agence effectue deux enquêtes par l’intermédiaire d’enquêteurs locaux qui enquêtent auprès des entreprises durant toute l’année. Au cours de toute l’année t+1 sont interviewées : − Toutes les entreprises qui ont présenté un projet industriel au cours de l’année t − Toutes celles qui faisaient déjà partie de la base de données au cours de l’année t. Mise à jour de la base de données: L’enregistrement des questionnaires se fait à Tunis au sein du siège central de l’API. Lorsque les questionnaires arrivent, les informations sont vérifiées et enregistrées dans la base de données. La vérification et la correction des informations sont faites par les mêmes personnes qui se chargent de la saisie des données en téléphonant aux entreprises ou à l’enquêteur. La base de données est mise à jour d’une façon continue. Chaque unité est donc mise à jour une seule fois par an. Les données sont aussi publiées sur le site Internet de l’API. Un nombre très restreint d’entreprises demande à ne pas être publié sur Internet. La source semble être disponible sur demande.

Page 20: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

20

A partir de la discussion théorique, il nous est apparu nécessaire de recueillir ces données qui concernent les plus grandes entreprises manufacturières du pays (environ 6.000) et qui sont également mises à jour annuellement. Les informations sur les grandes entreprises industrielles sont utilisables pour la mise à jour du répertoire. Variables présentes dans la base de données et/ou recueillies : La base de données contient une multitudes d'informations d'intérêt surtout par rapport au Répertoire: code interne API ; code INS (pas toujours présent, mais peut être complété à travers une collaboration plus étroite avec l’INS); code CNSS (qui permet de relier la base de données à celle de l'INS et celle de la CNSS); matricule fiscal (recueilli mais non enregistré) ; raison sociale ; localisation (adresse complète) ; travailleurs permanents (à rapprocher avec les salariés dans la CNSS); travailleurs occasionnels ; activité économique de l'entreprise (classification NAT) ; classification des produits ; forme juridique ; capital social ; taux du capital à participation tunisienne ; taux du capital à participation étrangère et nationalité des participants étrangers ; taux des ventes à l’étranger ; drapeau qui indique la production exclusivement pour le marché étranger ; le chiffre d’affaires est demandé mais beaucoup d’entreprises refusent de le communiquer ; le nom d’appartenance à un groupe d’entreprises ; date de cessation ; raison de cessation ; data de mise à jour de l’unité ; nom de l’enquêteur. Observations : La plus grande utilité est d'arriver à acquérir les informations nécessaires sur l’activité économique et sur l’emploi. Les deux problèmes principaux sont : − Le chiffre d’affaires n'est pas une variable pouvant être obtenu à partir de cette source étant donné qu'elle résulte manquante pour la plupart des entreprises.

− La définition de l'emploi utilisée (ici c’est le nombre total d’employés) ne coïncide pas avec la définition de salariés, adoptée par l'INS et utilisée par la CNSS. Dans la collecte, il n'y a donc pas de distinction entre les employés salariés et les non salariés.

La couverture n'est pas complète ni en termes dimensionnels ni en termes d'activités industrielles, étant donné qu'il manque le secteur des constructions, de l'extraction et du raffinage. En termes d'emploi, les enquêtes ont pour objet toutes les entreprises avec 10 employés et plus, mais les entreprises ayant moins de 10 employés peuvent faire des déclarations, qui sont enregistrées sur une base de données à part, qui en revanche n'est pas mise à jour régulièrement. L’API ne connait pas le niveau d'exhaustivité de cet ensemble. Les entreprises qui augmentent leur dimension entrant ainsi dans le champ d'observation (c'est-à-dire celles qui passent de la classe "moins de 10" à la classe "10 et plus") sont identifiées seulement si elles présentent un projet d'expansion de l'activité à l'API. Actuellement, on considère que les entreprises ayant 10 employés et plus correspondent à peu près à celles qui ont 6 salariés et plus. Il en découle que la couverture des grandes entreprises manufacturières est suffisante. En particulier, le niveau de mise à jour des informations se révèle appréciable. Pour les entreprises manufacturières de grande taille, les informations API sont certainement d'un intérêt particulier. Toutes les informations présentes dans le répertoire de l’API peuvent être fournies à l’INS, ils sont utilisables dans l’immédiat à des fins statistiques.

STEG

Les données pourraient être utiles pour la présence des adresses des compteurs pour les entreprises (16.000 unités pour la moyenne tension - MT entre entreprises et unités locales ; 2.000.000 pour la basse tension - BT).

Page 21: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

21

Pour une éventuelle utilisation de la source pour l’identification des adresses des unités locales, on doit considérer que les enregistrements se réfèrent à chaque “référence”. Par « référence » (code à six chiffres avec les trois premiers qui indiquent la zone « tournée ») on entend un lieu physique qui contient plusieurs compteurs à moyenne tension ; une seule référence pourrait contenir des compteurs de différents usagers. De plus, le lieu physique de la référence n’est pas toujours nécessairement proche de l’unité locale. L’INS a eu la possibilité de visionner dans le passé le contenu de cette archive et connaît donc son contenu réel. Il est aussi possible de distinguer entre les consommations des ménages et des entreprises grâce à une variable contenue dans l’archive (code_usage). Observations : Pour pouvoir donner un jugement sur le contenu en informations de l’archive à moyenne tension, il a été nécessaire de rénover la demande des données au bureau technique informatique de la STEG pour obtenir toutes les variables auxquelles on s’intéresse. De plus, il faudrait savoir quand commencent les opérations d’enregistrement sur support informatique des codes matricule fiscal, numéro Registre de Commerce et code CNSS, qui sont maintenant disponibles sur support papier uniquement. Le code CIN est présent seulement pour les nouveaux abonnés, leur saisie a commencé depuis 2004, la couverture n’est pas exhaustive pour les anciens abonnés. En l’absence d’identifiants communs, l’utilisation de la source est strictement liée à l’utilisation et au développement de techniques d’appariement. A cet effet, on recommande d’exercer des pressions jusqu’à ce que cette activité commence au plus vite. Il faut profiter du fait que la STEG s’intéresse à l’appariement de ses données avec celles du répertoire, puisqu’elle a besoin d’attribuer aux unités de son archive le code NAT afin de faire des comparaisons au niveau international. Le personnel de la STEG visite les compteurs deux fois par an pour les contrôles de routine. Le motif de ces contrôles est le nombre excessif d’usagers-entreprises enregistrées (environ 400.000) puisque l’usager-ménage coûte plus cher. Nous sommes arrivés à un accord pour l’utilisation de ces visites pour faire une petite enquête sur les compteurs MT en demandant le matricule fiscal. Il semble que cette méthode soit préférable par rapport à l’enregistrement de tous ceux qui ont été recueillis sur papier au cours des années. Il faudrait vérifier si les enregistrements élémentaires provenant de cette source représentent l’ensemble des compteurs qui se réfèrent à une seule adresse, même si elles ne sont pas des unités locales de l’entreprise, ou si elles ne se réfèrent pas plutôt aux différentes activités qui peuvent être exercées dans une même adresse. Il suffit de voir s’il existe des doublons d’adresse pour une même entreprise et si deux activités différentes correspondent à cette adresse. Vérifier si le même type de doublons existe non seulement à l’intérieur d’une même archive mais aussi entre archives de basse et moyenne tension. De plus, il faudrait déterminer si les entreprises qui louent un local pour leur activité ont un contrat avec la STEG ou si c’est le propriétaire du local qui figure dans l’archive. Il faudrait aussi vérifier la possibilité de lire la forme juridique qui se trouve à l’intérieur de la raison sociale (mais la raison sociale contient uniquement 27 positions). Il faudrait vérifier que les trois premiers chiffres du code interne « référence » sont conformes avec le code postal de départ. Aussi, selon les jugements des experts du Répertoire tunisien, la source est utile aussi bien pour l’identification des adresses et pour le contrôle du code d’activité économique. La classification ACTECO de la STEG bien qu’il soit à trois chiffres pourrait être utile dans certains secteurs spécifiques ou elle peut se révéler suffisamment détaillée. Jusqu’à aujourd’hui, elle semble être la seule source pour développer un répertoire des unités locales. A toutes ces utilisations possibles on pourrait ajouter celle relative à l’attribution de l’état d’activité en utilisant aussi parmi les indicateurs le niveau des consommations d’électricité et de gaz.

Page 22: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

22

4. Les méthodologies statistiques pour la réalisation du nouveau Répertoire

Statistique des Entreprises Tunisien.

4.1. Introduction Le Répertoire Statistique Tunisien (RNE) enregistre l'entière population des entreprises actives de l'industrie et des services et de leurs caractères structurels, en utilisant, d'une manière intégrée non seulement les informations de nature administrative, gérées par des organismes publics (principalement des données de la DGI et de la CNSS) mais également des informations provenant des enquêtes sur les entreprises (celles structurelles en premier lieu) actuellement produites au sein de l'Institut National des Statistiques (INS). Les précédentes phases de normalisation/standardisation de chaque source administrative et statistique et de leur intégration ont permis la création d'une base d'informations de nature administrative/statistique, en identifiant l'ensemble des unités pour l'année de référence t et en associant les caractères relatifs à une même unité et provenant des différentes sources. La transformation des données de nature administrative en un répertoire statistique requiert des méthodologies statistiques appropriées qui garantissent une consistance statistique de l'information. Les erreurs liées à l'utilisation de données administratives à des fins statistiques sont généralement de deux types: erreurs de couverture (sur- et sous-couverture de l'univers de référence) et des erreurs dues à l'affectation manquante ou erronée des caractères aux unités statistiques. La disponibilité de différentes sources administratives/statistiques et l'application de méthodes statistiques ad hoc peuvent conduire à une réduction importante de telles erreurs. Pour cela il est nécessaire de : _ Développer un ensemble de règles afin de convertir les données administratives en

information statistique, en identifiant les unités statistiquement importante parmi les unités juridiquement importante

_ Implémenter un ensemble de méthodologies pour l'estimation des caractères relatifs aux

unités identifiées comme statistiquement importante. En particulier, l'identification des unités statistiquement pertinentes correspond à la classification des unités appartenant/non appartenant à l'univers de références pour l'année t, et donc à l'estimation de l'état d'activité pour toutes les unités de la base d'informations. L'estimation des caractères des unités définies actives implique une validation des informations provenant des différentes sources. En effet, les archives administratives peuvent fournir des informations différentes sur le même caractère d'une même unité, parce qu'elles utilisent, par exemple, différentes définitions ou classifications ou même tout simplement pour une présence d'une erreur dans une des deux sources. Dans tous ces cas, il faut établir quelle est la source la plus sûre pour la variable en question, et par conséquent choisir le caractère le plus probablement vraisemblable parmi ceux disponibles. Par la suite, sont présentées les méthodologies utilisées pour la construction du RNE pour les années 2007 et les propositions de modification pour le RNE 2008, en particulier: _ La méthodologie pour l'estimation de l'état de l'activité; _ Le choix du personnel en charge ; _ Le choix du code de l'activité économique.

Page 23: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

23

Il est à souligner que les méthodologies exposées et les résultats reportés sont l'output de l'activité durant la période de la coopération et qu'ils ne coïncident pas nécessairement avec les résultats finaux diffusés par l'INS.

4.2. Le contenu du RNE et les sources disponibles pour l'estimation des caractères

La population de référence du Répertoire National des Entreprises est donnée par l'ensemble des entreprises privées de l'industrie et des services actives au 31 décembre de l'année t. Les variables des entreprises figurant dans le répertoire sont:

− variables d'identification: identifiant statistique de l'entreprise, matricule fiscal, raison sociale;

− variables de localisation: le gouvernorat, la délégation, le code postal, l’adresse du siège;

− variables de stratification: activité économique principale, forme juridique, nombre de salariés, la tranche du chiffre d'affaires;

− variables démographiques: date début et date fin de l'activité.

Une fois le contenu du répertoire statistique défini, une importante phase dans sa construction consiste à faire l'inventaire des sources disponibles et de comprendre comment celles-ci peuvent être utilisées pour sa réalisation et/ou mise à jour. Il existe deux types de sources d'intérêt:

- Sources statistiques. Enquêtes/répertoires statistiques régulièrement réalisées/présents dans les bureaux de statistiques avec une documentation claire sur le contenu et sur la qualité statistique de l'information;

- Sources administratives. Des archives administratives construites à des fins non

statistiques mais qui peuvent être utilisées dans ce sens. Dans ce cas, une connaissance approfondie des caractéristiques de la source utilisée et une mesure de sa qualité sont nécessaires.

Toutes les sources (administratives/statistiques) disponibles et liées en quelque sorte au répertoire statistique à implémenter sont à prendre en considération. En effet, chaque source, même si prise individuellement est de mauvaise qualité, peut potentiellement améliorer la couverture et la qualité du répertoire statistique. Durant la période de coopération avec l'INS, l'activité de recherche des sources administratives et statistiques potentiellement utilisable pour la construction du répertoire a été très importante. Dans le tableau 1 sont reportées toutes les sources présentes dans la base d'informations disponible et les variables observées relatives.

Page 24: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

24

Tableau 1. Informations présentes dans la base d'informations Sources Année 2007 Année 2008

Etat de l'activité

Activité Economique

Employés

Etat Activité

Activité Economique

Employés

Administratives

Archives des Finances (DGI)

Archives de la Caisse Nationale de Sécurité Sociale (CNSS);

Archive des Déclarations Douanières (DOUANE)

Archives de l'Agence de Promotion Industrielle (API);

Statistiques

Enquête de qualité de l'Archive (Enquête ECAQ)

L'enquête ENAE

L'enquête EES

Enquête sur les micro-entreprises (Enquête MICRO)

Enquête sur les nouvelles technologies 2008 (Enquête TIC)

Enquête sur les investissements 2008 (Enquête Investissement),

Les unités de la base administrative, égales à 521.162 unités pour l'année 2007 (hors 4.798 institutions publiques qui ne sont pas objets d'ultérieures analyses) ont été analysées par source de provenance. Le tableau 2 reporte le pourcentage de présence de chaque source dans l'entière base, par section d'activité économique. Il faudra souligner que la seule source qui couvre l'univers d'intérêt entier est la DGI, utilisée comme pivot à laquelle on intègre les autres sources administratives (CNSS, DOUANE, API) qui couvrent une partie seulement du champ d'observation (les entreprises inscrites à la CNSS pour la cotisation sociale de leurs salariés et employés, les entreprises qui font du commerce extérieur - DOUANE -, les entreprises du secteur manufacturier, de l'extraction minière ayant plus que 10 salariés- API -) et donc l'absence de telles sources ne peut pas être considérée discriminante pour l'identification des unités appartenant à l'univers du RNE. Dans le tableau 2, la couverture de la présence du chiffre d'affaires déclarés par les entreprises à la DGI et saisie par l'INS en termes de tranches dimensionnelles est également quantifiée. Le même discours est valable aussi pour les enquêtes statistiques qui, à part l'enquête ECAQ qui recense toute les entreprises ayant un salarié et plus, sont des enquêtes faites par échantillonnage et sont en plus représentative d'une partie seulement du champ d'observation du RNE. En effet, l'enquête MICRO a comme champ d'observation les entreprises ayant moins de six salariés et les enquêtes ENAE et EES ont comme champ d'observation toutes les entreprises ayant six salariés et plus.

Page 25: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

25

Tableau 2. Analyses de la présence des différentes sources administratives/statistiques dans

la base d'informations par section d'activité (année 2007). Section

Activité

Economique

2002

Totale entrepris

es

Couv.re Tranche CA (%)

Couv.re CNSS (%)

Couv.re API (%)

Couv.re Douane (%)

Couv.re

ECAQ (%)

Couv.re

Micro (%)

Couv.re

ENAE (%)

Couv.re EES (%)

Agriculture 1823 52.17 56.39 0.77 4.50 22.33 0.11 0.11 0.16

Pêche 354 41.81 69.21 0.56 5.65 40.11 0.00 0.00 0.00

Extraction minière

946 60.57 60.15 6.77 12.05 22.41 12.90 4.65 8.56

Activité Manufacturières

62103 55.97 70.38 4.19 7.10 16.17 5.22 2.18 2.11

Production et Distribution d'Energie

49 57.14 59.18 2.04 14.29 20.41 40.82 6.12 8.16

Construction 22316 44.69 69.75 0.13 0.81 9.53 2.46 0.82 0.64

Commerce de gros et au détail

234020 56.96 55.02 0.03 0.91 3.77 1.10 0.15 0.09

Hôtels et restaurants

23099 53.14 69.31 0.02 0.23 15.65 3.33 0.73 0.63

Transports et Communication

90669 59.49 63.10 0.05 0.10 1.23 1.99 0.16 0.11

Activité Financières

1089 80.35 71.17 0.00 1.29 26.35 11.39 0.83 8.63

Services aux entreprises

40671 61.69 52.43 0.17 0.64 7.95 3.30 0.52 0.68

Enseignement 5937 68.87 78.91 0.00 0.12 10.44 6.79 0.34 1.03

Santé 8996 89.71 77.11 0.03 0.30 8.90 4.06 0.64 0.31

Autres services 28095 56.98 61.66 0.02 0.19 2.32 2.82 0.12 0.34

Hors Champs 877 37.29 46.61 0.00 0.85 0.00 0.00 0.00 0.00

Manquants 118 23.60 33.52 0.00 0.34 5.93 8.32 0.46 1.14

Total 521162 57.63 60.35 0.56 1.43 6.17 2.34 0.49 0.49

Etant entendu les limites décrites, toutes les sources ont été utilisées pour la construction du RNE.

4.3. L’identification de la population du répertoire (estimation de l'état de l'activité)

L’identification de l'univers de référence du RNE comporte l'estimation des entreprises actives au 31/12 de l'année de référence. Le problème de l'estimation de l'état d'activité d'une entreprise peut être traité comme un problème de classification de l'unité en active et non-active, où l'affectation des unités est effectuée en analysant dans quelle mesure une ou plusieurs variables explicatives réussissent à expliquer l'appartenance de chacune des unités à une des deux catégories. Si on dispose, en outre, d'un ensemble d'observations précédemment classées (training data), l’analyse peut être effectuée en utilisant telle information. L'étude des informations nécessaires pour l'estimation de l'état d'activité a concerné:

Page 26: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

26

a. L’identification des variables utiles pour l'estimation de l'état d'activité; b. L’identification d'unités présentes dans la base d'informations correctement classées

comme active/inactive (training data).

A partir de l'analyse de toutes les informations disponibles, ont été sélectionnées les variables discriminantes pour l'estimation de l'état d'activité, divisées comme suit: _ Signes de présence dans les sources administratives: DGI, CNSS, DOUANE, API ; _ Signes de l'état d'activité dans les sources statistiques: ECAQ, MICRO, EES, ENAE; _ Variables de classification: tranche du chiffre d'affaires, code d'activité économique,

forme juridique, salariés; _ Autres variables: exonération fiscale, dates de cessation auprès de la CNSS. L’enquête de qualité (ECAQ), conduite par les responsables du Répertoire, dont l'année de référence est 2007 et qui couvre toute les entreprises ayant un salarié et plus , et l'enquête MICRO, dont l'année de référence est 2007 et qui a comme champ d'observation les entreprises qui ont jusqu'à 5 salariés, ont été utilisées pour évaluer l'erreur de couverture des archives de base. Dans le tableau 3, il y a une comparaison entre l'état d'activité des entreprises enquêtées lors des enquêtes ECAQ et MICRO avec la présence/absence de l'unité dans les sources administratives utilisées pour la construction de l'archive.

Tableau 3. Erreur de couverture des sources administratives par rapport aux enquêtes

ECAQ et MICRO (année 2007)

Univers entreprises avec salariés

(benchmark enquête ECAQ)

Univers entreprises sans salariés

(benchmark enquête MICRO)

Présence source

administrative/ Etat

enquête

DGI CNSS API DOUANE DGI CNSS API DOUANE

0/0 0,00 0,00 2,24 2,11 0,00 14,45 26,05 25,97

1/0 2,34 2,34 0,10 0,23 26,09 11,64 0,04 0,12

0/1 0,00 0,07 90,87 83,36 0,00 30,88 73,88 73,74

1/1 97,66 97,60 6,80 14,31 73,91 43,03 0,03 0,17

TOT 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00

Erreur couverture 2,34 2,40 26,09 42,52

il est à noter: _ Le faible taux d'erreur de couverture des sources DGI et CNSS pour les entreprises avec

salariés, contre une sur-couverture élevée des mêmes sources pour les entreprises sans salariés.

_ La faible couverture des sources API e DOUANE, surtout dans l'univers des entreprises sans salariés (0.03 e 0.17 respectivement), comme il a été d'ailleurs commentés précédemment.

Les erreurs de sur-couverture peuvent être remarquablement réduite en comparant les informations provenant des diverses sources. La probabilité que l'entreprise soit active est évidemment élevée quand les différentes sources concordent sur l'existence de l'entreprise

Page 27: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

27

(tableaux 4 et 5), il faut par contre définir un modèle probabiliste qui tienne compte des différentes fiabilités des sources.

Dans les tableaux 4-5 on remarque que toutes les entreprises avec un salarié (champ d'observation de l'enquête ECAQ) présentes dans la base administrative sont actives (en effet, seulement 4,5% d'entre elles s'avèrent en cessation). La situation est différente pour les entreprises avec moins de 5 salariés enquêtées durant l'enquête Micro et présentes dans base d'information. En effet, dans ce cas, 24,3% des unités s'avèrent inactives. Face à ce résultat, il a été décidé de considérer une approche déterministe pour la définition de l'état d'activité des entreprises avec salariés, en les considérant toutes comme actives – et privilégiant l'erreur de sur-couverture à celle de sous-couverture-, en revanche, une approche probabiliste a été définie pour estimer la probabilité d'activité de l'entreprise sans salariés. En particulier, un modèle logistique3 a été utilisé pour l'estimation de la probabilité d'activité des unités sans salariés dans la base administrative.

Tableau 4. Distribution des unités présentes dans les archives par nombre de signaux et

états d'activités à partir de l'enquête ECAQ

ETAT D'ACTIVITE ENQUETE ECAQ NOMBRE DE SIGNAUX

Cessées Actives Totale Actives (%)

1 signal 806 3561 4367 81,5

2 signaux 562 22063 22625 97,5

3 signaux 52 4121 4173 98,7

4 signaux 16 947 963 98,3

TOTAL 1436 30692 32128 95,5

Tableau 5. Distribution des unités présentes dans les archives par nombre de signaux et

états d'activités à partir de l'enquête MICRO

ETAT D'ACTIVITE ENQUETE MICRO NOMBRE DE SIGNAUX

Cessées Actives Totale Actives (%)

Aucun 761 1005 1766 56,9

1 signal 1292 3371 4663 72,3

2 signaux 874 4762 5636 84,5

3 signaux 24 84 108 77,8

4 signaux 6 6 12 50,0

TOTALE 2957 9228 12185 75,7

Les variables explicatives considérées sont la tranche du chiffre d'affaires, la présence de l'unité dans les archives CNSS, API, DOUANE, et l’éventuelle exonération fiscale. Le modèle a été estimé en utilisant comme variable réponse l'état d'activité de l'enquête ECAQ (intégrée avec tous les cas où dans l'enquête MICRO il y avait une réponse d'absence de salariés).

3 Agresti, A. (2002), Categorical Data Analysis, Second Edition, New York: Wiley.

Page 28: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

28

Dans le tableau 6 sont reportées les estimations des paramètres du modèle et dans le tableau 7, la distribution des unités par probabilité d'activité et état d'activité du training data. Du tableau 7 émerge la difficulté de l'identification de la valeur seuil, c'est-à-dire la valeur en-dessous de laquelle une unité est considérée inactive.

Tableau 6. Estimation des paramètres du modèle logistique

Paramètre Estimation SE Pr > Chi-deux

Chiffre d'affaires DGI -0.3147 0.0332 <.0001 CNSS emp 0.1629 0.0263 <.0001 CNSS ind -0.2397 0.0226 <.0001 API 0.4588 0.1 <.0001 Douane 0.1503 0.0977 0.1239 Tranche CA 0.1154 0.0114 <.0001 Exonération fiscale 0.1512 0.0245 <.0001

Tableau 7. Distribution des unités par probabilités d'activité et état d'activité des enquêtes

Etat d'activité enquêtes ECAQ/Micro Probabilité d'activité estimée

0 1

Totale

4 17 0,2

(19,05) (80,95) 21

2 6 0,3

(25,00) (75,00) 8

407 406 0,4

(50,06) (49,94) 813

445 413 0,5

(51,86) (48,14) 858

1.007 1.475 0,6

(40,57) (59,43) 2.482

611 1.206 0,7

(33,63) (66,37) 1.817

348 1.836 0,8

(15,93) (84,07) 2.184

313 2.427 0,9

(11,42) (88,58) 2.740

6 27 1,0

(18,18) (81,82) 33

Total 3.143 7.813 10.956 En choisissant une valeur seuil égale à 0.6, dont le choix a été effectué cherchant à minimiser l'erreur de classification, une erreur de 30% est commise comme indiqué dans le tableau 8. Il faut noter que l'état d'activité des enquêtes à régime (EES, ENAE, Micro) est utilisé pour corriger l'état d'activité déterministe ou probabiliste. Pour l'archive de 2007 il est possible en outre d'utiliser également l'état d'activité de l'enquête ECAQ. Sur la base des précédentes analyses, il s'est avéré que les unités estimées comme actives dans le RNE de 2007 sont environ 397.000.

Page 29: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

29

Les résultats décrits sont ceux obtenus lors d'une première expérimentation du modèle. Le responsable du RNE a remarquablement amélioré les résultats en introduisant de nouvelles variables explicatives. Les résultats obtenus ont été présentés au Séminaire sur le RNE4.

Tableau 8. Erreur de classification dans l'état d'activité estimé

Etat d'activité des enquêtes ECAQ/Micro Etat du modèle

0 1

Total

1.518 1.762 3.280 (13,86) (16,08) (29,94)

0

1.625 6.051 7.676

(14,83) (55,23) (70,06) 1

3.143 7.813 10.956 Total

(28,69) (71,31) (100) Les modifications apportées pour le RNE 2008

Les méthodologies présentées ne sont pas immédiatement applicables pour l'identification de l'univers de référence du RNE 2008, surtout pour l'estimation de l'état d'activité des entreprises sans salariés. Il n'est plus possible en effet d'estimer un modèle logistique du moment qu'on ne dispose plus du training data (enquêtes ECAQ et MICRO). Deux alternatives méthodologiques sont à soumettre à évaluation: - L'estimation d'un modèle logistique sur les données de 2007 en utilisant comme variables

explicatives uniquement les variables disponibles aussi en 2008; Les paramètres obtenus peuvent être utilisés aussi pour l'estimation de l'état d'activité de 2008.

- l’utilisation de modèles statistiques qui ne requièrent pas la disponibilité d'un Training data, par exemple, les modèles à classes latentes.

Clairement, il faut évaluer l'impact du choix, en termes d'entreprises actives obtenues.

4.4. Le choix du nombre des employés

A priori, il a été défini comme ensemble d'entreprises avec salariés, toutes les unités pour lesquelles au moins une source (statistique/administrative) présente des salariés. En général, il a été donc supposé l'absence de sous-couverture dans l'estimation des entreprises avec salariés. Les sources qui fournissent les informations sur les employés pour le RNE 2007sont: L’archive CNSS 2007 qui fournis le nombre des salariés pour chaque trimestre de l'année de référence (tr1_2007, tr2_2007, tr3_2007 et tr4_2007), l’archive API (APIemp), l’enquête de qualité ECAQ (ECAQEffT), l’enquête sur les micro-entreprises (nbre_sl_per), l’enquête EES (EESemp), et l’enquête ENAE (ENAEemp), qui fournis tous les nombres d'employés au 31 décembre de l'année 2007. Le choix des salariés a été effectué sur l'ensemble des entreprises appartenant à l'archive CNSS 2007 ou avec au moins une source avec employés >0.

4 Hassen Arouri (2009), Utilisation des sources administratives dans le Répertoire National des Entreprises. Intégration et méthodes d'estimation des variables. Etat d’avancement et perspectives d’achèvement dans le cadre du projet de jumelage, Tunis 1er octobre 2009

Page 30: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

30

L’activité exercée pour l'estimation des employés des unités actives a concerné le choix et/ou la validation d'une des sources, pour les unités pour lesquelles on dispose d'au moins une source. Le choix des employés dans le cas où on dispose d'au moins une source administrative/statistique, a été effectué selon des modèles de régression robuste5. Le but principal des modèles robustes est celui de fournir des résultats stables en présence de données aberrantes limitant l'influence de ces dernières dans les procédures d'estimation. En outre, ils peuvent être utilisés pour l'indentification des données aberrantes. Dans ce contexte nous sommes intéressés d'identifier des outliers dans les variables explicatives (espace des X) ainsi que dans les variables réponse (espace des y). L’algorithme pour l'estimation robuste des modèles de régression est celui des moindre carrées itérativement pondérés (IRLS)6. Comme variable réponse (y) du modèle, a été utilisée la source principale pour la mise à jour des données de l'emploi, c'est-à-dire le dernier trimestre de la CNSS (tr4_2007) et comme variable explicative, les premiers trois trimestres de la CNSS (tr1_2007, tr2_2007 e tr3_2007 ), APIemp, ENAEemp, ECAQEffT, EESemp et les tranches du chiffre d'affaires. Clairement, dans le modèle il existe un indicateur du pattern de présence des sources disponibles pour chaque entreprise. Le tableau 9 indique le nombre d'entreprises par type source disponible. Le vecteur source indique la présence (1) ou l'absence (0) des sources, respectivement: CNSS, EESemp, ENAEemp, APIemp, ECAQEffT et MICRO.

Tableau 9. Nombre d'entreprises par sources d'employés disponibles (année 2007)

Source Entreprises

valeur absolue %

000000 232.725 44,67 000001 508 0,10 000010 508 0,10 000100 338 0,06 000110 38 0,01 100000 256.035 49,14 100001 1.995 0,38 100010 21.786 4,18 100011 32 0,01 100100 1.391 0,27 100110 1.482 0,28 101000 309 0,06 101010 744 0,14 101100 323 0,06 101110 243 0,05 110000 305 0,06 110010 775 0,15 110100 266 0,05 110110 250 0,05 111000 265 0,05 111010 169 0,03 111100 388 0,07 111110 88 0,02 AUTRE 76 0,01 Total 521.039 100,00

5 Rousseeuw, R. J. & A. M. Leroy (1987), Robust Regression and Outlier Detection. New York: Wiley. 6 Holland, P. and Welsch, R. (1977), Robust Regression Using Interactively Reweighted Least-Squares. Commun. Statist. Theor. Meth., 6, 813-827.

Page 31: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

31

Une fois les paramètres du modèle de régression robuste estimés – plusieurs modèles ont été estimés selon les variables explicatives disponibles – nous avons procédé comme suit: Soient iY

)

l'estimation des employés relative à l'unité i, Nixx kii ,,1),,( 1 KK = le vecteur des

employés pour l'unité i, où k indique le nombre des variables explicatives disponibles, et soit Niyxyxrr ikiiikii ,,1)ˆ,,ˆ(),,( 11 KKK =−−= le vecteur des résidus. Le vecteur des résidus est

utilisé pour identifier la quelle des sources sur les employés est à considérer outlier, où la variable outlier est définie comme

kjNiautrement

krseijout ij ,,1,,,1

1

0)( KK ==

Pour l'entreprise i on choisit la source j, qui satisfait les conditions suivantes

),,min( 61 iiji rrr K= Et 0)( =ijout .

Si la source avec la plus faible distance de la valeur prévue du modèle est un outlier on passe à un contrôle manuel ou on choisit la valeur prévue selon la dimension de l'entreprise. La méthodologie utilisée permet: _ L’identification des entreprises avec des valeurs aberrantes dans les différentes sources

sur l'emploi; _ Le choix de la valeur la plus cohérente parmi les différentes sources disponibles; _ La sélection des entreprises pour lesquels il faut un contrôle manuel.

Enfin, le sous-ensemble d'entreprises pour lesquels il s'est avéré nécessaire de faire un contrôle ponctuel des données a été identifié sur la base des règles suivantes: _ Les entreprises avec des valeurs d'employés aberrantes et avec au moins une source

déclarant plus que 50 employés; _ Toutes les entreprises avec au moins une source déclarant plus que 250 employés _ Les entreprises ayant une tranche de chiffre d'affaires élevée et zéro employé.

Le tableau 10 indique le nombre d'entreprises par source choisie. Il est à noter que des contrôles manuels ont été effectués seulement sur 272 entreprises, mais qui couvrent tout de même 23% de l'emploi.

Tableau 10. Nombre d'entreprises avec des employés estimés>0 et salariés par source choisie

Source choisie Entreprises Salariés

valeur absolue Pourcentages Valeur absolue pourcentages

EESemp 2.026 3,04 85.143 8,39 CNSS (Tm4) 51.101 76,76 400.161 39,45 ENAEemp 703 1,06 68.140 6,72 APIemp 1.972 2,96 125.193 12,34 ECAQefft 10.500 15,77 100.052 9,86 Contrôle manuel 272 0,41 235.535 23,22

Totale 66.574 100,00 1.014.224 100,00

La distribution des entreprises et des employés par classe d'employés choisis dans le RNE 2007 est reportée dans le Tableau 11.

Page 32: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

32

Tableau 11. Nombre d'entreprises et de salariés par classe de salariés

Entreprises Salariés

Classes salariés Valeur absolue

Pourcentage

s

Valeur

absolue

Pourcentag

es

0 454.465 87,22 0 0,00 1-5 49.286 9,46 96.354 9,50 6-9 5.338 1,02 38.236 3,77 10-19 4.796 0,92 62.898 6,20 20-49 3.618 0,69 109.155 10,76 50-99 1.642 0,32 112.825 11,12 99-249 1.269 0,24 192.480 18,98 >249 625 0,12 402.276 39,66 Total 521.039 100,00 1.014.224 100,00

La présence d'une base d'informations différente pour l'année 2008 a rendu nécessaire d'apporter certaines modifications aux méthodologies pour l'estimation des employés du RNE 2008. Les sources qui fournissent les informations sur les employés 2008 sont: Les modifications apportées pour le RNE 2008: L’archive CNSS 2008, qui fourni le nombre de salariés pour chaque trimestre de l'année de référence (tr1_2008, tr2_2008, tr3_2008 e tr4_2008), l’archive API (APIemp), l’enquête ENAE (ENAEemp), l’enquête TIC (TICemp) et l'enquête sur les investissements (CONJemp), qui fournissent le nombre d'employés au 31 décembre de l'année de référence (2008), et le RNE 2007, qui fourni les salariés de l'année t-1 (2007). Le choix des salariés a été effectué sur l'ensemble des entreprises appartenant à l'archive CNSS 2008 ou avec au moins une source ayant employés >0 et ce en utilisant un modèle de régression robuste comme précédemment décrit. Comme variable réponse (y) du modèle, on a utilisé la source principale pour la mise à jour des données sur l'employé, c'est-à-dire le dernier trimestre de la CNSS (tr4_2008) et comme variable explicative la moyenne des premier trimestre de la CNSS (tr1_2008, tr2_2008 e tr3_2008), APIemp, CONJemp, TICemp, les salariés de l'année 2007 et les tranches de chiffre d'affaires. Clairement, dans le modèle il y a un indicateur de pattern de présence des sources disponibles pour chaque entreprise. Afin d'optimiser le processus d'intégration du RNE 2008 et des résultats de l'enquête ENAE, la méthodologie pour la détermination du nombre de salariés parmi les sources à disposition, se base sur un choix hiérarchique entre les sources identifiées comme aberrantes par rapport au modèle de régression, où la définition d'une donnée aberrante est égale à celle décrite et la hiérarchie à prendre en compte est la suivante: ENAEemp> tr4_2008> APIemp>CONJemp> TICemp> mean(tr1_2008, tr2_2008, tr3_2008).

Quand toutes les sources d'une même unité sont définies comme aberrantes par le modèle, un contrôle manuel est prévu, en fonction de la catégorie dimensionnelle de l'entreprise et de l'activité exercée.

Page 33: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

33

4.5. Le choix du code d'activité économique

L’optique d'intégration entre les différentes sources disponible et de l'analyse du degré de concordance entre elles, a été la route suivie également pour l'estimation de l'activité économique du RNE. Les sources considérées pour l'estimation du code d'activité économique pour le RNE sont: code DGI, code API, code dérivant des exportations (Douane), code de l'enquête ENAE, code de l’enquête de qualité (ECAQ) et le code de l’enquête sur les Micro-entreprises. Les informations sur l'activité économique présentes dans les archives administratives ne sont pas disponibles sous la forme du code NACE et il est donc nécessaire d'avoir une activité de codification/standardisation des sources disponibles. En particulier: _ dans l'archive DGI le code d'activité économique ne correspond pas au code NACE. Le

code NACE a été attribué en créant une table de passage entre le code DGI et le code NACE.

_ Dans l'archive API l’activité économique exercée par l'entreprise est disponible sous forme de description textuelle. Grâce à la standardisation des libellés API – environ 500 libellés différents – le code NACE a été attribué en utilisant une table de passage entre le libellé API et le code NACE.

_ Dans l'archive DOUANE sont présents les produits importés/exportés par les entreprises du commerce extérieur. Les codes, produit du fichier de la Douane sont relatifs à une classification compatible avec celle de l'activité économique NACE. Le code NACE a été attribué en créant une table de passage entre les produits exportés et le code NACE. Il est clairement probable qu'il soit attribué plus qu'un code NACE à chaque entreprise. Dans ce cas les codes sont rangés sur la base de la valeur des exportation/importations.

En considérant toutes les sources à disposition, pour 85% des entreprises, le seul code d'activité économique disponible est celui provenant de la source DGI. Dans ce cas, et à moins de faire des contrôles manuels pour les grandes entreprises, le choix du code à attribuer est donc obligatoire. Pour tous les autres cas, la qualité des sources disponibles a été estimée en calculant un indice de concordance entre le code NACE (de 2 à 5 chiffres) attribué par les différentes sources et le code NACE des sources choisies comme benchmark (ECAQ et MICRO). A partir de cette analyse, il résulte que les sources API et Douane sont celles qui s'écartent le plus du benchmark (38% de cohérence à 5 chiffres pour la Douane; 54% de cohérence à 5 chiffres pour l'API; 60% de cohérence à 2 chiffres pour la Douane; 74% de cohérence à 2 chiffres pour l'API). Ces résultats pourraient provenir de diverses causes: par exemple, les erreurs systématiques dans la codification des libellés API; erreurs dues au fait que les codes produit des exportations sont liés uniquement à une activité manufacturière et pas à celle commerciale. Des sources importantes comme l'API et la Douane, avec des informations si détaillées sur les produits et sur les différentes activités exercées, doivent être testée surtout dans les premières années d'utilisation pour déterminer les domaines d'application sûrs et ceux sur lesquels en revanche il faut établir des limites. Sur la base de l'analyse de qualité réalisée, le choix du code d'activité du RNE 2007 a été effectué selon un ordre de préférence :

1. Identification et utilisation du code attribué le plus fréquemment par les sources disponibles (max frequency);

2. Choix hiérarchique entre les sources où la hiérarchie considérée –basée sur des analyses de qualité réalisées – est la suivante: ECAQ>ENAE>API>DOUANE>MICRO>DGI;

3. Utilisation du code DGI basé sur la nouvelle table de passage; 4. Utilisation du code de l'année précédente (situations résiduelles)

Page 34: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

34

Il a été clairement décidé de laisser aux experts de l'INS le soin de vérifier et d'attribuer le correct code d'activité économique à environ 200 entreprises avec des informations discordantes entre ECAQ et les autres sources avec au moins 100 employés. Ceci confirme la nécessité de faire des contrôles ponctuels sur les grandes entreprises pour lesquels les sources sont discordantes afin de vérifier d'une part la présence d'éventuels erreurs systématiques et d'autre part pour créer une hiérarchie de sources à considérer dans l'attribution des caractères. Dans ces contrôles, il est fondamental de conserver les informations collectées. Il est nécessaire d'avoir la possibilité de remonter à la source choisie de manière à pouvoir créer/mettre à jour des indicateurs de qualité des sources, utiles pour le futur. Les tableaux 12 et 13 reportent le nombre d'entreprise et le nombre d'employés selon le type de choix et la source choisie.

Tableau 12. Nombre d'entreprises et employés par type de choix

Type de choix Entreprises Salariés

Valeur

absolue

pourcentages

Valeur

absolue

pourcentages

Max frequency 76.970 14.77 468.793 46.22 Choix Hiérarchique 6.575 1.26 121.163 11.95 Code DGI 437.105 83.89 379.133 37.38 Contrôles manuels 193 0.04 45.075 4.44 Aucune information 196 0.04 60 0.01 Totale 521.039 100.00 1.014.224 100.00

Tableau 13. Nombre d'entreprises et employés par source choisie

Source choisie Entreprises Salariés

Valeur absolue

pourcentages

Valeur absolue

pourcentages

Ecaq 12.547 2,41 480.532 47,38 Enae 124 0,02 13.958 1,38 Api 1.135 0,22 52.700 5,20 Douane 785 0,15 6.871 0,68 Micro 1.956 0,38 986 0,10 DGI 500.532 96,06 412.412 40,66 Code NAT Répertoire année précédente

3.571 0,69 1.630 0,16

Contrôles manuels 193 0,04 45.075 4,44 Aucune information 196 0,04 60 0,01 Totale 521.039 100,00 1.014.224 100,00

Page 35: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

35

5. Recommandations

Une bonne partie des activités du projet se sont concentrées sur la définition – surtout en termes de sources d’input et de méthodologies d’estimation des caractères – du nouveau répertoire et de la réalisation du système d’informations (le noyau le plus général du SISE). On développera ci-après quelques considérations et recommandations qui ont pour finalité de compléter le parcours dotant l’INS d’un répertoire statistique – base de référence pour toutes les enquêtes sur les entreprises – fiable, avec un processus de production centralisé et contrôlable, pour lequel on puisse prévoir dans des délais relativement courts une diffusion statistique des informations (structure et évolution de la population des entreprises de la Tunisie) 1. Métadonnées du répertoire et documentation des procédures et méthodologies. Il faut

achever le plus vite possible la réalisation des métadonnées du répertoire et en particulier une documentation exhaustive sur les définitions des variables du répertoire. Cette documentation est fondamentale pour en garantir une utilisation correcte (comme cadre d’échantillonnage population-cible) pour les enquêtes statistiques. Il faut documenter et diffuser au sein de l’INS toutes les procédures (on peut penser à celles de l’intégration des sources) et les méthodologies d’estimation des caractères des plus simples aux plus complexes. Les utilisateurs statistiques (responsables d’enquête) doivent connaître exactement ce qu’on veut dire par exemple par « adresse de l’entreprise » et quel est le critère de sélection réel des adresses ou encore comment on définit « l’état d’activité » et selon quelle méthodologie il est estimé.

2. Achèvement du système du répertoire. Le système informatique du nouvel RNE a été développé en plusieurs parties essentielles ; depuis la structure des données des sources jusqu’au processus d’intégration et à certaines interfaces (on peut penser à celle de l’identification du code NAT). Certaines activités doivent être encore achevées, on recommande à court terme et afin de rendre le système complètement opérationnel, deux éléments en particulier : o L’intégration, dans le système, de toutes les méthodologies d’estimation des

caractères. Une grande partie de ces méthodologies, qui se basent sur des critères de choix entre les données disponibles (par ex. adresse, activité économique…), peuvent être facilement développées, pour d’autres, et en particulier celles qui utilisent un modèle statistique (estimation des salariés et de l’état d’activité), développées avec le logiciel SAS, on peut penser à leur intégration dans le système, sans modifier le logiciel mais en garantissant une gestion centralisée des inputs et des outputs.

o Le développement d’une interface en ligne permettant aux responsables statisticiens du RNE d’entretenir les contenus informatifs de chaque entreprise (en particulier celles qui sont de grande taille) et aux utilisateurs internes de l’INS de les visualiser.

3. Les procédures d’appariement des sources d’input du répertoire. La problématique d’une bonne intégration des sources d’input du répertoire sera résolue définitivement uniquement lorsque la Tunisie se dotera d’un système unique d’identification des entreprises, valable pour toutes les administrations. Une solution (provisoire) a été identifiée dans la réalisation de procédures d’appariement automatique (au lieu des procédures manuelles) en utilisant en premier lieu la raison sociale et l’adresse. En général, les résultats obtenus ne semblent pas être suffisants. Les méthodes expérimentées (le système n_gram avec n = 5 ; un système d’appariement par mots – n_gram modifié – le système soundex ; le système de Jaro_Winkler), ont produit des résultats similaires – avec un nombre limité d’appariements « certains » - même s’il y avait certaines différences significatives : par ex. le soundex produit par définition un nombre d’appariés

Page 36: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

36

plus élevé mais avec un taux important de faux appariés. L'utilisation des variables chaînes de caractères présentes dans les fichiers d’input (en particulier DGI et CNSS) a été assez problématique étant donné le manque absolu de règles de gestion et de ce type d’informations auprès des organismes fournisseurs. Ceci fait qu’il n’est pas possible d’affirmer avec certitude qu’il existe un algorithme d’appariement meilleur par rapport à un autre, chacun de ces algorithmes nécessiterait, pour fonctionner au mieux, d’une phase de prétraitement des données. Une amélioration des résultats de l’appariement automatique passe donc à travers le développement de procédures – complexes et coûteuses – de normalisation et d’analyse ainsi qu’à travers une analyse attentive dans le choix de la meilleure stratégie d’appariement (choix des critères de blocage, choix du seuil d’acceptabilité,…).

4. L’évaluation de la qualité du répertoire. Il est clair que l’évaluation de la qualité d’un répertoire peut être effectuée sur la base des résultats obtenus à partir d’une enquête statistique qui utilise le répertoire comme base pour le tirage de l’échantillon de l’enquête et pour le contact avec les répondants. Cette évaluation peut être faite à l’aide d’indicateurs de concordance/discordance avec les résultats obtenus à partir de l’enquête au moins pour les principaux caractères du répertoire : adresse, état d’activité, nombre de salariés, activité économique. Comme on l’a souligné plusieurs fois, ces indicateurs doivent être pondérés par rapport au nombre de salariés, étant donnée l’importance que dans un répertoire – et dans les estimations de variables économiques –des unités de plus grande taille. De plus, pour évaluer l’impact des différentes références temporelles, par ex. la base pour l’enquête ENAE 2008 a été le répertoire de 2007, et donc les modifications « réelles » qui surviennent dans la période examinée, il faudrait construire des indicateurs sur des données avec différentes références temporelles (ex. ENAE 2008 – RNE 2007) et sur des données avec la même référence temporelle (ex. ENAE 2008 – RNE 2008 – non mis à jour avec des données d’enquête). Enfin, il faudrait développer une série historique d’indicateurs afin d’évaluer au mieux les accroissements (ou décroissements) de la qualité enregistrées au cours du temps par rapport aux interventions qui sont effectuées – évaluation des coûts supportés avec les bénéfices obtenus. Un ensemble minimal et assez simple d’indicateurs a été conseillé et on en recommande le développement le plus tôt possible.

5. la coordination avec les résultats des enquêtes. Dans le cadre du processus de réalisation de la version 2008 du RNE, il y a eu certains problèmes assez significatifs dans les activités d’intégration des données ENAE dans le répertoire et plus généralement dans l’utilisation des données d’enquête pour la mise à jour du RNE. Il faut être clair sur le fait que si le répertoire est le responsable de la définition de l’univers sur lequel on extrapole les données des enquêtes et si l’enquête prévoit une convergence sur les totaux des entreprises et des salariés du répertoire il faut prévoir une convergence même au niveau micro des salariés et de l’activité économique. Ceci implique que : o Ces transformations ne peuvent pas être estimées sur la base d’autres variables

de l’enquête mais doivent toujours être relevées. o En cas de discordances significatives entre les valeurs relevées à partir des

enquêtes et les valeurs présentes dans le répertoire, ces différences doivent être résolues à priori à travers une collaboration étroite entre les responsables de l’enquête et du répertoire et il faut trouver des solutions partagées.

o En cas d’impossibilité de collecte exacte des salariés, l’estimation doit absolument tenir compte de toutes les informations déjà disponibles à l‘INS (autres enquêtes, données CNSS et API) et dans ce cas aussi, elle devra être cohérente avec le répertoire.

o Il y a eu des discordances notables dans les déclarations de cessation parvenues de différentes enquêtes (entreprises relevées pour une enquête et définies cessées

Page 37: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

37

pour une autre). Il faut standardiser entre les différentes enquêtes les définitions, les modalités et les pratiques dans la collecte des évènements démographiques et de transformation dans les entreprises. Il faut sensibiliser encore plus les enquêteurs et définir des instructions uniques pour toutes les enquêtes. On peut penser à l’insertion, dans tous les questionnaires, d’une section (similaire dans toutes les enquêtes) destinée à contrôler les données du répertoire et à acquérir des informations du type démographique.

6. le problème de la mise à jour des grandes entreprises. Il est clair que les entreprises de grande taille ont un poids important dans les estimations économiques. Le répertoire doit garantir la qualité maximale des caractères des grandes entreprises à travers un monitoring de ces unités – au moins celles de plus de 500 salariés – pendant toute l’année. Il faut identifier à cette fin les instruments d’enquête appropriés (contacts téléphoniques, visites, sites web, etc.) et enregistrer à temps toutes les modifications démographiques (cessations, inactivités,…) ou de transformation (fusion, acquisition, changement de nature juridique et de matricule fiscal). Ces informations doivent être rendues disponibles aux différents responsables d’enquête.

7. le problème de benchmark pour l’estimation des caractères des petites et moyennes entreprises. Le développement de méthodologies pour l’estimation de l’état d’activité requiert un benchmark pour l’estimation des paramètres. Si, pour les entreprises de plus de 5 salariés, l’échantillon des répondants de l’enquête ENAE (mais aussi des autres enquêtes, TIC, EES,…) est certainement une référence, pour les entreprises de plus petite taille on peut utiliser uniquement les résultats de l’enquête quinquennale MICRO. La solution optimale serait clairement de disposer d’informations annuelles, même pour un échantillon limité de petites entreprises. En attendant une révision générale, de la part de l’INS, de la stratégie de production de statistiques sur les entreprises de petite taille, on recommande (préférablement à l’approche déterministe proposée par les experts tunisiens), une approche consistant à estimer un modèle logistique sur des données de 2007 (année de la collecte pour l’enquête MICRO) en utilisant comme variable explicatives disponibles dans les années suivantes également. Dans l’alternative, on pourrait analyser la possibilité d’utiliser des modèles avec des variables latentes.

Page 38: Le Répertoire National des Entreprises en Tunisieins.tn/sites/default/files/pdf_actualites/f_rne.pdf · Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques

Jumelage TU/07/AA/OT/02 ‘Développement du Système d’informations statistiques sur les entreprises (SISE) à l’Institut National de la Statisitique’

38

Liste des tableaux

N° Titre Page

Tab. 1 Informations présentes dans la base d'informations

24

Tab. 2 Analyses de la présence des différentes sources administratives/statistiques dans la base d'informations par section d'activité (année 2007).

25

Tab. 3 Erreur de couverture des sources administratives par rapport aux enquêtes ECAQ et MICRO (année 2007)

26

Tab. 4 Distribution des unités présentes dans les archives par nombre de signaux et états d'activités à partir de l'enquête ECAQ

27

Tab. 5 Distribution des unités présentes dans les archives par nombre de signaux et états d'activités à partir de l'enquête MICRO

27

Tab. 6 Estimation des paramètres du modèle logistique

28

Tab. 7 Distribution des unités par probabilités d'activité et état d'activité des enquêtes

28

Tab. 8 Erreur de classification dans l'état d'activité estimé

29

Tab. 9 Nombre d'entreprises par sources d'employés disponibles (année 2007)

30

Tab. 10 Nombre d'entreprises avec des employés estimés>0 et salariés par source choisie

31

Tab. 11 Nombre d'entreprises et de salariés par classe de salariés

32

Tab. 12 Nombre d'entreprises et employés par type de choix

34

Tab. 13 Nombre d'entreprises et employés par source choisie

34