31
IE Définition des besoins pour une application d’analyse décisionnelle de type SOLAP pour la criminalité Réalisé par : Dr Yvan Bédard, professeur Sonia Rivest, professionnelle de recherche Marie-Josée Proulx, professionnelle de recherche Martin Nadeau, professionnel de recherche Pour la : Direction des affaires policières et de la prévention de la criminalité, ministère de la Sécurité publique Janvier 2002

Définition des besoins pour une application d’analyse

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Définition des besoins pour une application d’analyse

IE

Définition des besoins pour une application d’analyse

décisionnelle de type SOLAP pour la criminalité

Réalisé par : Dr Yvan Bédard, professeur Sonia Rivest, professionnelle de recherche Marie-Josée Proulx, professionnelle de recherche Martin Nadeau, professionnel de recherche

Pour la : Direction des affaires policières et de la prévention de la criminalité, ministère de la Sécurité publique

Janvier 2002

Page 2: Définition des besoins pour une application d’analyse

AVANT-PROPOS

Ce document constitue le rapport de travail et le recueil des livrables du projet « Définition des besoins

pour une application d’analyse décisionnelle de type SOLAP pour la criminalité » réalisé pour la Direction

des affaires policières et de la prévention de la criminalité du ministère de la Sécurité publique du Québec

par l’équipe du professeur Yvan Bédard du Centre de recherche en géomatique de l’Université Laval.

Ce document contient :

• le rapport de travail du projet;

• le plan de travail du projet (annexe 1);

• la définition de la portée du prototype (annexe 2);

• la définition d’analyses types, incluant un tableau résumant les besoins en données (annexe 3);

• le modèle multidimensionnel (dimensions, mesures et cubes) (annexe 4);

• le compte-rendu des rencontres (annexe 5).

Le support numérique qui accompagne ce document contient :

• les documents énumérés précédemment (documents Microsoft Word 2000);

• l’inventaire de données (document Microsoft Access 2000);

• le prototype de système d’analyse OLAP (document Microsoft PowerPoint 2000);

• la base de données implantée dans Microsoft SQL Server 2000;

• les essais de cubes multidimensionnels implantés dans Microsoft Analysis Services 2000;

• les courriels échangés ainsi que les documents envoyés par le MSP (sauf les données DUC 1 et

DUC 2).

Page 3: Définition des besoins pour une application d’analyse

INTRODUCTION

La Direction des affaires policières et de la prévention de la criminalité (DAPPC) du ministère de la

Sécurité publique (MSP) effectue régulièrement des analyses statistiques sur les données de criminalité au

Québec et publie annuellement des analyses basées sur les données recueillies dans le cadre du programme

de déclaration uniforme de criminalité (DUC), versions agrégée (données mensuelles DUC 1) et révisée

(nouvelle version DUC 2 basée sur l’événement). Ces statistiques sont présentées principalement sous

forme de tableaux (voir par exemple le document « Statistiques 1999 sur la criminalité au Québec » publié

par le MSP). Aucune représentation cartographique des résultats n’est produite. Lorsque des formes de

représentation (tableaux, graphiques) sont produites, elles demeurent statiques et ne permettent pas de

manipuler l’information selon les besoins immédiats ou selon les nouvelles questions qui se posent à la vue

des résultats.

Une nouvelle méthode d’analyse, l’approche SOLAP, est proposée afin que les analystes en criminalité

puissent tirer parti de la richesse d’information, particulièrement l’information spatio-temporelle, contenue

dans les bases de données de déclaration uniforme de criminalité (la base de données DUC 2 contenant des

données plus détaillées). L’approche SOLAP combine les avantages de l’analyse multidimensionnelle

interactive (OLAP) aux possibilités de visualisation et de manipulation de la composante spatiale

géométrique des données cartographiques. L’approche SOLAP est bien adaptée aux analyses spatio-

temporelles, c’est-à-dire impliquant l’espace et le temps. Elle permet de rendre l’information sur la

criminalité facilement et rapidement disponible à plusieurs usagers sans que ces derniers aient besoin de

connaissances spécifiques en informatique.

La première étape du développement du système SOLAP consiste en la réalisation d’un prototype, ici sous

forme de maquette, visant la définition des besoins de la DAPPC en matière de gestion des données en vue

d’effectuer des analyses géospatiales de type décisionnel à partir des données de criminalité.

L’équipe du professeur-chercheur Yvan Bédard du Centre de recherche en géomatique (CRG) de

l’Université Laval a été mandatée pour la réalisation de la phase 1 du projet. Le plan de travail de la phase

1 est présenté à l’annexe 1. Les intervenants qui ont participé à la réalisation du mandat sont listés dans le

tableau 1.

Page 4: Définition des besoins pour une application d’analyse

Tableau 1 : Liste des intervenants pour la phase 1 du projet

Intervenants du Centre de recherche en géomatique de l'Université Laval Nom Fonction Implication au mandat

Dr Yvan Bédard Professeur, département des sciences géomatiques Supervision

Sonia Rivest Professionnelle de recherche, CRG Réalisation du prototype et de la documentation

Marie-Josée Proulx Professionnelle de recherche, CRG Réalisation du prototype et de la documentation

Martin Nadeau Professionnel de recherche, CRG Réalisation du prototype

Louis-Étienne Guimond Étudiant 1er cycle, sciences géomatiques Réalisation de l'inventaire de données

Intervenants du ministère de la Sécurité publique du Québec Nom Direction/Service Implication au mandat

Hélène Simon

Chef de service, Service de la recherche et de la lutte au crime organisé, Direction des affaires policières et de la prévention de la criminalité

Définition des besoins et approbation des différents livrables

Diane Potvin

Service de la recherche et de la lutte au crime organisé, Direction des affaires policières et de la prévention de la criminalité

Préparation des données et approbation des différents livrables

Louise Motard

Service de la recherche et de la lutte au crime organisé, Direction des affaires policières et de la prévention de la criminalité

Préparation des données et approbation des différents livrables

Suzy Bélanger

Service de la recherche et de la lutte au crime organisé, Direction des affaires policières et de la prévention de la criminalité

Préparation des données et approbation des différents livrables

Tho-Thanh Ly

Service de la recherche et de la lutte au crime organisé, Direction des affaires policières et de la prévention de la criminalité

Préparation des données et approbation des différents livrables

Robert Lavertue

Service de la prévention de la criminalité, Direction des affaires policières et de la prévention de la criminalité

Approbation des différents livrables

Guy Nadeau

Service de la recherche et de la lutte au crime organisé, Direction des affaires policières et de la prévention de la criminalité

Approbation des différents livrables

Stéphane Miousse Étudiant-stagiaire Préparation des données

Le présent rapport contient une description des principales étapes accomplies durant le mandat, soit :

Définition de la portée du prototype

Définition d’analyses types

Inventaire de données

Modélisation multidimensionnelle

Élaboration de l’interface et des fonctions du prototype

Page 5: Définition des besoins pour une application d’analyse

Détermination des modes de représentation graphique et de la sémiologie graphique

Réalisation du prototype

Discussion de problématiques de développement du système fonctionnel

Page 6: Définition des besoins pour une application d’analyse

RÉALISATION DU MANDAT

Définition de la portée du prototype

La portée du prototype a été définie au départ afin que les deux parties, futurs utilisateurs et concepteurs,

aient la même vision du livrable final de cette phase du projet. Le but premier du prototype était de faciliter

la définition des besoins des futurs usagers du système en leur permettant de comprendre ce que peut offrir

un outil OLAP spatial (ou SOLAP) pour l'analyse des données de criminalité. L’utilisation d’une méthode

de prototypage permet de faciliter et d’accélérer l’analyse et la conception du système fonctionnel qui sera

développé lors d’étapes subséquentes du projet.

Le prototype a été réalisé sous forme d’une maquette de système SOLAP. Cette maquette est présentée à

l'aide du logiciel Microsoft PowerPoint. Le prototype n’est donc pas un système fonctionnel, mais bien une

série d’images présentant une simulation du fonctionnement du futur système.

Parmi les données des programmes DUC1 et DUC 2 qui seront complètement intégrées au système

fonctionnel, un échantillon représentatif, couvrant les régions administratives de Montréal et de Québec

pour les années 1990 à 1999, a été intégré au prototype.

Les détails de la définition de la portée du prototype sont présentés dans le document de l’annexe 2.

Définition d’analyses types

Afin que le prototype puisse présenter des exemples d’analyse pertinents, un certain nombre d’analyses

types que la DAPPC désire réaliser ont été définies. Par la suite, les besoins en données pour chacune des

analyses définies ont été évalués. Les détails des analyses définies et des besoins en données sont présentés

dans les documents de l’annexe 3. Deux analyses (ou combinaisons d’analyses) ont été retenues pour être

présentées dans le prototype. L'accent a été mis sur les jeunes et les infractions relatives aux agressions

sexuelles ainsi qu'aux drogues et stupéfiants :

Analyse 1 :

- En 1999, quel est le taux de victimisation relatif aux agressions sexuelles (code

1310+1320+1330+1340) pour les moins de 18 ans au Québec? Sur quels territoires retrouve-

t-on les taux les plus élevés? Les plus faibles? Et, selon le sexe?

Page 7: Définition des besoins pour une application d’analyse

- Comment ces taux se comparent-t-il avec ceux de l’année précédente?

- En 1999, sur quels territoires retrouve-t-on les taux de victimisation relatifs aux agressions

sexuelles des femmes les plus élevés par rapport à ceux des hommes pour les moins de 18

ans? À l'inverse, où retrouve-t-on les taux de victimisation relatifs aux agressions sexuelles

des hommes les plus élevés par rapport à ceux des femmes?

- Sur quels territoires retrouve-t-on les plus fortes proportions de victimes de moins de 18 ans

dont l'auteur présumé est un membre de la famille? De plus, sur quels territoires retrouve-t-on

les plus fortes proportions de victimes agressées de 15 à 17 ans par un auteur présumé ayant

sensiblement le même âge qu'elles (+ ou - 3 ans)?

- Au Québec, en 1999, quelles ont été les différences entre les agressions sexuelles commises

dans des endroits publics versus les endroits privés (relation avec l’auteur présumé, nature des

blessures, arme utilisée, consommation)?

Analyse 2 :

- En 1999, la répartition entre les jeunes et les adultes auteurs présumés diffère-t-elle en

fonction du type de drogue (cannabis, cocaïne, héroïne, …) ou du type d’infraction

(possession, culture, importation, …)?

- En 1999, quel est le nombre d’infractions et le taux de criminalité relatifs aux drogues et aux

stupéfiants, pour les différentes municipalités? Est-ce que la répartition des municipalités

affichant un taux élevé montre un patron spatial particulier? Est-ce que le taux de criminalité

est plus élevé pour les municipalités les plus populeuses? Pour l’ensemble des municipalités,

quel est le pourcentage d'augmentation du taux de criminalité relatif aux drogues et aux

stupéfiants entre 1990 et 1999? Entre 1995 et 1999?

- En 1999, pour les jeunes, quel est le taux de perpétration relatif aux drogues et stupéfiants?

Quel est le taux pour chaque groupe d’âge? Pour chaque sexe pour ces groupes d’âge?

Inventaire de données

Parallèlement à l’étape de définition des analyses types, un inventaire de données a été réalisé. La portée

de cet inventaire a été limitée aux données, cartographiques et descriptives, potentiellement pertinentes à la

réalisation du prototype et aussi de la première version du futur système fonctionnel. L’inventaire a été

réalisé à l’aide d’une application fournie par le CRG qui consiste en une base de données Microsoft Access

permettant d’emmagasiner des métadonnées sur les collections de documents (ex. données DUC 2), les

classes d’objets (ex. victimes) se retrouvant dans ces documents, ainsi que les attributs de ces classes

Page 8: Définition des besoins pour une application d’analyse

d’objets (ex. âge de la victime) à l’aide de formulaires. L’inventaire de données est disponible sur le CD

fourni.

Modélisation multidimensionnelle

Les données à utiliser dans un système SOLAP doivent être structurées de façon multidimensionnelle.

Cette structure est basée sur les concepts suivants : dimension, mesure, fait et cube. Une dimension peut

être définie comme un axe ou un thème selon lequel les données seront analysées. Le temps, les infractions

et les lieux d'infraction sont des exemples de dimensions. Une dimension contient des membres organisés

en hiérarchie, chacun des membres appartenant à un niveau hiérarchique, c’est-à-dire présentant un niveau

de granularité particulier. La granularité est définie comme étant le niveau de détail des données

emmagasinées dans une base de données. Pour la dimension « temps », les années, les mois et les jours

sont des exemples de niveaux hiérarchiques et « 1998 » est un exemple de membre appartenant au niveau

« année ». Une mesure est un élément de donnée numérique sur lequel portent les analyses, en fonction des

différentes dimensions. Par exemple, le nombre d'infractions et le taux de criminalité sont des mesures

possibles. Un fait représente la valeur d’une mesure, mesurée ou calculée selon un membre de chacune des

dimensions. Par exemple, « le taux de criminalité pour les infractions relatives aux agressions sexuelles

ayant été perpétrées dans des lieux publics en 1995 est égal à 453,2 » est un fait qui exprime la valeur de la

mesure « taux de criminalité » pour le membre « agressions sexuelles » de la dimension « infractions », le

membre « lieu public » de la dimension « lieux d’infraction », et le membre « 1995 » de la dimension

« temps ». Finalement, un cube peut être défini comme un ensemble de mesures organisées par un

ensemble de dimensions. Un exemple serait un cube des données DUC 1 comprenant les dimensions

« temps », « infractions », « découpage administratif », « auteur présumé », « état de classement » et « type

de corps policier », ainsi que les mesures « nombre d’infractions », « taux de criminalité », « nombre

d’auteurs présumés », « taux de perpétration » et « population ».

Suite aux analyses effectuées sur les données et aux discussions avec les futurs utilisateurs du système, il

est suggéré de structurer les données selon deux cubes différents : un premier cube pour les données du

programme DUC 1 et un second pour les données du programme DUC 2. Cela permet de tenir compte des

différences significatives entre les deux jeux de données. Par exemple, la classification des infractions

diffère selon les programmes. De plus, les données provenant du programme DUC 2 permettent la création

d’un nombre plus élevé de dimensions. Lorsque l’analyse porte sur une période débutant en 1997 ou plus

tard, le cube des données DUC 1 ou le cube de données DUC 2 peuvent être utilisés. L’utilisateur peut

choisir le cube approprié pour des analyses couvrant cette période. Lorsque l’analyse porte sur une période

débutant avant 1997, le cube des données DUC 1 est utilisé. Ainsi, lorsque l’analyse requiert l’étude

d’évolutions de mesures, par exemple l’évolution du taux de criminalité, sur une période débutant avant

Page 9: Définition des besoins pour une application d’analyse

1997, les données du programme DUC 1 sont utilisées. Cela est conforme aux notes méthodologiques

présentées dans les documents statistiques produits par le MSP. La division des données en deux cubes

permet de s’assurer que l’usager a accès aux données les plus appropriées pour le type d’analyse qu’il

désire effectuer.

Le cube des données DUC 1 contient les dimensions suivantes :

- temps du rapport

- infraction

- découpage territorial

- auteur présumé

- état du classement

- type de corps policier

Les mesures définies pour ce cube sont :

- nombre d’infractions

- taux de criminalité

- nombre d’auteurs présumés

- taux de perpétration

- population

Le cube des données DUC 2 contient les dimensions suivantes :

- temps du rapport

- temps de début d’affaire

- temps de fin d’affaire

- infraction

- victime

- auteur présumé

- découpage territorial

- relation avec auteur présumé

- état du classement

- lieu

- nature des blessures

- arme la plus dangereuse

Page 10: Définition des besoins pour une application d’analyse

Les mesures incluses dans ce cube sont :

- nombre d’infractions

- taux de criminalité

- nombre d’auteurs présumés

- taux de perpétration

- nombre de victimes

- taux de victimisation

- population

Les détails des dimensions et mesures des cubes brièvement décrits ci-haut sont présentés à l’annexe 4.

Certaines des dimensions composant le cube des données DUC 2 ont été construites à partir du

regroupement d’autres dimensions élémentaires. C’est le cas, entre autres, de la dimension des infractions

qui classifie les infractions selon leur catégorie, mais qui contient aussi les informations concernant le

modus operandi, le type de biens volés et la valeur des biens. Les regroupements, en plus de diminuer le

nombre de dimensions à manipuler, permettent d’imposer certaines contraintes de navigation à l’utilisateur

et ce, à l’intérieur des bases de données, selon la structure des tables de dimensions. Par exemple, le

regroupement peut permettre de sélectionner un type de bien volé seulement dans le cas où l’infraction est

bien un vol. Ce type de contrainte est plus difficile à implanter à l’aide de dimensions élémentaires car la

programmation de procédures de vérification est alors nécessaire. Les différents regroupements utilisés

sont visibles dans le modèle multidimensionnel de l’annexe 4.

En plus des mesures déjà disponibles à l’intérieur de chacun des deux cubes, le prototype permet de créer

de nouvelles mesures, appelées mesures calculées, à partir des mesures existantes qui sont stockées à

l’intérieur des cubes. Différents taux et rapports de taux peuvent être calculés de cette façon. Les mesures

calculées ne sont cependant pas conservées dans le cube afin de maintenir l’intégrité des données.

Un schéma en étoile a été produit pour chacun des cubes. Un schéma en étoile est un modèle de données

multidimensionnel qui peut être utilisé pour représenter concrètement le contenu détaillé d’un cube. Un

schéma en étoile contient une table centrale, la table des faits, connectée à un certain nombre de tables

disposées de manière radiale, les tables de dimensions. La table des faits, comme son nom l’indique,

contient les faits (un fait a été défini plus haut). Les tables de dimensions contiennent les attributs de tous

les membres d’une dimension. Les schémas en étoile créés sont présentés à l’annexe 4. Ils sont aussi

disponibles sur le CD fourni.

La dimension de découpage administratif est la seule dimension spatiale du système. Elle permet

cependant plusieurs chemins de navigation : le découpage administratif, comprenant aussi les corps de

police ainsi que leur niveau de service, le découpage de recensement officiel, le découpage de recensement

Page 11: Définition des besoins pour une application d’analyse

utilisé au MSP (qui est parfois différent du découpage officiel) et enfin le découpage par strates de

population. Chacun des membres de la dimension de découpage territorial est associé à un élément

géométrique qui doit être emmagasiné dans une base de données externe. Les éléments géométriques sont

affichés sur la carte et une symbologie particulière leur est assignée lorsque des données descriptives leur

sont associées. Dans le contexte du prototype décrit ici, les données géométriques sont emmagasinées dans

la base de données du logiciel SoftMap.

Les dimensions « victime » et « auteur présumé » du cube DUC 2 doivent permettre, à l’aide d’une

fonction particulière de l’interface, de constituer des groupes d’âge variables selon les besoins immédiats

de l’analyse. Ces groupes d’âge variables, lorsque créés, sont ajoutés sous le membre « toutes divisions de

population » du niveau « division de population ».

En plus des données de criminalité, les cubes doivent aussi contenir les données de population pour le

calcul de différents taux. Les données démographiques à utiliser sont celles de Statistique Canada pour les

niveaux géographiques des régions administratives et des MRC. Pour les municipalités, les données de la

gazette officielle du Québec doivent être utilisées. Dans le contexte du prototype, puisque ces dernières

données n’étaient pas disponibles, les données démographiques des municipalités ont été estimées à l’aide

des données de Statistique Canada ainsi qu’avec la valeur de la population totale des municipalités. Pour

les autres niveaux géographiques, les données démographiques sont calculées à l’aide des données de

chacune des municipalités les composant.

Élaboration de l’interface et des fonctions du prototype

Par le biais de discussions avec les intervenants de la direction des affaires policières et de la prévention de

la criminalité (DAPPC), l’interface et les fonctions à inclure dans le prototype ont été définies. La figure 1

présente l’interface du prototype.

Page 12: Définition des besoins pour une application d’analyse

Figure 1. Interface du prototype développé pour l'analyse des données de criminalité.

Cette interface contient plusieurs zones : - La zone de contrôle située au haut de l’interface et contenant les différents menus et les différentes

barres d’outils.

- La zone de navigation située à droite de l’interface et permettant de sélectionner les différents membres de dimensions à visualiser ainsi que les différentes mesures. Cette zone permet aussi de sélectionner les couches à afficher en arrière-plan. Cette fenêtre peut être fermée pour laisser plus d’espace à la zone d’affichage.

- La zone d’affichage située à gauche de l’interface et permettant d’afficher les différentes représentations des données.

Zone de contrôle

Cette zone contient les menus suivants :

- Le menu Fichier permettant d’ouvrir et de fermer les connexions nécessaires à l’application, d’ouvrir un nouveau cube et de sauvegarder l’environnement de travail.

- Le menu Édition permettant d’effectuer des opérations de copier-coller (par exemple pour copier des éléments à l’intérieur d’un autre document).

- Le menu Affichage permettant d’afficher les différentes composantes de l’interface, entre autres la fenêtre de navigation lorsqu’elle a été fermée. Ce menu permet aussi d’afficher plusieurs représentations des résultats de l’analyse simultanément.

Page 13: Définition des besoins pour une application d’analyse

- Le menu Liste des fenêtres actives permettant d’avoir la liste des fenêtres qui sont présentement ouvertes.

La zone de contrôle contient aussi les barres d’outils suivantes :

- La barre d’outils de navigation cartographique (recentrer la carte, déplacer la carte, changements d’échelle (zoom avant et zoom arrière) et retour à l’échelle d’affichage minimale).

- La barre d’outils de sélection (sélection d’un élément par pointé, sélection d’un groupe d’éléments par un rectangle, sélection d’un groupe d’éléments par un cercle, sélection d’un groupe d’éléments par un polygone).

- La barre d’outils d’impression (impression d’un rapport pré-formaté et impression de l’écran).

- La barre d’outils de mesure (mesure de distance, mesure de superficie, mesure de rayon).

- La barre d’outils OLAP (remontage, forage, forage latéral et information OLAP (incluant l’information descriptive)).

- La barre d’outils de statistiques (calcul de somme, calcul de moyenne et calcul de médiane).

- La barre d’outils d’affichage (rafraîchir l’affichage, initialiser l’affichage, modification de la symbologie et affichage de la légende)

- La barre d’outils de modification des types de représentation (carte, histogramme, histogramme horizontal, diagramme circulaire, tableau et diagramme à lignes brisées).

- Bouton d’affichage des métadonnées (les métadonnées sont en fait des données sur les données, qui permettent d’en apprécier la qualité, la précision etc. Par exemple le nom du producteur et la date de dernière mise à jour sont des métadonnées). Les métadonnées utilisées dans le cadre du projet devront être structurées selon une norme approuvée à déterminer, par exemple celle de l’ISO.

L’information descriptive disponible, affichée lorsque le bouton d’information OLAP est utilisé, est la suivante :

- Pour les municipalités, les MRC et les régions administratives :

- Nom

- Population

- Superficie

- Nombre de kilomètres de routes

- Nombre d'écoles

- Nombre de bars

- Nombre de centres commerciaux

- % de population francophone

- % de population anglophone

- % de population parlant d’autres langues que le français ou l’anglais

- % de population saisonnière

- Richesse foncière

- Données de transit

Page 14: Définition des besoins pour une application d’analyse

- Pour les corps de police :

- Nom

- Niveau de service

- Population desservie

- Nombre d'agents

- Pour les régions métropolitaines de recensement et les agglomérations de recensement :

- Nom

- Population

Zone de navigation

La zone de navigation contient deux onglets principaux :

- L’onglet Thèmes permettant de sélectionner les membres des dimensions à visualiser ainsi que les mesures à analyser. Cet onglet comprend d’abord deux sections, la première permettant de sélectionner la période d’analyse et la seconde permettant de sélectionner les mesures à analyser. La sélection de la période d’analyse (temps du rapport) est la première opération à effectuer. Elle permet de sélectionner le cube (DUC 1 ou DUC 2) à utiliser. Une fois cette opération réalisée, les dimensions et les mesures contenues dans le cube sont activées, c’est-à-dire que l’arbre correspondant à la dimension ou aux mesures s’affiche dans la fenêtre prévue à cet effet et l’utilisateur peut alors effectuer des sélections.

Les dimensions sont regroupées en quatre onglets :

- L’onglet Personnes contenant les dimensions « victime », « auteur présumé », « relation avec auteur présumé » et « nature des blessures ».

- L’onglet Infraction contenant les dimensions « infractions », « lieu », « arme la plus dangereuse » et « état du classement ».

- L’onglet Temps contenant les dimensions « temps début affaire » et « temps fin affaire ».

- L’onglet Territoire contenant les dimensions « découpage territorial » et « type de corps policier ».

Dans cet onglet, au-dessus de la fenêtre permettant de sélectionner les mesures d’intérêt, un bouton

permet de créer de nouvelles mesures calculées.

- L’onglet Géographie permettant de sélectionner, parmi la liste des couches disponibles, les couches à afficher en arrière-plan. Ces couches peuvent servir de support visuel aux données résultant des analyses et peuvent aussi servir à la localisation détaillée de ces données. De plus, les couches affichées en arrière-plan peuvent contribuer à une meilleure compréhension de certains phénomènes mis en relief par les analyses.

Les couches disponibles pour affichage comprennent les fonds de carte fournis par Softmap ainsi que les

couches suivantes :

- Emplacement des bars

Page 15: Définition des besoins pour une application d’analyse

- Centroïdes de municipalités

- Corps de police (couverture polygonale)

- Emplacement des postes de police

- Établissements d’enseignement

- Régions administratives

- MRC

- Municipalités

- Unités de recensement (RMR et AR)

- Zones urbaines

Certaines de ces données sont actuellement disponibles au MSP :

- Les couches d’emplacement des bars et d’emplacement des postes de police sont disponibles à l’intérieur du prototype SoftMap que possède le MSP. Cependant, des données supplémentaires à jour seront à acquérir pour couvrir l’étendue temporelle du système.

- La couche des corps de police doit être construite à l’aide des données de desserte pour chacune des années couvertes par les données, ainsi qu’à l’aide de la couches des municipalités.

- La couche des unités de recensement doit être construite à l’aide des données sur les régions métropolitaines de recensement et sur les agglomérations de recensement (disponibles à l’Institut de la statistique du Québec) et de la couche de municipalités.

- La couche des centroïdes de municipalités est construite géométriquement à l’aide de la couche des municipalités.

- La couche des établissements d’enseignement doit provenir de la base nationale de données topographiques (BNDT) disponible auprès du Centre d’information topographique de Sherbrooke, de Géomatique Canada (BNDT 1:50000, entité bâtiment).

- Les couches des régions administratives, MRC et municipalités sont actuellement disponibles au MSP. Cependant, des données supplémentaires à jour seront à acquérir pour couvrir l’étendue temporelle du système.

- La couche des zones urbaines est à construire à partir des données tirées de la Base de données topographiques administratives (BDTA) ou de la Base de données géométriques et administratives (BDGA) que possède le MSP.

Zone d’affichage

Cette zone permet d’afficher une ou plusieurs représentations simultanées des résultats des analyses. Elle

sert aussi à afficher des indicateurs d'évolution de la criminalité sous forme de seuils et d’alertes, à

l’ouverture de l’application. Ces indicateurs visent à permettre à l’utilisateur d’avoir un aperçu rapide des

changements majeurs présents dans les données de l’année courante par rapport aux données de l’année

précédente, par exemple un taux de criminalité qui aurait augmenté ou diminué de façon significative pour

une certaine catégorie d’infractions. Des avertissements sur la qualité ou la fiabilité des données doivent

aussi s’afficher lorsque la situation le requiert. Ces avertissements doivent être tirés des limitations

Page 16: Définition des besoins pour une application d’analyse

d’analyse mentionnées dans les documents produits par le MSP. Ils doivent aussi porter sur le fait qu’une

donnée est obligatoire ou facultative car les résultats des analyses, dans le cas des données facultatives,

peuvent être non significatifs. Lorsqu’une donnée est facultative, le système doit indiquer le pourcentage

des dossiers dans lesquels cette donnée est présente.

Détermination des modes de représentation graphique et de la sémiologie

graphique

Toujours par le biais de discussions avec les intervenants de la DAPPC et selon les différentes expériences

effectuées, les modes de représentation graphique désirables pour chacun des types de données inclus dans

le prototype ont été déterminés. De même, la sémiologie appropriée a été définie.

Représentations graphiques

Les modes de représentation graphique utilisés sont les suivants :

- carte

- tableau

- histogramme

- histogramme horizontal

- diagramme circulaire

- diagramme à lignes brisées

L’utilisateur peut visualiser les données à l’aide de plusieurs modes de représentation graphique à la fois en

ouvrant des représentations supplémentaires via le menu Affichage.

La carte est le mode de représentation graphique par défaut lorsque les données du DUC 2 sont utilisées,

c’est-à-dire à l’ouverture du cube de données DUC 2. Le diagramme à lignes brisées est le mode de

représentation graphique par défaut lorsque les données du DUC 1 sont utilisées, c’est-à-dire à l’ouverture

du cube de données DUC 1. L’utilisateur peut changer de mode de représentation en tout temps en utilisant

le bouton approprié de l’interface.

Le taux de criminalité est la mesure visualisée par défaut à l’ouverture d’un cube, à moins qu’un cube n’ait

été ouvert à priori et que la mesure active de ce cube ne soit présente dans le nouveau cube ouvert. Il est à

noter que les mesures calculées ajoutées à un cube sont perdues à l’ouverture d’un autre cube car elles ne

Page 17: Définition des besoins pour une application d’analyse

sont pas emmagasinées dans le cube. Rappelons que l’ouverture d’un cube (DUC 1 ou DUC 2) est

effectuée lorsque l’utilisateur sélectionne sa période d’analyse dans la dimension « temps du rapport ».

Les règles de base qui régissent la création des représentations sont les suivantes :

- Pour l’affichage cartographique, les différents taux sont affichés en carte choroplète (polygones

colorés) par défaut et les différents nombres sont affichés sous la forme d’un nombre encadré par

défaut lorsqu’un seul membre de chacune des dimensions est sélectionné.

- Pour l’affichage cartographique, lorsque plusieurs membres d’une ou plusieurs dimensions sont

sélectionnés, l’affichage des mesures peut prendre différentes formes :

- L’utilisation de plusieurs cartes, par exemple une carte pour l’année 1998 et une

carte pour l’année 1999.

- L’utilisation de différentes variables visuelles, par exemple la couleur pour l’année

1998 et la texture pour l’année 1999.

- L’utilisation de diagrammes superposés aux éléments de la carte, par exemple un

histogramme contenant un bâtonnet pour l’année 1998 et un bâtonnet pour l’année

1999, superposés à chacun des polygones d’une carte des régions administratives.

- D’autres formes sont possibles. Dans le prototype, la première forme décrite ici a été

utilisée.

- Pour l’affichage cartographique, un cadrage automatique est effectué afin de mettre en évidence le

secteur analysé.

- Pour les graphiques à axes, la valeur des mesures représentées est placée sur l’axe vertical. La

valeur des membres des dimensions sélectionnés est placée sur l’axe horizontal. Plusieurs

mesures peuvent être représentées en utilisant ces graphiques.

- Pour les tableaux, les mesures sont placées en colonnes, tandis que les membres de dimensions

sont placés en rangées.

- Pour les diagrammes circulaires, la largeur d’un secteur circulaire est déterminée par la valeur

d’une mesure. Un secteur est présent pour chacune des combinaisons de membres de dimensions

à analyser. Il est possible d’afficher plusieurs mesures à l’intérieur de ce type de diagramme en

utilisant les différentes variables visuelles. Par exemple, une mesure pourrait servir à définir la

largeur des secteurs tandis qu’une autre pourrait servir à colorer les secteurs.

- Lorsqu’un histogramme est utilisé pour représenter les données de différentes unités

géographiques, un bâtonnet supplémentaire est utilisé pour représenter les données de l’entité

géographique parent. Par exemple, un diagramme montrant le taux de victimisation pour chacune

des régions présentera un bâtonnet pour le taux de victimisation de la province. L’affichage d’un

histogramme horizontal permet de faciliter la lecture des étiquettes.

- La classification des données utilisées pour les représentations utilise des classes d’intervalle fixe

par défaut. Le nombre de classes et leurs bornes sont modifiables en tout temps.

Page 18: Définition des besoins pour une application d’analyse

- Le nombre de classes par défaut varie avec le niveau géographique représenté. Une classe est

créée pour les taux qui égalent zéro pour bien les distinguer des autres taux.

- Le nombre de mesures représentées dépend du type de représentation utilisé afin de faciliter

l’interprétation des résultats.

Sémiologie graphique

La principale variable visuelle utilisée est la couleur. Par défaut, la classe contenant le taux provincial est

représentée en jaune. Les classes supérieures sont représentées dans les tons de rouge. Les classes

inférieures sont représentées dans les tons de vert. Les variables visuelles utilisées sont modifiables en tout

temps.

Il est possible et souhaitable de synchroniser la sémiologie utilisée d’une représentation à l’autre.

Réalisation du prototype

Les outils utilisés pour la réalisation du prototype sont :

- Microsoft SQL Server et Analysis Services

- SoftMap

- Microsoft Visual Basic

- Microsoft PowerPoint

- Paint Shop Pro

Les données servant aux analyses ont d’abord été emmagasinées dans SQL Server, selon les modèles en

étoile de l’annexe 4. Par la suite, dans Analysis Services, les dimensions ont été définies à l’aide du

modèle multidimensionnel de l’annexe 4 et des données emmagasinées dans SQL Server. Une fois toutes

les dimensions définies, des essais de cubes ont été réalisés. Les bases de données implantées (dans SQL

Server et Analysis Services) sont disponibles sur le CD fourni.

L’interface graphique a été réalisée à l’aide du langage de programmation Visual Basic. Cette interface

utilise les contrôles du logiciel de visualisation cartographique Softmap. Ce logiciel a servi à produire les

affichages cartographiques. Les affichages descriptifs (tableaux et diagrammes statistiques) ont été réalisés

à l'aide de Microsoft Excel (diagrammes statistiques) et de Microsoft Word (tableaux).

Page 19: Définition des besoins pour une application d’analyse

Les analyses à présenter dans le prototype ont été décomposées en sous-questions. Chacune de ces sous-

questions a été décomposée en étapes. Pour chacune de ces étapes, les représentations ont été produites.

Le montage final a été effectué à l’intérieur du logiciel Microsoft PowerPoint. Le logiciel Paint Shop Pro a

été utilisé pour la manipulation des images, par exemple les cartes, à intégrer dans l’interface. Des zones

de texte et des simulations de pointeurs ont été ajoutées pour former un tutoriel. La figure 2 présente une

image extraite du prototype.

Figure 2. Image tirée du prototype, présentant une carte du taux de victimisation par agression sexuelle, pour les jeunes, en 1999.

Des acétates textuels ont été ajoutés au début et à la fin afin de discuter certains points théoriques.

Le prototype contient les deux analyses types définies. Il est disponible sur le CD fourni.

Page 20: Définition des besoins pour une application d’analyse

Discussion de problématiques de développement du système fonctionnel

L’inventaire des données, l’analyse préliminaire et la réalisation du prototype ont permis de cerner

certaines problématiques qui se présenteront lors du développement du système fonctionnel. Ces

problématiques sont discutées ici.

Combinaisons de dimensions

Le nombre élevé de dimensions et le besoin d’ajouter des contraintes de navigation ont amené la

combinaison de certaines dimensions élémentaires. Ces combinaisons impliquent l’ajout de membres

permettant de ne sélectionner aucun membre particulier d’une dimension ayant été combinée. Par exemple,

pour la dimension des infractions, il est nécessaire d’ajouter un membre toutes infractions, afin de

sélectionner des données de modus operandi seulement. De plus, afin de lier les données de ces nouvelles

dimensions aux données provenant des bases de données DUC 1 et DUC 2, la création de nouveaux

identifiants, représentant la combinaison entre les identifiants originaux des dimensions élémentaires

combinées, est nécessaire.

Gestion des données temporelles

Plusieurs des données nécessaires au prototype et au futur système à développer varient en fonction du

temps. En effet, les unités de découpage territorial voient leur géométrie varier en fonction du temps. De

même, les corps policiers ont une desserte qui varie d’année en année et certains corps policiers en viennent

à disparaître complètement. Les données de population fluctuent aussi, de même que certaines

classifications de données, par exemple pour les infractions. Pour gérer efficacement cette existence et/ou

cette évolution, il est nécessaire d’utiliser une base de données temporelle. Par exemple, pour gérer

l’existence d’une entité, une date de début et une date de fin sont ajoutées dans la base de données. Pour

gérer l’évolution, une date est associée à chacun des changements d’état d’une entité. Cette gestion

temporelle nécessite la définition d’une résolution temporelle, c’est-à-dire la définition de la plus petite

unité de temps gérée par le système. Dans notre cas, pour les corps de police, la résolution temporelle

pourrait par exemple correspondre à l’année. Cette gestion temporelle doit s’appliquer autant aux données

descriptives qu’aux données géométriques et les requêtes faites aux bases de données lors de l’utilisation du

système doivent tenir compte de cette temporalité et l’utiliser afin de retrouver la donnée appropriée pour

une période donnée, quelle que soit l’architecture d’implantation choisie. Cette gestion temporelle

implique qu’une requête pour année quelconque est affichée sur un découpage correspondant à cette année

Page 21: Définition des besoins pour une application d’analyse

seulement. Pour l’instant, aucune fonction n’est prévue pour faire des correspondances entre des

découpages différents (par exemple des fonctions d’interpolation spatiale).

Validation des données

Comme les données proviennent de plusieurs sources, il est nécessaire de prévoir une étape de vérification

de la consistance des données et une étape de nettoyage afin de corriger ces inconsistances. Lors des

manipulations effectuées en vue du développement du prototype, par exemple, plusieurs inconsistances ont

été découvertes concernant le code géographique des municipalités.

CONCLUSION

Ce document a présenté les étapes de réalisation de la phase 1 du projet « Définition des besoins pour une

application d’analyse décisionnelle de type SOLAP pour la criminalité ». Cette phase consistait en la

réalisation d’un prototype visant à cerner les besoins des utilisateurs du futur système qui sera

potentiellement développé à la phase 2 du projet.

Certaines fonctions qui ne sont pas démontrées dans le prototype devront être incluses dans la première

version du système fonctionnel :

- Ajout des informations sur les subventions pour la prévention de la criminalité.

- Dans la dimension de découpage territorial, ajouter un chemin de forage alternatif permettant de

regrouper les municipalités selon les tables de concertation.

- Permettre de sauvegarder l’environnement de travail pour un utilisateur particulier. Cette

sauvegarde inclurait la sauvegarde des formules utilisées pour la construction des mesures

calculées.

- Sauvegarder la trace de toutes les manipulations effectuées sur les données dans un fichier

consultable à tout moment.

- Synchroniser la sémiologie des affichages simultanés.

- Comme fond de carte, utiliser une carte des régions administratives, avec comme étiquettes le nom

des capitales régionales.

- Ajouter une barre de titre à la fenêtre des représentations (même lorsqu’une seule représentation

est affichée), contenant le titre de la représentation.

- Pour les diagrammes statistiques, afficher la légende dans une fenêtre séparée, comme pour les

cartes.

Page 22: Définition des besoins pour une application d’analyse
Page 23: Définition des besoins pour une application d’analyse

Annexe 1

Plan de travail pour la phase 1 du projet

Page 24: Définition des besoins pour une application d’analyse

Définition des besoins pour une application d’analyse décisionnelle de type SOLAP pour la criminalité

Liste des tâches

Tâche Responsables Échéancier Date des rencontres

1. Définition de la portée du prototype

Marie-Josée Proulx Sonia Rivest

29 juin 2001

2. Définition d’analyses types (éventail d’analyses souhaitables) à intégrer au prototype

Marie-Josée Proulx Sonia Rivest

29 juin 2001

3. Inventaire des données (descriptives, temporelles et géométriques) nécessaires à la réalisation des analyses

Marie-Josée Proulx Sonia Rivest Louis-Étienne Guimond

29 juin 2001

4. Modélisation multidimensionnelle (avec dictionnaire) des données nécessaires aux analyses définies en 2 :

- définition des dimensions - définition des indicateurs et

des mesures - définition des cubes

Marie-Josée Proulx Sonia Rivest

6 juillet 2001

5. Élaboration de l’interface et des fonctions du prototype :

- interface générale - volet cartographique - volet descriptif - fonctions OLAP descriptives

et spatiales - fonctions de navigation

cartographique (pan, zoom, etc.)

- fonctions d’analyse spatiale - autres fonctions (ex. obtenir

de l’information descriptive sur les données, multifenêtrage, affichage en arrière-plan, etc.)

Marie-Josée Proulx Sonia Rivest Martin Nadeau Louis-Étienne Guimond

27 juillet 2001

6. Déterminer les modes de représentation cartographiques et descriptifs (diagrammes statistiques) et la sémiologie appropriés pour représenter les analyses

Marie-Josée Proulx Sonia Rivest Martin Nadeau Louis-Étienne Guimond

24 août 2001

7. Production des analyses types et montage du prototype

Martin Nadeau Louis-Étienne Guimond

28 septembre 2001

8. Préparation du rapport final Marie-Josée Proulx Sonia Rivest

28 septembre 2001

Page 25: Définition des besoins pour une application d’analyse

Annexe 2

Définition de la portée du prototype

Page 26: Définition des besoins pour une application d’analyse

Définition des besoins pour une application d’analyse décisionnelle de type SOLAP pour la criminalité

Définition de la portée du prototype

Contexte La Direction des affaires policières et de la prévention de la criminalité (DAPPC) effectue régulièrement des analyses statistiques sur les données de criminalité au Québec et publie annuellement des analyses. Présentement, ces analyses statistiques sont effectuées à partir des données recueillies par le programme DUC (Déclaration uniforme de criminalité), version agrégée (données mensuelles DUC 1 et version basée sur l’événement DUC 2) et sont présentées principalement sous forme de tableaux. Aucune représentation cartographique des résultats n’est produite. Lorsque des formes de représentation sont produites, elles demeurent statiques et ne permettent pas de manipuler l’information selon les besoins immédiats. Une nouvelle méthode d’analyse est donc nécessaire afin de permettre des analyses dynamiques adaptées aux besoins et aussi afin de pouvoir tirer parti de la richesse d’information, particulièrement l’information spatio-temporelle, contenue dans les bases de données (surtout du DUC 2). L’approche SOLAP est proposée. Cette approche combine les avantages de l’analyse multidimensionnelle interactive (OLAP) aux possibilités de visualisation et de manipulation de la composante spatiale des données cartographiques. L’approche SOLAP est bien adaptée aux analyses spatio-temporelles (impliquant l’espace et le temps). Elle permettra de rendre l’information sur la criminalité facilement et rapidement disponible à plusieurs usagers sans que ces derniers aient besoin de connaissances spécifiques en informatique. La première étape du développement du système SOLAP consiste en la réalisation d’un prototype, ici sous forme de maquette. But du prototype Le prototype développé dans le cadre de ce projet vise d’abord à faciliter la formulation des besoins spécifiques d’analyse décisionnelle du côté des futurs utilisateurs et à mieux comprendre ces besoins du côté des concepteurs. Ce processus a pour objectif de faciliter et d’accélérer l’analyse et la conception du système fonctionnel qui sera développé lors d’étapes subséquentes du projet. Le prototype facilitera aussi l’identification d’aspects plus critiques du futur système en faisant ressortir des problèmes et interrogations potentiels, entre autres au niveau de l’intégration, descriptive et spatiale, de données de différentes époques (et potentiellement de différents programmes de déclaration). Cela permettra de formuler des recommandations, des règles de fonctionnement et des orientations à tenir en compte lors de la conception du futur système et permettra aussi d’évaluer de façon plus précise les efforts de développement.

Page 27: Définition des besoins pour une application d’analyse

Le prototype permettra aussi de démontrer aux futurs utilisateurs et aux gestionnaires les avantages d’utilisation de cette méthode d’analyse qu’est le SOLAP par rapport aux méthodes actuellement en vigueur à la DAPPC. Portée du prototype Le prototype présentera une simulation de fonctionnement de système OLAP spatial pour un certain nombre d’analyses types. Parmi les données du programme DUC1 et DUC 2 qui seront complètement intégrées au système fonctionnel, un échantillon représentatif, couvrant les régions administratives de Montréal et de Québec pour les années 1990 à 1999, seront intégrées au prototype. Le prototype présentera une interface à l’utilisateur, des fonctions, des modes de représentation et une sémiologie graphique particulière. Le tout aura été élaboré conjointement par les utilisateurs et les concepteurs et reflétera l’interface, les fonctions, les modes de représentation et la sémiologie graphique du futur système. Les éléments du prototype (éléments d’interface, fonctions, modes de représentation et sémiologie graphique) seront expliqués en détails à l’intérieur du prototype même, le tout formant un tutoriel. Un volet éducatif comprendra une explication du contexte SOLAP et une vulgarisation du travail fait lors du développement du prototype. Limites Le prototype est une simulation de système seulement. Le prototype sera limité aux données nécessaires à la réalisation des analyses types ciblées.

Page 28: Définition des besoins pour une application d’analyse

Annexe 3

Définition d’analyses types et besoins en données

Page 29: Définition des besoins pour une application d’analyse

Définition des besoins pour une application d’analyse décisionnelle de type SOLAP pour la criminalité

Analyses sélectionnées pour être présentées dans le prototype

Analyse 1 : agressions sexuelles et jeunes En 1999, quel est le taux de victimisation relatif aux agressions sexuelles (code 1310+1320+1330+1340) pour les moins de 18 ans au Québec? Sur quels territoires retrouve-t-on les taux les plus élevés? Les plus faibles? Et, selon le sexe? Comment ces taux se comparent-t-il avec ceux de l’année précédente? En 1999, sur quels territoires retrouve-t-on les taux de victimisation relatifs aux agressions sexuelles des femmes les plus élevés par rapport à ceux des hommes pour les moins de 18 ans? À l'inverse, où retrouve-t-on les taux de victimisation relatifs aux agressions sexuelles des hommes les plus élevés par rapport à ceux des femmes? Sur quels territoires retrouve-t-on les plus fortes proportions de victimes de moins de 18 ans dont l'auteur présumé est un membre de la famille? De plus, sur quels territoires retrouve-t-on les plus fortes proportions de victimes agressées de 15 à 17 ans agressées par un auteur présumé ayant sensiblement le même âge qu'elles (+ ou - 3 ans)? Au Québec, en 1999, quelles ont été les différences entre les agressions sexuelles commises dans des endroits publics versus les endroits privés (relation avec l’auteur présumé, nature des blessures, arme utilisée, consommation)? Analyse 2 : drogues et stupéfiants et jeunes En 1999, la répartition entre les jeunes et les adultes auteurs présumés diffère-t-elle en fonction du type de drogue (cannabis, cocaïne, héroïne, …) ou du type d’infraction (possession, culture, importation, …)? En 1999, quel est le nombre d’infractions et le taux de criminalité relatifs aux drogues et aux stupéfiants, pour les différentes municipalités? Est-ce que la répartition des municipalités affichant un taux élevé montre un patron spatial particulier? Est-ce que le taux de criminalité est plus élevé pour les municipalités les plus populeuses? Pour l’ensemble des municipalités, quel est le pourcentage d'augmentation du taux de criminalité relatif aux drogues et aux stupéfiants entre 1990 et 1999? Entre 1995 et 1999? En 1999, pour les jeunes, quel est le taux de perpétration relatif aux drogues et stupéfiants? Quel est le taux pour chaque groupe d’âge? Pour chaque sexe pour ces groupes d’âge?

Page 30: Définition des besoins pour une application d’analyse

Annexe 4

Modèle multidimensionnel

Page 31: Définition des besoins pour une application d’analyse

Annexe 5

Compte-rendu des rencontres