50
RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin Data Management en épidémiologie Noémie LEVÊQUE-MORLAIS GRECAN - Centre François Baclesse – CAEN Lyan HOANG INSERM – U1018 – équipe 9 Institut Gustave Roussy - VILLEJUIF 18 mai 2011

RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

  • Upload
    floria

  • View
    22

  • Download
    0

Embed Size (px)

DESCRIPTION

RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin. Data Management en épidémiologie Noémie LEVÊQUE-MORLAIS GRECAN - Centre François Baclesse – CAEN Lyan HOANG INSERM – U1018 – équipe 9 Institut Gustave Roussy - VILLEJUIF 18 mai 2011. 1- Épidémiologie - PowerPoint PPT Presentation

Citation preview

Page 1: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

RENCONTRES DES 18 et 19 MAI 2011

ANGERS

Institut de Cancérologie de l'Ouest Paul Papin

Data Management en épidémiologie

Noémie LEVÊQUE-MORLAIS

GRECAN - Centre François Baclesse – CAEN

Lyan HOANG

INSERM – U1018 – équipe 9

Institut Gustave Roussy - VILLEJUIF

18 mai 2011

Page 2: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

1- Épidémiologie2- AGRICAN

Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats

3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)

4- Data ManagementVidéocodageProblématiques

SOMMAIRE

2

1- Épidémiologie2- AGRICAN

Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats

3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)

4- Data ManagementVidéocodageProblématiques

Page 3: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

1- Épidémiologie2- AGRICAN

Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats

3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)

4- Data ManagementVidéocodageProblématiques

SOMMAIRE

3

1- Épidémiologie2- AGRICAN

Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats

3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)

4- Data ManagementVidéocodageProblématiques

Page 4: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

1- Épidémiologie

4

DéfinitionL’épidémiologie est l'étude de la répartition et des déterminants des évènements de santé.

Les 3 branches de l’épidémiologieDESCRIPTIVE : étudier la fréquence et la répartition d'une pathologie dans une population.ETIOLOGIQUE : rechercher les déterminants de cette pathologie.EVALUATIVE : mesurer l'impact d'une politique de santé publique.

COMPRENDREÉp. étiologique

CONNAÎTREÉp. descriptive

EVALUERÉp. évaluative

PolitiqueSANTE PUBLIQUE

Hypothèses Propositions

Actions

Page 5: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

1- Épidémiologie : Étiologie

5

L’étiologieL’épidémiologie étiologique (ou analytique, ou explicative) permet rechercher une relation entre exposition(s) et pathologie(s).

Les enquêtesEnquête exposés / non exposés (cohorte) : comparaison de la survenue d’une pathologie dans le temps, dans des groupes de sujets, tous « sains » à T0, exposés ou non exposés à des facteurs de risque.Enquête Cas-Témoins : comparaison de la fréquence et de l’intensité de l’exposition entre des sujets malades et des sujets « sains ».

ObjectifL’identification des facteurs de risque permet la mise en place de politiques de santé publique.

Page 6: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

Étude des antécédents

Comparaison des antécédents

1- Épidémiologie : L’enquête de cohorte

6

Etude cas-témoin Cohorte

Essai randomisé

prospectiverétrospective

Etude transversale

Population T0 Exposition ?

État de santé?

Population T1 Exposition ?

État de santé?

Comparaison

Patients

Répartition au

hasard

Comparaison des issues

Suivi

Comparaison

des résultats

Étude des antécédents

Suivi

Groupetraité

Témoin

Suivi

Suivi

Fumeurs

Non fumeursTémoins

sans cancer

Patients avec

cancer

Conclusions

Page 7: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

1- Épidémiologie2- AGRICAN

Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats

3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)

4- Data ManagementVidéocodageProblématiques

SOMMAIRE

7

1- Épidémiologie2- AGRICAN

Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats

3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)

4- Data ManagementVidéocodageProblématiques

Page 8: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

1- Épidémiologie2- AGRICAN

Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats

3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)

4- Data ManagementVidéocodageProblématiques

SOMMAIRE

8

1- Épidémiologie2- AGRICAN

Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats

3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)

4- Data ManagementVidéocodageProblématiques

Page 9: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

2.1- AGRICAN - Milieu agricole : Contexte

9

La population agricoleEffets des expositions professionnelles agricoles peu renseignés France1 million actifs (5-7% des actifs) et 500000 exploitations en France Expositions spécifiques :

chimiques (pesticides, engrais, désinfectants…), physiques (ultraviolets, accidents mécaniques…),biologiques (virus animaux, moisissures…).

Les pesticidesLa France se situe au 4ème rang mondial avec une utilisation de près de 80.000 tonnes par an et au 1er rang européen. Quelques hypothèses liens pesticide et santé :

risques de cancers (hématologiques), troubles de la reproduction (infertilité, avortements, malformations) maladies neurologiques (maladie de Parkinson, troubles neurocomportementaux,…)

Page 10: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

Nom  EPIBIO

SujetMarqueurs d'endommagement de l'ADN associés à

l’utilisation de pesticides

Qui  Agriculteurs

Quoi Enquête de cohorte épidémio et biologique

Où Calvados

Quand Débuté en 1997-2000 + suivi en 2007-2010

Comment Interrogation en face à face + prélèvement urine/sang

Combien 800 inclus

2.1- AGRICAN - Milieu agricole : Études (1)

10

DM : - Outil de saisie (+double saisie) sur Access.

Page 11: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

Nom  EPI95

Sujet Facteurs de risque du cancer en milieu agricole

Qui  Agriculteurs actifs/retraités, salariés agricole actifs

Quoi Enquête de cohorte (préliminaire à AGRICAN)

Où Calvados

Quand Débuté en 1995 + suivi en 2010

CommentAuto-questionnaire courrier + au Suivi enquête par

téléphone pour les NRep

Combien 6000 inclus

2.1- AGRICAN - Milieu agricole : Études (2)

11

DM :- Croisement avec la MSA, le RNIPP, le CépiDC, puis les registres de Cancer- Formulaire de gestion des contacts (Suivi) sur Access- Nouveau modèle de vidéocodage à envisager

Page 12: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

Nom  AGRICAN

Sujet Facteurs de risque du cancer en milieu agricole

Qui Affiliés à la MSA (agriculteurs, salariés agricoles, tertiaire),

actifs/retraités

Quoi Enquête de cohorte

Où11 départements comprenant un registre du cancer

(21,25,33,38,44,50,67,68,80,81,85)

Quand Débuté en 2005 + 1er suivi prévu en 2012

Comment Auto-questionnaire courrier / 8 pages

Combien 570000 interrogés, 180000 inclus

2.1- AGRICAN - Milieu agricole : Études (3)

12

DM :- contrôles de cohérences (pour validation manuelle)- gestion du "Vidéocodage" - croisement avec la MSA, le RNIPP, le CépiDC, puis les registres de Cancer- calculs de mortalité et d'incidence à partir de ces croisements

Page 13: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

1- Épidémiologie2- AGRICAN

Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats

3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)

4- Data ManagementVidéocodageProblématiques

SOMMAIRE

13

1- Épidémiologie2- AGRICAN

Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats

3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)

4- Data ManagementVidéocodageProblématiques

Page 14: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

2.2- AGRICAN - Méthode : le questionnaire

14

Activités agricolesUtilisation des pesticides

Etat de santé

Habitudes de vie

Page 15: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

2.2- AGRICAN - Méthode : le questionnaire

15

Conception + Test

Dépouillement + Numérisation

+ Stockage

1er Env + Relance + N° vert

Contrôles logiciel & manuels

CohérenceRecodage (DM)Codage (Cim,

Pro)

Bulletin d’infoQuestionnaire

Réception

Envoi

Vidéocodage

Base de données

Compte rendu aux participants

Page 16: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

2.2- AGRICAN - Méthode : les données

16

Sources Données Fréq. - Début

Analyses

Quest. Individu (Nais, Fam, Form)Histoire professionnelle (élevage/culture, type de tâches, traitements)

Facteurs de confusion (tabac, alimentation, reproduction)

Tous les 5 ans - 2005

Description répondantsFacteurs de risque

MSA Adresses (Inclusion, Chgt)

Individu (Nais, Com)

Statut Vital, Actif/Retraité+ médicaments ?

Inclusion - 2005Annuel - 2009

Répondants / Non répondants

Mortalité (SMR)Cas-témoins nichée

RNIPP Individu (Nais, Com)

Statut VitalAnnuel - 2009

CépiDC Causes de décès

Registres

Diagnostic de cancer Annuel - 2012 Incidence Cancer (SIR)

Page 17: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

1- Épidémiologie2- AGRICAN

Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats

3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)

4- Data ManagementVidéocodageProblématiques

SOMMAIRE

17

1- Épidémiologie2- AGRICAN

Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats

3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)

4- Data ManagementVidéocodageProblématiques

Page 18: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

30% de réponse (182 000 personnes) - 5% attendus pour une enquête postaleLa participation est plus importante chez les moins de 75 ans, les femmes et dans le Doubs.

Tabac + faible qu’en pop généraleIMC + en surpoids que pop générale

18

Homme 54% Femme 46%

Âge 61 ans 65 ans

Vie maritale 78% mariés 63% mariées, 28% veuves

Activité 55% actifs, 60% Chef Exp

44% actives, 48% Chef Exp

Tabagisme 42% jamais, 12% actuel

76% jamais, 5% actuel

Santé perçue

64% bonne 55% bonne

IMC 16,2% obèses 14,7% obèses

2.3- AGRICAN – Les résultats – La cohorte

Page 19: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

19

Homme Femme

Toutes causes de DC -27%* -25%*

Tous cancers -27%* -19%*

Larynx, trachée, bronches, poumons

-50%* -40%*

Vessie -42% -40%

Œsophage -28%* +8%

Mélanomes malins de la peau +1% +6%

Estomac -2% +5%

Cancers du « Sang » -11% +2%

Sein +123% -25%*

2.3- AGRICAN – Les résultats – La mortalité

* différence significative entre Agrican et la population générale

Liés a

u

tabac

Tendance

excè

s

Page 20: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

1- Épidémiologie2- AGRICAN

Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats

3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)

4- Data ManagementVidéocodageProblématiques

SOMMAIRE

20

1- Épidémiologie2- AGRICAN

Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats

3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)

4- Data ManagementVidéocodageProblématiques

Page 21: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

1- Épidémiologie2- AGRICAN

Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats

3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)

4- Data ManagementVidéocodageProblématiques

SOMMAIRE

21

1- Épidémiologie2- AGRICAN

Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats

3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)

4- Data ManagementVidéocodageProblématiques

Page 22: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

Nom E3N : Etude Epidémiologique auprès de femmes de

l’Education Nationale

Sujet Etude des facteurs de risque de cancer chez la femme

Qui  Femmes adhérentes à la MGEN, nées entre 1925 et 1950

Quoi Cohorte prospective

Où France, partie française de l’EPIC

Quand Débuté en 1989

Comment Auto-questionnaire courrier

Combien 500000 femmes interrogées, 98 995 incluses

3.1- E3N – Constitution de la cohorte

22

Page 23: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

3.1- E3N – Constitution de la cohorte

23

Données prospectives sur état de santé, anthropométrie, Facteurs reproductifs et hormonaux, mode de vie, alimentation,

Page 24: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

L’étude pilote a commencé en 1989 : 2681 retours de questionnaires

En 1990, la MGEN a envoyé à environ 500 000 personnes nées entre 1925-1950

103 089 retours, saisie de l’étiquette pour constituer une base d’adresse.

Le fichier de 500 000 personnes est arrivé 18 mois après

3.1- E3N – Constitution de la cohorte

24

Page 25: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

Couple E3N-MGEN sur les critères : nom, prénom, nom de jeune fille, date de naissance, commune de naissance

>> gros problème de discordances entre les saisies de ces 2 bases

Les analyses ne peuvent commencer en 2000 qu’après les travaux de :

vérification des accords

vérification des dates de naissance concordantes entre les déclarations

Ainsi la cohorte fige sa population de 98995 personnes à suivre

3.1- E3N – Constitution de la cohorte

25

Page 26: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

1- Épidémiologie2- AGRICAN

Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats

3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)

4- Data ManagementVidéocodageProblématiques

SOMMAIRE

26

1- Épidémiologie2- AGRICAN

Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats

3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)

4- Data ManagementVidéocodageProblématiques

Page 27: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

3.2- E3N – Données

27

Auto-questionnaires tous les 2, 3 ans sur :État de santé, mode de vie …

Banque du matériel biologique :25000 prélèvements sanguin

50000 kits salives

Fichiers MGEN : Tous les médicaments prescrits, remboursés

Causes de DC

Compte-rendu anatomopathologiques de cancer

Mammographies du sein

Suivi de tous les contacts avec :Les participantes (questionnaires, mailings, documents médicaux…)

Les médecins (une base d’environ 35000)

Page 28: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

Volume important (≈ 10 caisses / jr)

Ouverture

Tri des questionnairesPetits motsÉtiquettes d’identification à enlever éventuellementRayés

Stylo optique pour pouvoir faire les relances au plus viteLes questionnaires prêts pour numériser

3.2.1- E3N – Questionnaires

28

Page 29: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

Données prospectives sur état de santé, anthropométrie,

Facteurs reproductifs et hormonaux, mode de vie, alimentation, …

Questionnaires spécifiques, comme les fractures, déclin cognitif, exposoleil …

3.2.1- E3N – Questionnaires

29

Page 30: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

3.2.2- E3N – Questionnaires - Facteurs hormonaux

30

Page 31: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

Structure des données – Gel des tables à analyserLes répertoires

Les dictionnaires des variables

3.2.2- E3N – Questionnaires

31

Page 32: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

Partie quantitative : 8 repas avec la fréquence de consommation de chaque d’aliment,

la quantité consommée à chaque repas…

Partie qualitative : type d’aliment,

mode de cuisson,

régime …

3.2.3- E3N – Questionnaires - Le Qr alimentaire

32

Page 33: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

Corrections de la 1ère partie du questionnaire : Transformation des lettres des photos en quantités, en prenant en compte les photos multiples, transformation des fréquences mensuelles en fréquences hebdomadaires, correction des arrondis et des valeurs aberrantes pour les quantités, création d’un compteur permettant de calculer le nombre d’aliments consommés pour chaque personne…

Corrections de la 2nde partie du questionnaire :Convertir la photo en quantité numérique, vérification des cohérences, internes aux blocs, convertir les tableaux qualitatifs en codes, uniformiser les déclarations, décisions pour les multicochages, décomposition des aliments 

Calcul des apports alimentairesQuantification des aliments consommés par repas et par jour, quantification des aliments consommés par jour (sans distinction des repas, classification des aliments consommés (groupes EPIC), calcul des apports en nutriments par jour et par femme

3.2.3- E3N – Questionnaires - Le Qr alimentaire

33

Page 34: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

3.2.3- E3N – Questionnaires - Le Qr alimentaire

34

Page 35: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

Fichiers trimestriels de la population de départ en 1990 : Coordonnées, statut vital

Consommations médicales : médicaments, hospitalisations, actes …

Médecins, établissements hospitaliers …

Les macro SAS sont traitées à chaque réception de ces fichiers (importants de taille)

Des macro SAS sont aussi créées pour extraire les données, par exemple : toutes les personnes qui ont consommé les médicaments traitant l’asthme (en croisant avec la base Thériaque)

3.2.4- E3N – MGEN

35

Page 36: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

Toutes les notions concernant le cancer sont ajoutées dans la base de K :

Auto-déclaration ( partie cancer, motifs d’hospitalisations, autres maladies)

Causes de décès

Par la famille

Dans les documents médicaux

3.2.5- E3N – Les cas de cancer

36

Page 37: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

Comptes rendus anatomopathologiques (CRA) à récupérer : Saisir les médecins fournis dans les questionnaires

Créer un couple femme-médecin

Mailing au médecin

3.2.5- E3N – Les cas de cancer

37

Page 38: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

3.2.5- E3N – Les cas de cancer

38

Codage des CRA reçus

Page 39: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

Tableau de bord pour connaitre chaque contact avec les participantes (ACCESS)

3.2.6- E3N – Suivi des contacts

39

Page 40: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

1- Épidémiologie2- AGRICAN

Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats

3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)

4- Data ManagementVidéocodageProblématiques

SOMMAIRE

40

1- Épidémiologie2- AGRICAN

Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats

3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)

4- Data ManagementVidéocodageProblématiques

Page 41: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

4.1- Vidéocodage

41

LAD : Lecture Automatique de DocumentsA partir de la numérisation et de la reconnaissance de caractères, elle permet de récupérer les informations de documents papiers sur des fichiers informatiques en limitant l’intervention humaine.C’est une Alternative à la saisie pour les grandes quantités de Qr et de variables.

Logiciel : B-Wize (=ICR) développé par EMC

Page 42: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

4.1- Vidéocodage

42

Préparation des documents

Numérisation Lecture OCR + contrôles

Validation manuelle

EnregistrementFichiers

Stockage

Page 43: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

4.1- Vidéocodage

43

Avant : Le modèleAncresChampsContrôles

Pendant : Le workflow (étapes de production) : Numérisation (10-20)Identification des pages et du code individu (30-40) Lecture des données par le logiciel (60)Si erreur envoi en validation manuelle (70)Transfert des données vers des fichiers (80)

Après : Les bases et les imagesTraitements sur les données exportéesConsultation des imagesAccès aux bases du logiciel

Page 44: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

4.1- Vidéocodage – Le modèle

44

Support du modèle

Propriétés de l’objet

Répertoire des objets

Explorateur

Barre d’outils

Vert = Champ

Jaune = Ancre

Page 45: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

4.1- Vidéocodage – La validation manuelle

45

Lecture directe de l’image

Lecture des données recueillies

Progression du lot

Bleu ciel = champ en cours de contrôle(Bleu = champ en attente de contrôle)

Vert = Champ validé

Zone de saisie du champ

Lecture du champ sur l’image

Commentaire

Page 46: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

Coût d’acquisition très élevéLecture automatique des documents, commence à délivrer un retour sur investissement intéressant au dessus de 500 doc/jour avec comme condition une densité élevée de données pour chaque doc.Scan : rythme de 800 questionnaires de 2 feuilles par heure (soit 3 semaines pour 84 000 questionnaires de 4 pages)Correction à l’écran des informations mal reconnues par l’automate (55 qst de 4 pages / heure, soit 10 personnes-mois)Documents consultables en ligne Consultation des questionnaires :

Évite de trier et ranger les questionnairesÉvite d’aller chercher les questionnaires papiersLibére la place de stockage des papiers

4.1- Vidéocodage – Avantages et inconvénients

46

Page 47: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

Avec l’évolution informatique : l’ancien ne peut plus être déployé sur de nouveaux environnements. Le changement de plateforme est en cours à E3N. Nous devons prendre 2 pro logiciels pour remplacer : InputAccel et Documentum. Avec la nouvelle plateforme :

Transfert de tous les anciens questionnairesnumérisation tous nos documents papiers : CRA de K de plus de 21 000 personnes (4 grands armoires), consentements …Nouveaux questionnaires de suivi (le premier sera fin de cette année)

4.1- Vidéocodage – Les perspectives

47

Page 48: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

1- Épidémiologie2- AGRICAN

Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats

3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)

4- Data ManagementVidéocodageProblématiques

SOMMAIRE

48

1- Épidémiologie2- AGRICAN

Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats

3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)

4- Data ManagementVidéocodageProblématiques

Page 49: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

4.2- Problématiques en Data Management

49

Suivi dans le tempsLa mise à jour non stop des donnéesVérification des déclarations à travers les questionnaires

Structure et organisation des données : Quelle donnée choisir parmi tant ?Quelle table de donnée utiliser dans une analyse ou une autre ?

Page 50: RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

4.2- Problématiques en Data Management

50

Choix de logiciels adaptés Formulaires de Saisie sur Access (+ qq requêtes) (?)Vidéocodage sur Bwize (?)Requêtes / contrôles / gestion des bases / calculs sur SAS

Sources externesCollecteCroisements des bases sans identifiant commun

Validation des donnéesIdentification des erreurs de remplissage des répondantsRecodages / contrôles de cohérenceSécurisation / pérennité / dynamisation des bases

Suivi des individusChangements adresse, décès, perdus de vue

Gestion de 180 000 individusSeulement 50% de questionnaires validés depuis 2008 : échn 10% pr analyseTemps de chargementStockage sur une base MySQL