19
Perspectives d’analyse de données Pascal Vincent et Marc-Élie Lapointe

Perspectives d’analyse de donnéesrali.iro.umontreal.ca/.../Vincent-AnalyseDonnees.pdf · Perspectives d’analyse de données Pascal Vincent et Marc-Élie Lapointe. Qui est-ce

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Perspectives d’analyse de donnéesrali.iro.umontreal.ca/.../Vincent-AnalyseDonnees.pdf · Perspectives d’analyse de données Pascal Vincent et Marc-Élie Lapointe. Qui est-ce

Perspectives d’analyse de données

Pascal Vincent et Marc-Élie Lapointe

Page 2: Perspectives d’analyse de donnéesrali.iro.umontreal.ca/.../Vincent-AnalyseDonnees.pdf · Perspectives d’analyse de données Pascal Vincent et Marc-Élie Lapointe. Qui est-ce

Qui est-ce ?

Où ?

Publications

Projets en cours

Partenariats industriels

Cours

Bancs d’essais

Séminaires

Autres sites

! Page d'accueil !

Faculté des arts et des sciences -Secteur des sciences

Département d'informatique et de recherche opérationnelle

Fr En

Chercheurs du LISA

Professeurs

Yoshua BENGIO Douglas ECK Pascal VINCENT

Chercheur sénior

Aaron Courville

Assistants de Recherche

Laboratoire d’Informatique des Systèmes Adaptatifs

Apprentissage Statistique (Machine Learning)

Data-mining (analyse de grands ensembles de données)

Réseaux de neurones artificiels

Notre expertise:

Pascal Vincent

Laboratoire d’Informatique des Systèmes d’Apprentissage

Page 3: Perspectives d’analyse de donnéesrali.iro.umontreal.ca/.../Vincent-AnalyseDonnees.pdf · Perspectives d’analyse de données Pascal Vincent et Marc-Élie Lapointe. Qui est-ce

! !

!"#$$%&'()**#+&,*(#()*()-.&

! /$$%&'0%&,.'&,!"#$%&"#,&11&2(.#'(,0&*,!"#$%&'%()*

! 3',*&,4#*#'(,*.%,.',+%#'0,&'*&546&,$+,-,.!/,*,74#*&,0&,08''9&*:

! ;#$#46&,0&,0#)#"1/%*,",<,0&,'8.=&#.>,2#*,7$#*,=.*,0#'*,6&*,08''9&*:

!"#$%!&$%!'#()*'

Page 4: Perspectives d’analyse de donnéesrali.iro.umontreal.ca/.../Vincent-AnalyseDonnees.pdf · Perspectives d’analyse de données Pascal Vincent et Marc-Élie Lapointe. Qui est-ce

Projet avec Environnement Canada:

D’où nous sommes partis

• Données météocode

• Format XML

Page 5: Perspectives d’analyse de donnéesrali.iro.umontreal.ca/.../Vincent-AnalyseDonnees.pdf · Perspectives d’analyse de données Pascal Vincent et Marc-Élie Lapointe. Qui est-ce

Données mises à notre disposition sur le site d’Environnement Canada.

http://dd.weatheroffice.ec.gc.ca/meteocode/

Page 6: Perspectives d’analyse de donnéesrali.iro.umontreal.ca/.../Vincent-AnalyseDonnees.pdf · Perspectives d’analyse de données Pascal Vincent et Marc-Élie Lapointe. Qui est-ce

Données mises à notre disposition sur le site d’Environnement Canada.

http://dd.weatheroffice.ec.gc.ca/meteocode/

Page 7: Perspectives d’analyse de donnéesrali.iro.umontreal.ca/.../Vincent-AnalyseDonnees.pdf · Perspectives d’analyse de données Pascal Vincent et Marc-Élie Lapointe. Qui est-ce

Données mises à notre disposition sur le site d’Environnement Canada.

http://dd.weatheroffice.ec.gc.ca/meteocode/

Page 8: Perspectives d’analyse de donnéesrali.iro.umontreal.ca/.../Vincent-AnalyseDonnees.pdf · Perspectives d’analyse de données Pascal Vincent et Marc-Élie Lapointe. Qui est-ce

Fichie

r mété

ocode

au form

at XML

Page 9: Perspectives d’analyse de donnéesrali.iro.umontreal.ca/.../Vincent-AnalyseDonnees.pdf · Perspectives d’analyse de données Pascal Vincent et Marc-Élie Lapointe. Qui est-ce

Ce que nous avons appris

• Météocode: l’arbre qui cache la forêt...

• Quantité et variété de sources de données impressionnante à gérer!

Page 10: Perspectives d’analyse de donnéesrali.iro.umontreal.ca/.../Vincent-AnalyseDonnees.pdf · Perspectives d’analyse de données Pascal Vincent et Marc-Élie Lapointe. Qui est-ce

Guy Lapalme, Philippe Langlais, Pascal Vincent 3

Figure 1: Simplified information flow at Environment Canada.

The modules and outputs to be developed in this proposal are shown in blue in the two Project boxes.

Projects to be developed in this proposition

1: Selective and customized information display

EC produces vast amounts of information in the form of ZZZMb of Meteocodes every 6? hours. In

principle it would thus be possible to give much more focused forecasts in both time and space that EC

can currently give in the few words found in the regional weather bulletins. EC has already developed a

text generator to produce the daily information about each region of Canada in both French and English.

But this information is not as detailed as it could be because the aggregation process necessary to limit

the number of different bulletins. This aggregation results in precipitation probabilities and wider range

in temperatures. From the information in the meteocodes, it would be possible to generate a more

accurate weather information bulletin for a given address or postal code. But currently it would be

impractical to generate in advance (in both French and English) all these bulletins the great majority of

them that would never be read. Even more, the regional weather information must also be made

available in different output modes: graphical, web, on weather radio and automated answering

machines. One goal of our project is to study the development of innovative approaches for conveying

relevant meteorological information based on geographical and time-dependent aggregation.

As the meteocodes are already in XML format validated with a DTD, we can be confident that the input

will be easily parsable. We will thus focus on determining the most appropriate way of presenting the

data in the most meaningful way depending on the type of output device.

Sché

ma résum

é

de Guy

Lapalme

Page 11: Perspectives d’analyse de donnéesrali.iro.umontreal.ca/.../Vincent-AnalyseDonnees.pdf · Perspectives d’analyse de données Pascal Vincent et Marc-Élie Lapointe. Qui est-ce

! !

!"#$%&'&()*%$+$&,'-.,%$/.$0'*'1' !"#$%&'())*+,#-+#-.))*+,

Page 12: Perspectives d’analyse de donnéesrali.iro.umontreal.ca/.../Vincent-AnalyseDonnees.pdf · Perspectives d’analyse de données Pascal Vincent et Marc-Élie Lapointe. Qui est-ce

! !

!"#$%&'()*"#+"#,&%%",-.&/0

!"##$%&'()*+,*"##$&1%#("2#2-3-.&/245&/"2673.'("#%82&(1-.&/9

:%8+.,-.&/#+"#*&./2#'&//"#;13(.-8#<#-./,$%'(0"1/,*"#

!"##$%&'()*+,*"#%2%-./,$%'(0"1/,*"#

/&=,32-*"-"&,&+" >?@A

Sources de données

• Plusieurs modèles de prédiction (48h, ...)

• GRIB, nowcast, meteocode: formats différents

Page 13: Perspectives d’analyse de donnéesrali.iro.umontreal.ca/.../Vincent-AnalyseDonnees.pdf · Perspectives d’analyse de données Pascal Vincent et Marc-Élie Lapointe. Qui est-ce

Ce que nous avons appris (suite)

• Stockage de ces données dans base de donnée SQL: sans espoir!

• Développement d’un stockage et accès efficace (en temps et espace). Fait.

! !

!"##$%&'()*+',-$&%#.%/%#.'&."01$%&2

!"##$%$&$'()*+),"-%$.+/)*+01)*+#)'/"$#2)344/+.*/+)5)6$.'+/4"&+/7)&+#),"//+,'$".#)*+#)+14+/'#8)"0)&+#)"%#+/93'$".#8)#0/)&3):/$&&+);30'+)/(#"&0'$".<

=$>>(/+.'#)3&:"/$';-+#)*?344/+.'$##3:+)+.9$#3:+3%&+)@4/",+##0#)A30##$+.#8)/(#+301)*+).+0/".+#8)+',<<<B)

C+,;+/,;+D

3$.$"0"(%2',-$(40.4"#&'(%'.-5&'678.%'987:4.$';0"--4<$%&'=':7'/74#',7-'/$.$"-":"<8%>'='?74@:%'-$&":8.4"#';A"#%'0"(%>B

CDEF2',-$(40.4"#&'@-8.%&'(8'/"(5:%'='.-5&'678.%'-$&":8.4"#B

G"H07&.2'"@&%-I7.4"#&'J'@"##%&',-$(40.4"#&'0"8-.'.%-/%'='/"K%##%'-$&":8.4"#';&.7.4"#&'/$.$"-":"<498%&>

Page 14: Perspectives d’analyse de donnéesrali.iro.umontreal.ca/.../Vincent-AnalyseDonnees.pdf · Perspectives d’analyse de données Pascal Vincent et Marc-Élie Lapointe. Qui est-ce

! !

!"#$%&"#'()&'#)*+,,-'#).("/0)1'2'+3+*')'2),+43%#2)5+$()*"66-(',2'#)7+,'#)'28+$)#2%2"+,#)%",#")9$')*'#)*+,,-'#).("/)5%(2+$2

Page 15: Perspectives d’analyse de donnéesrali.iro.umontreal.ca/.../Vincent-AnalyseDonnees.pdf · Perspectives d’analyse de données Pascal Vincent et Marc-Élie Lapointe. Qui est-ce

! !

Page 16: Perspectives d’analyse de donnéesrali.iro.umontreal.ca/.../Vincent-AnalyseDonnees.pdf · Perspectives d’analyse de données Pascal Vincent et Marc-Élie Lapointe. Qui est-ce

Ce que nous avons appris (flot de traitement)

• Prévisions brutes d’un modèle «numérique»(➪ fichiers GRIB)

• Modèles de correction statistique (➪ UMOS Updatable Model Output Statistics)

• Corrections des météorologues (➪ Météocode XML)

• Comparaison aux observations des stations(➪ Nowcast?)

• Qui prédit mieux? Métriques de comparaison?

Page 17: Perspectives d’analyse de donnéesrali.iro.umontreal.ca/.../Vincent-AnalyseDonnees.pdf · Perspectives d’analyse de données Pascal Vincent et Marc-Élie Lapointe. Qui est-ce

Perspectives

• Où mon expertise serait la plus pertinente:

• Modèles de correction statistique (UMOS Updatable Model Output Statistics)

• Quels modèles? Données spécifiques utilisées pour entraîner ces modèles? Quelles métriques?

• Prise en compte des corrections des météorologues: se concentrer là où leur expertise est la plus utile.

Page 18: Perspectives d’analyse de donnéesrali.iro.umontreal.ca/.../Vincent-AnalyseDonnees.pdf · Perspectives d’analyse de données Pascal Vincent et Marc-Élie Lapointe. Qui est-ce

! !

!!"#$%&'()*+,)+-%."/0&1%+$0*%*(.2&1%3,*4%*#$%#)1%5$,6+(")%/1*%()5"$.,+(")*%/(*2")(3&1*

!!"##$%$&$'()*+),"*-&+#)%+./0"/1)1&/#)0",1&+2+#333

45+6$7777

+1.2*

*+,+(")*

6,$,

6 +4$(* +

(8#1*

!!&/#$+/7#%6,$,6+4$(*+(8#1*!!&/#$+/7#%*+,+(")*

!!&/#$+/7#%.".1)+*%+1.2"$1&*

9+#/1%/1%&8(5"&/'$"6%/1*0.7.0'(7$#'$9/+#%1+%/1*%0"77+0'$"6#.11"7'(+#),#%6"#$*%/#%+1.2*7

Page 19: Perspectives d’analyse de donnéesrali.iro.umontreal.ca/.../Vincent-AnalyseDonnees.pdf · Perspectives d’analyse de données Pascal Vincent et Marc-Élie Lapointe. Qui est-ce

Questions?

À suivre....

• Rencontrer (au CMC?) un spécailiste du UMOS

• Trouver un nouvel étudiant pour reprendre le flambeau....