20
François Briatte Collecte et visualisation de données législatives avec__

Collecte et visualisation de données législatives avecrug.mnhn.fr/semin-r/PDF/semin-R_donnees-legislative_FBriatte_100616.pdf1. Disponibilité des données non systématique …

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

François Briatte

Collecte et visualisation dedonnées législatives avec__

Données législatives

● Nature des données : amendements, lois, votes… et parlementaires

● Attributs des documents législatifs : date d’introduction, vote, mots-clés…

● Attributs des parlementaires : âge, sexe, groupe politique, carrière…

Angles d’analyse

● Unités de référence : chambres parlementaires, parlementaires individuels

● Mesures classiques : productivité, efficacité (probabilité d’adoption)…

● Mesures relationnelles : liens entre chambres et entre parlementaires

Thématique

1. Disponibilité des données non systématique

… avec plusieurs formats et/ou modalités de collecte selon les sources

● Sites Internet officiels des parlements

● Portails ‘open data’ (officiels ou pas)

2. Peu de littérature sur la collecte des données

… alors que les incitations à publier des données brutes augmentent

● dans les appels à financement

● dans les processus d’évaluation

Problème

Contraintes

1. Cadrage comparatif : collecte de données dans plusieurs chambres parlementaires, sur plusieurs pays

Échantillon : 33 pays européens

2. Méthode programmatique : aussi peu de récupération manuelle que possible, 100% sources publiques

Langage privilégié : R

● Interfaces avec C, Python, SQL, etc.

● Modélisation de données réseaux

Cadrage

1. Parlements nationaux● Chambres basses (assemblées) et hautes (sénats)

● Parlementaires nationaux ou fédérés

Ex. Suisse : Conseil national, Conseil des États

2. Propositions de loi● Contrainte légale en cas d’adoption

● Signatures nominatives individuelles

Ex. France : signatures de groupes parlementaires

Méthodes

1. Scraping1.1. Données sur les propositions de loi

1.2. Données sur les parlementaires

Note : dumps non automatisés – pas de mise à jour automatique des bases comme avec Python ou Ruby via Morph.io

2. Réseaux2.1. Extraction de variables standardisées

2.2. Construction et visualisation des réseaux

Note : standardisation limitée – certains attributs des parlementaires et/ou des propositions de loi sont difficilement comparables

github.com/briatte/parlnet

1. one submodule per country

— replication code

— network data

— codebook and notes

2. additional documentation

— network measures

— links to article preprints

— link to raw data dump

1. download raw HTML files

2. parse HTML and get variables

using CSSSelect or XPath

to back them up later

3. save to intermediary CSV file

to save time on re-run

Réseaux

● Assemblage● base::expand.grid # créer les liens

● base::aggregate # pondérer les liens

● network::network # résultat : objet de classe network

● Attributs● sna::degree # centralité

● tnet::degree_w # centralité pondérée

● igraph::modularity # modularité

1. buid directed edge list

2. compute edge weights

(see paper appendix)

(possibly redundant)

3. verify edge weights

(non-redundant)

Visualisation

● Statique● Syntaxes idiosyncrasiques : igraph, network, sna

● Syntaxes ggplot2 : geomnet, ggraph, ggnet, ggnetwork

# voir github.com/sctyner/ggnet-paper

● Interactive● Avec R + d3.js : networkD3, ndtv

● Avec Gephi : format GEXF # exportable avec rgexf

● Avec JavaScript + PHP : Sigma # lit le GEXF

visualisation

Résumé

HTML, JSON, SQL, XML

httr, jsonlite,rvest, XML

HTML (raw)CSV (processed)

dplyr, igraph, network, sna

network (objects)d3Network, ggplot2, ggnetwork, rgexf

GEXF (Gephi)JavaScript, PHP,

HTML/CSS

scraping

réseaux

‘dataviz’

goo.gl/E96b9M

phnk

Merci pour votre attention