Implementando el consumo de datos - Eduardo Poggi

Implementando el Consumo de DatosEduardo Poggi

Como contrapartida de la Publicación de Datos Públicos debe estar el Consumo de los mismos, más como fin que como consecuencia, ya que la publicación toma sentido cuando esta es consumida. Análogamente a la Publicación, el Consumo de datos presenta también un abanico de formas de realizarse y una serie de etapas que debieran cumplirse. En los últimos años se ha ido formando una disciplina denominada Data Driven Journalism o Periodismo de Datos que su evolución le está dando forma como disciplina al tratamiento de datos públicos. No se quiere decir con esto que solo el periodismo especializado deba consumir los datos públicos, sino que la forma que hoy por hoy se presenta como correcta a la hora de hacerlo es la que se va estableciendo bajo esta disciplina.

1 Data JournalismPresentamos a continuación las principales característica del Periodismo de Datos como disciplina asociada al consumo de datos públicos.

1.1 IntroducciónEl periodismo de datos es la explotación de datos en formatos más o menos estructurados para la elaboración de noticias o información. Se considera el trabajo pionero de esta especialidad es el de Adrian Holovaty y sus mapas de la delincuencia de Chicago que fue uno de los primeros mashups de Google Maps desarrollado. El periodismo de datos es una nueva forma de contar historias basadas en el tratamiento de datos públicos y en una efectiva visualización de los resultados obtenidos. Así como para el periodista tradicional el componente básico es el artículo que contiene una narración; en el periodismo de datos la narración verbal es secundaria, el relato central es construido en torno a los elementos gramaticales que pertenecen al léxico visual. Este es un uso que se suma a otras formas de periodismo de conceptualizar y visualizar la información.

Un ejemplo clásico en la agenda del Presidente Obama, desarrollado por el Washington Post que muestra la importancia de las cuestiones a abordar por el presidente durante sus viajes, como se ve en la siguiente imagen.

Imagen: ejemplo de visualización, agenda del presidente ObamaFuente: www.internetactu.net/2010/07/09/journaliste-de-donnees-data-as-storytelling/

Este es un claro ejemplo de procesamiento de datos públicos: la obtención de los datos de distintas fuentes, el procesamiento, la elaboración de la presentación visual y su publicación. De alguna manera, el consumo de datos públicos, sea hecho por periodistas o no, atraviesa estas etapas, pero con ciertos requisitos, como veremos más adelante.

Las tecnologías de la información digitalizada y la Web están cambiando fundamentalmente la forma de la información se publica. El periodismo de datos es una parte del ecosistema de herramientas y prácticas que han surgido alrededor de los sitios y servicios de datos. Aprovechando el relacionamiento de materiales de base que está en la naturaleza misma de la estructura de la Web con sus enlaces; de la misma forma en que estamos acostumbrados a navegar por la información hoy en día. Yendo más atrás, el principio que se encuentra en la base de la estructura de hipervínculos de la Web es el principio de la cita utilizada en trabajos académicos. Citando y compartiendo los materiales básicos y los datos detrás de la historia es una de las formas básicas en que el periodismo de datos puede mejorarse así mismo.

Permitir profundizar en las fuentes de datos y encontrar información relevante para verificar las afirmaciones y suposiciones recibidas, es un verdadero desafío. El periodismo de datos representa efectivamente la democratización masiva de recursos, herramientas, técnicas y metodologías que se utilizaron anteriormente por especialistas como científicos sociales, estadísticos, analistas y otros expertos. Mientras que en la actualidad nos estamos moviendo hacia un mundo en el que los datos se integran perfectamente en el tejido de los medios de comunicación. Los periodistas de datos tienen un papel importante para ayudar a reducir las barreras a la comprensión y el interrogatorio de los datos y el aumento de la alfabetización de los datos de sus lectores en una escala masiva.

El valor de una imagen que permita dar luz sobre un tema determinado se logra gracias al procesamiento de datos disponibles. La riqueza en general estará dada por:

La recopilación y el relacionamiento de diversas fuentes de datos no relacionados previamente.

http://www.internetactu.net/2010/07/09/journaliste-de-donnees-data-as-storytelling/

El procesamiento de los datos de una forma que permita sintetizarlos (deductivamente) o generalizarlos (inductivamente) y que de alguna manera explicite algo que antes no estaba explícito.

La visualización adecuada que permita que esta información “penetre” en el usuario de una manera física, sensorial y hasta irracional.

Estas tareas relacionadas al consumo de datos tienen ciertas consideraciones no triviales:

Difícilmente las pueda realizar una sola persona, dada la variedad de capacidades que requiere seguramente debe ser desarrollada por un equipo. Ciencias de la computación, Data Mining, Estadística, Diseño Gráfico y Visualización, Periodismo; son solo las principales especialidades profesionales necesarias para lograrlo.

Difícilmente se puede obviar alguna, el natural desarrollo requiere del aporte de cada una de las etapas para lograr un resultado interesante.

La secuencia no es lineal, las etapas propuestas no se encadenan secuencialmente uniendo el fin de una con el inicio de la otra. Se superponen, se cruzan y se reordenan hasta encontrar –o no- el camino correcto.

No son triviales ya que cada una requiere de cierta rigurosidad, como lo exigen los trabajos periodísticos o académicos serios.

Bajo el concepto de Data Journalism se ha ido estableciendo una metodología para este tipo de actividades. Un “manual” incipiente se ha publicado en Internet, cuya síntesis se muestra en la siguiente imagen.

Imagen: El Periodismo de datosFuente: www.datajournalismhandbook.org

Analicemos un poco más profundamente cada una de las etapas necesarias que hacen al consumo de datos públicos.

1.2 Obteniendo datosEn primer lugar se necesitan algunos datos, por lo tanto, en esta sección analizamos como se los puede y debe obtener. Nos enteramos en cómo encontrar los datos en la web, la forma en que se los puede solicitar mediante leyes de libertad de información, el uso de "screen scraping" para recopilar datos de fuentes no estructuradas y cómo usar el 'crowd-sourcing' para armar sus propias bases de datos a partir de aportes “comunitarios”. Es necesario además, tener en claro lo que diga la ley acerca a publicar datos y cómo utilizar las herramientas legales para que los demás los puedan reutilizar. Analicemos un poco más profundamente estos aspectos.

Podríamos considerar tres fuentes primarias de datos:

http://www.datajournalismhandbook.org/

Datos publicados específicamente por alguna administración u organización: estas son las entidades de datos propias de los procesos de Publicación de Datos generalmente accesibles en sitios específicos (Portales de Datos) o en sitios institucionales.

Datos obtenidos por solicitudes específicas: estos son datos entregados por una administración u organización a un solicitante por algún pedido específico que no son normalmente publicados.

Datos recuperados de fuentes no específicas: por ejemplo los obtenidos por procesamiento de otras fuentes o capturados de consultas a páginas Web (es decir, publicados para ser “leídos” por personas pero no para ser procesados).

Es muy posible que para alguna investigación en particular se utilicen fuentes de datos de diferente tipo, ya que el relacionamiento y procesamiento de diferentes fuentes es lo que normalmente le da gran valor a la información generada.

Portales de datos oficialesEn los últimos años ha aparecido una variedad de portales dedicados a la publicación de datos, normalmente es el mejor lugar para familiarizarse con los tipos de datos que existentes. Obviamente, estos datos están caracterizados por haber sido expresamente publicados por las administraciones u organizaciones que los gestionan.

Los portales de datos oficiales son la puerta de entrada al resultado de la disposición de los gobiernos de liberar un determinado conjunto de datos, que puede variar mucho de país a país o incluso en los niveles subnacionales dentro de un mismo país. Un número creciente de países están poniendo en marcha portales de datos (inspirado en data.gov de EEUU y data.gov.uk del Reino Unido) para promover la reutilización social y comercial de la información gubernamental. La situación de estos sitios se puede encontrar en datacatalogs.org.

También hay otros recursos impulsados por organizaciones civiles como thedatahub.org impulsado por la comunidad a cargo de la Open Knowledge Foundation que hace que sea fácil encontrar, compartir y reutilizar las fuentes disponibles de datos abiertos, especialmente en las formas aptas para un procesamiento directo.

Los organismos multinacionales como el Banco Mundial y las Naciones Unidas proporcionan indicadores de alto nivel sobre portales de datos de muchos países, a menudo con varios años de historia.

También surgen continuamente empresas u organizaciones que tienen por objeto la construcción de comunidades sobre el intercambio de datos. Puede visitarse, por ejemplo, buzzdata.com (un lugar para compartir y colaborar en las bases de datos públicas y privadas) o las tiendas de datos tales www.infochimps.com y datamarket.com. También puede visitarse codeforamerica.org, un lugar para subir, mejorar, compartir y visualizar sus datos.

getthedata.org es un sitio donde se pueden hacer preguntas sobre datos relacionados, incluyendo dónde encontrar los datos relativos a un tema en particular, cómo consultar o recuperar una fuente de datos en particular, qué herramientas utilizar para explorar un conjunto de datos de una manera visual, la forma de limpieza de datos o ponerlo en un formato que pueda trabajar con ellos.

Como toda disciplina en formación en esta década, el panorama cambia continuamente, surgiendo nuevas posibilidades y fuentes. La práctica y el ejercicio de la búsqueda permitirán ir encontrando las fuentes más adecuadas a los intereses de cada uno.

Solicitudes específicas de información Dependerá de las leyes específicas de cada estado, pero en los que exista normativa de publicación de datos, si usted cree que un órgano de gobierno tiene los datos que necesita, una solicitud de información invocando estos derechos puede ser una buena herramienta. No siempre los organismos “ocultan” datos intencionalmente, muchas veces no se prublican simplemente porque no está previsto que se haga. En primer lugar se debería comprobar si los datos que se están buscando no estén ya disponibles. Sería interesante además poder verificar cual es el soporte natural de los datos solicitados: documentos papel, digitalizaciones o datos procesables.

http://getthedata.org/

http://codeforamerica.org/

http://datamarket.com/

http://www.infochimps.com/

http://thedatahub.org/

Se debe verificar además si no existe una tarifa para la obtención de los datos solicitados, esto debería estar claramente estipulado. Si se hace la solicitud, deben considerarse demoras importantes en las respuestas.

Es importante conocer los derechos que se pueden ejercer antes de empezar, para saber a que atenerse y cuáles son los de los poderes públicos. Puede que ciertos datos estén protegidos por leyes especiales y, por lo tanto, las organizaciones están obligadas a no entregarlos. La mayoría de leyes de libertad de información proporcionan un límite de tiempo para las autoridades respondan. A nivel mundial, el rango en la mayoría de las leyes es de unos pocos días a un mes. Conocer el procedimiento que establece la ley de libertad de información es fundamental y en general es bueno hacer las solicitudes mencionando la norma que le da derecho a hacerlo.

Es muy importante presentar las solicitudes de forma específica y lo menos ambigua posible. Esto es especialmente importante si se está planeando comparar los datos de diferentes fuentes. Cada fuente deberá contener los datos “clave” que le permitan relacionarlos con los demás.

Hacer públicas las peticiones puede ser una buena forma de acelerar las respuestas. El conocimiento público de la petición puede ejercer presión sobre la institución pública para procesar y responder a la solicitud. Se debería entonces actualizar la información a medida que se obtiene una respuesta a la solicitud o, si el plazo pasa y no hay respuesta se puede hacer esto en una noticia así. Hacer esto tiene la ventaja adicional de educar a los miembros del público sobre el derecho de acceso a la información y cómo funciona en la práctica.

Si desea analizar, explorar o manipular los datos mediante una computadora, se deben pedir explícitamente que sean entregados datos en forma electrónica con formatos legibles por máquinas. También se puede solicitar de forma explícita para obtener información no agregada.

Obtener datos de la WebSi se han encontrado datos interesantes en el Web pero no hay opciones de descarga o copia disponibles pueden intentarse otros métodos de captura que normalmente requiere de ser utilizados por personas con perfiles específicos en informática.

Una fuente de datos es la propia Web por medio de instrumentos específicos provistos a tal fin (API: Application Programming Interface) como las interfaces proporcionadas por las bases de datos en línea y muchas otras aplicaciones Web modernas (como Twitter y Facebook entre otros). Esta es una manera fácil de acceder datos gubernamentales o comerciales, así como a los datos de sitios de medios sociales.

Extraer datos de los archivos PDF es un poco difícil ya que esta es una implementación para visualización e impresión y no retiene información sobre la estructura de los datos que se muestran en un documento. Algo semejante pasa cuando los datos son mostrados en modo gráfico, en formato .JPG por ejemplo. Los datos que se muestran en la Web que solo fueron pensados para ser visualizados tienen también las mismas características, se deben “raspar” (del inglés: (Web) Scraping) las páginas para ir recuperando y estructurando los datos y dejarlos de forma procesable. Si bien este método es muy potente y se puede utilizar en muchos lugares, se requiere de comprensión acerca de cómo trabaja la Web.

La meta para la mayoría de estos métodos es obtener acceso a datos legibles por una computadora, es decir, para el procesamiento por una máquina en lugar de la presentación a un usuario humano. Ejemplos de estructuras de datos que facilitan la lectura o el procesamiento por computadoras son CSV, XML, JSON o Excel. Mientras que los formatos, como documentos de Word, páginas HTML y archivos PDF están más preocupados con el diseño visual de la información.

Hay límites y restricciones a lo que se puede raspar o recuperar automáticamente de la Web, algunos de los factores que hacen más difícil para raspar un sitio, por ejemplo: códigos HTML con formato incorrecto, por ejemplo con poca o ninguna información estructural o sistemas de verificación para evitar que el acceso automático a las páginas como Códigos CAPTCHA y Paywalls.

Otra serie de limitaciones son las barreras legales. Algunos países reconocen los derechos de bases de datos, que pueden limitar su derecho a volver a utilizar la información que se ha

publicado en línea. A veces, puede optar por hacer caso omiso de la licencia y hacerlo de todos modos o tener derechos especiales como periodista, por ejemplo. Raspar los datos de libre disposición del Estado está bien, pero mejor verificarlo. Las organizaciones comerciales y organizaciones no gubernamentales pueden reaccionar con poca tolerancia y tratar de reclamar que se están "saboteando" sus sistemas.

scraperwiki.com es un sitio Web que te permite codificar raspadores en una serie de diferentes lenguajes de programación, incluyendo Python, Ruby y PHP. Si se quiere empezar con el raspado, sin la molestia de crear un entorno de programación en su coputadora, este es el camino a seguir.

Los derechos sobre los datosEs una obviedad, pero la obtención de datos nunca ha sido tan fácil como hoy en día. Ahora, hacer desde una computadora un pedido de envío de datos a otra puede ser suficiente para recibir una copia casi instantánea, mientras que el productor no han hecho gran cosa, incluso, puede no tener idea de que haya descargado una copia. Sin embargo, la disponibilidad de datos puede no ser suficiente para lo que queramos hacer con ellos.

Una entidad de datos puede estar sujeta a derechos de autor, igual que un trabajo creativo. En muchas jurisdicciones, montar una base de datos con el "sudor de la frente" basta para que este sujeta a derechos de autor. También existen "los derechos de base de datos" que las restringen independientemente de los derechos de autor.

Es evidente que tales restricciones no son la mejor manera de hacer crecer un ecosistema de datos impulsado por la publicación de datos. Como editor de una base de datos, se pueden eliminar las restricciones de la base de datos, esencialmente mediante la concesión de permisos. Se puede hacer esto mediante la liberación de la base de datos bajo una licencia pública o la dedicación de dominio público, al igual que muchos programadores liberan su código bajo una licencia de código abierto, por lo que otros puedan construir en su código.

La variedad de licencias de códigos y de datos parece infinita y excede el alcance de este texto. Lo que si es esencial es que antes de usar los datos se debe estar seguro de poder hacerlo y/o tomar los recaudos pertinentes.

1.3 Los datos cuentan historiasUna vez disponibles en un estado procesables las entidades de datos, se puede comenzar a trabajar con ellos. Se solía decir de la estadística que es la disciplina de “torturar” datos hasta que expresen algo interesante que parezca ser verdad. Hoy podría decirse lo mismo del procesamiento moderno de datos, solo que con muchas herramientas que complementan a la estadística.

Existen dos aproximaciones puras al procesamiento de datos.

El procesamiento tradicional de la informática, de la matemática en general y de la estadística en particular, caracterizado por una lógica deductiva: exacto, predecible, repetible y determinístico.

El procesamiento aproximado típico del Aprendizaje Automático1 basado en el uso de la inducción y la abducción como métodos de inferencia y caracterizado por ser no determinístico y aproximado; por lo tanto, sujeto a pruebas para validar los resultados.

El procesamiento tradicional aporta la capacidad de relacionar datos de distintas fuentes, de fíltralos, seleccionarlos y hacer cuentas sobre ellos. El procesamiento aproximado permite generar patrones, extraer reglas generales probables a partir de instancias específicas, detectar agrupamientos o similitudes o realizar analogías. Ambos grupos de herramientas son apropiados para el procesamiento de datos en búsqueda de “verdades” no evidentes a simple vista.

La utilización de estas herramientas estará muy relacionada a los datos en cuestión, es difícil dar una muestra general, pero lo fundamental es la disciplina con la cual este trabajo se debe realizar.

1 Como disciplina científica dentro de la Inteligencia Artificial dentro de Ciencias de la Computación, hoy sumamente utilizado dentro de lo que se conoce como Minería de Datos.

Así como las fuentes deben ser legítimas (no inventadas o adecuadas a nuestro gusto por ejemplo) el procesamiento también debe seguir las buenas prácticas en la materia y debe ser transparente y reproducible. De la misma manera que las investigaciones científicas son realizadas, siguiendo las prácticas establecidas por el “estado del arte” y con los recaudos adecuados y la documentación pertinente y transparente.

Cuando una investigación es realizada y se obtiene un resultado interesante, se deben poner en disponibilidad las “pruebas” que demuestran como se llegó de los datos fuente al resultado. De forma análoga que se exige a los organismos la publicación de sus datos con estándares de calidad y seguridad, el consumo de datos públicos debe ser hecho respetando las buenas prácticas de la disciplina.

La Gobernanza de Datos es una disciplina emergente con una definición de desarrollo, por más que su práctica (bajo otras denominaciones) es vieja como la informática. La disciplina representa una convergencia de: la calidad, la gestión y las políticas de datos; la gestión de procesos de negocio y; la gestión de riesgos que rodea el tratamiento de los datos de una organización. A través de la gobernanza de datos, las organizaciones buscan ejercer un control positivo sobre los procesos y métodos utilizados por los administradores y por los custodios de datos para manejarlos.

En resumen, se entiende por Gobernanza de Datos: al conjunto de procesos que asegura que los de datos que se administran cumplen con las garantías de calidad, actualización y seguridad adecuadas y por lo tanto son confiables para su uso, particularmente para la toma decisiones. Así como a las instituciones públicas se les solicita gestionar y custodiar sus datos con las buenas prácticas establecidas, a las personas u organizaciones que consumen los datos públicos también se les debe exigir que cumplan con los requisitos adecuados. De esta forma se trata de evitar el uso espurio, mal intencionado o no de los datos públicos, minimizando el riesgo de utilizar datos dañados o elaborar informes sin fundamento real.

1.4 La publicación de la historiaLa visualización de datos es una disciplina transversal que utiliza el enorme poder de comunicación de las imágenes para explicar de manera comprensible las relaciones de significado, causa y dependencia que se pueden encontrar entre las grandes masas abstractas de información que generan los procesos científicos y sociales. Actualmente, la visualización de datos se ha convertido en un área activa de investigación, enseñanza y desarrollo.

Podríamos decir que el objetivo principal de la visualización de datos es comunicar información de forma clara y eficaz a través de medios gráficos. Para transmitir ideas de manera efectiva, la estética y la funcionalidad van de la mano para proporcionar información generada a partir de datos de una manera intuitiva. La visualización de los datos está estrechamente relacionada con los gráficos de la información, la visualización de la información, la visualización científica y los gráficos estadísticos.

La cantidad de ejemplos de visualización es realmente enorme y es una de las disciplinas que más desarrollo ha generado en los últimos tiempos. Van solo dos ejemplos como muestra, ya que un estudio más detallado queda por fuera del alcance de este texto.

MySociety desarrolló hace años este

proyecto que ilustra perfectamente la utilidad de cruzar

datos urbanos con la localización física. La

herramienta Mapumental permite

visualizar el tiempo de transporte para llegar

a un punto de determinado desde cualquier lugar de la

ciudad, ayudando con ello a entender la

distancia temporal de movilidad, mucho más

útil y práctica que la distancia física.

Imagen: Distancias temporales para moverse en la ciudad.Fuente: www.ateneonaider.com

Una idea sencilla pero impactante

visualmente. La población de nueva

York durante el día y durante la noche,

reflejando la densidad de las diferentes

zonas.

Imagen: La ciudad cambiante: día y noche.Fuente: www.ateneonaider.com

2 Reflexiones Van a continuación algunas reflexiones no como conclusiones sino todo lo contrario, como iniciadores de nuevas reflexiones y generadores de intercambios:

La Publicación de Datos no es un fin en si mismo, es solo un paso necesario para el Consumo. Sin consumo no se logra la deseada transparencia.

El Consumo de Datos Públicos es parte del ejercicio democrático de los ciudadanos.

El Consumo de Datos Públicos exige de prácticas profesionales responsables.

La Publicación de Datos, más allá de su objetivo de transparencia, puede ser vista como Obra Pública con el consecuente impacto económico en la sociedad.

A pesar de requerir la intervención de diferentes perfiles específicos para llevar adelante las distintas etapas del consumo de datos públicos, el “rol del periodista” es el que le da ilación

http://www.ateneonaider.com/

http://www.ateneonaider.com/

y sentido al resto para que todo el proceso finalice en un producto interesante para el público objetivo.

3 BibliografíaConcha, Gastón y Naser, Alejandra (ed.) (2012): “El desafío del Gobierno Abierto en la hora de la

igualdad”. CEPAL, Santiago, marzo de 2012. http://www.eclac.org/cgi-bin/getProd.asp?xml=/publicaciones/xml/9/46119/P46119.xml&xsl=/ddpe/tpl/p9f.xsl&base=/socinfo/tpl/top-bottom.xsl

Data Journalism Handbook 1.0 Beta, datajournalismhandbook.org

Guillaud, Hubert (19/07/11): Les données pour comprendre le monde. www.internetactu.net/2011/07/19/les-donnees-pour-comprendre-le-monde/

Guillaud, Hubert (27/07/11): L’avenir de la réutilisation des données publiques. www.internetactu.net/2011/07/27/lavenir-de-la-reutilisation-des-donnees-publiques/

Guillaud, Hubert (9/07/11): Journaliste de données : data as storytelling. www.internetactu.net/2010/07/09/journaliste-de-donnees-data-as-storytelling/

Wikipedia, es.wikipedia.org

http://www.internetactu.net/2010/07/09/journaliste-de-donnees-data-as-storytelling/

http://www.internetactu.net/2011/07/27/lavenir-de-la-reutilisation-des-donnees-publiques/

http://www.internetactu.net/2011/07/19/les-donnees-pour-comprendre-le-monde/

http://datajournalismhandbook.org/

http://www.eclac.org/cgi-bin/getProd.asp?xml=/publicaciones/xml/9/46119/P46119.xml&xsl=/ddpe/tpl/p9f.xsl&base=/socinfo/tpl/top-bottom.xsl



Documents

Implementando el consumo de datos - Eduardo Poggi