Surfeando en los servidores de datos con \(pxR\)

Francisco Viciana

francisco.viciana [+] g m a i l.com

Table of Contents

1 Precisando contenido

1.1 De la epoca del Pencil-Data al Big-Data

Epoca del Pencil-Data
El 99% del esfuerzo del Análisis de datos correspondía a la recopilación y grabación de los datos y el 1% para el análisis en si
Epoca del Big-Data
El 99% del esfuerzo corresponde a la edición y manipulación de los datos hasta construir los dirty data analizables y el 1% es para el análisis en si

1.2 Y los gigantes Servidores Estadísticos

1.3 Y los "ladrillos" de la difusión estadística?

  • Publicaciones papel de tablas estadísticas
  • Reproducciones de las tablas en papel sobre ficheros informáticos: pdf, xls..
  • Ficheros planos de datos con fichero de metadatos auxiliares (codebook): FWF, CSV …
  • Ficheros con metadatos incorporados:

1.3.1 Que son los ficheros \(px\)

  1. Los ficheros px son contenedores de cifras estadísticos que se organizan en forma de hipercubos multidimensionales que almacenan en el mismo fichero de texto plano, los metadados (variables, categorías y descripciones) que permiten su interpretación. Vease este ejemplo
  2. Sus especificaciones en están documentadas por su creadores: Statistics Sweden
  3. Muchos servidores de estadísticas usan fundamentalmente este formato de ficheros para la difusión de sus estadísticas como Statistics Sweden o el INE de España

1.3.2 Como se manejan los ficheros \(px\)

  • Se maneja con pc-axis, un software solo disponible en windows, gratuito pero no libre. Existen pocas alternativas para manejar estos ficheros sin pc-axis, algunos de ellas:
    • Un script-matlab para su lectura
    • Un script-perl para su lectura
    • Un par de funciones "pcAxisCube" dentro del r-paquete: qmrparser
    • Un r-paquete: pxR especifico para leer, administrar y escribir este tipo de ficheros

1.3.3 Ejemplo mínimo: para entender pxR

2 Ejemplos de uso: pxR en descarga y preparación de datos

2.1 El proceso de captura, edición y preparación de los datos

Captura y editar datos consume gran parte de los recursos de todo proceso de análisis de datos. Podemos distinguir dos estrategias extremas para abordar la cuestión

Estrategia clásica basada en los datos
reproduce la metodología empleada en la época del Pencil-Data: se va recuperando una a una las distinta cifras que se precisan de las diferente fuente (paginas web) y con recorta-y-pega se van sucesivamente rellenando multiples hojas de calculo.
Estrategia basada en los tratamiento
Se parte de la catalogación e identificación precisa de las fuentes crudas que se precisan (idealmente URL). Se definen los procesos (en forma de script) que permitirán transformar las fuentes crudas y unos datos limpios (dirty data) analizables.

2.2 Con una solo enlace: Mortalidad por secciones censales

2.3 Combinando múltiples enlaces:

3 Para terminar

3.1 ¿Te estas iniciando en el universo R?

.. y te interesa un curso presencial introductorio, tienes una oportunidas cercana si vives en Sevilla:

Realizado por Fran Viciana