Surfeando en los servidores de datos con \(pxR\)

Francisco Viciana

francisco.viciana [+] g m a i l.com

Precisando contenido
Ejemplos de uso: pxR en descarga y preparación de datos
Para terminar

1 Precisando contenido

1.1 De la epoca del Pencil-Data al Big-Data

Epoca del Pencil-Data: El 99% del esfuerzo del Análisis de datos correspondía a la recopilación y grabación de los datos y el 1% para el análisis en si
Epoca del Big-Data: El 99% del esfuerzo corresponde a la edición y manipulación de los datos hasta construir los dirty data analizables y el 1% es para el análisis en si

1.2 Y los gigantes Servidores Estadísticos

1.3 Y los "ladrillos" de la difusión estadística?

Publicaciones papel de tablas estadísticas
Reproducciones de las tablas en papel sobre ficheros informáticos: pdf, xls..
Ficheros planos de datos con fichero de metadatos auxiliares (codebook): FWF, CSV …
Ficheros con metadatos incorporados:

1.3.1 Que son los ficheros \(px\)

Los ficheros px son contenedores de cifras estadísticos que se organizan en forma de hipercubos multidimensionales que almacenan en el mismo fichero de texto plano, los metadados (variables, categorías y descripciones) que permiten su interpretación. Vease este ejemplo
Sus especificaciones en están documentadas por su creadores: Statistics Sweden
Muchos servidores de estadísticas usan fundamentalmente este formato de ficheros para la difusión de sus estadísticas como Statistics Sweden o el INE de España

1.3.2 Como se manejan los ficheros \(px\)

Se maneja con pc-axis, un software solo disponible en windows, gratuito pero no libre. Existen pocas alternativas para manejar estos ficheros sin pc-axis, algunos de ellas:
- Un script-matlab para su lectura
- Un script-perl para su lectura
- Un par de funciones "pcAxisCube" dentro del r-paquete: qmrparser
- Un r-paquete: pxR especifico para leer, administrar y escribir este tipo de ficheros

1.3.3 Ejemplo mínimo: para entender pxR

Problema: manejar el fichero ejemplo.px
Leerlo y transformarlo en objetos de R

2 Ejemplos de uso: pxR en descarga y preparación de datos

2.1 El proceso de captura, edición y preparación de los datos

Captura y editar datos consume gran parte de los recursos de todo proceso de análisis de datos. Podemos distinguir dos estrategias extremas para abordar la cuestión

Estrategia clásica basada en los datos: reproduce la metodología empleada en la época del Pencil-Data: se va recuperando una a una las distinta cifras que se precisan de las diferente fuente (paginas web) y con recorta-y-pega se van sucesivamente rellenando multiples hojas de calculo.
Estrategia basada en los tratamiento: Se parte de la catalogación e identificación precisa de las fuentes crudas que se precisan (idealmente URL). Se definen los procesos (en forma de script) que permitirán transformar las fuentes crudas y unos datos limpios (dirty data) analizables.

2.2 Con una solo enlace: Mortalidad por secciones censales

Descargar y preprocesar datos desde fuente única
Ediccion de datos preparación (conjunto limpios de datos/ de acuerdo al objetivo
Estimación de indicadores en este caso las Razones de Mortalidad Estandarizas por Secciones Censales
Análisis Exploratorio: un gráfico inicial
El resultado final

2.3 Combinando múltiples enlaces:

Un ejemplo tomado de una pagina de INEbase
El script de extracción y proceso

3 Para terminar

3.1 ¿Te estas iniciando en el universo R?

.. y te interesa un curso presencial introductorio, tienes una oportunidas cercana si vives en Sevilla:

Visualización y análisis de datos con R