2.1 El proceso de captura, edición y preparación de los datos
Captura y editar datos consume gran parte de
los recursos de todo proceso de análisis de datos. Podemos
distinguir dos estrategias extremas para abordar la cuestión
- Estrategia clásica basada en los datos
- reproduce la metodología
empleada en la época del Pencil-Data: se va recuperando una a
una las distinta cifras que se precisan de las diferente fuente
(paginas web) y con recorta-y-pega se van sucesivamente
rellenando multiples hojas de calculo.
- Estrategia basada en los tratamiento
- Se parte de la catalogación e
identificación precisa de las fuentes crudas que se precisan
(idealmente URL). Se definen los procesos (en forma de script)
que permitirán transformar las fuentes crudas y unos datos
limpios (dirty data) analizables.