Limpieza de datos o el paso de tener una información de calidad

Como parte del 80% de un proceso de excelencia está en el manejo de los datos.

Cualquiera que sea el medio de procesamiento de los datos y su forma de visualización; la información de calidad y excelencia necesita de un manejo de datos con extremo cuidado.

A cada momento se registran nuevos datos que almacenados deben de tratarse para emitir información. Estos registros requieren de ser verificados, enriquecidos y actualizados en todo momento. Los equipos de captura y validación deben estar alineados con la gobernación de datos. La calidad en la forma de recolección, su verificación constante y como se realizó. De acuerdo con las necesidades del usuario se deben buscar (enriquecer) o derivar. Esta actividad debe realizarse de forma continua con control para las tres etapas [elabora, entrena y ejecuta] del aprendizaje automático (Machine Learning) cuando se emplea.

Los adelantos en la tecnología y los métodos determinan que los datos deben ser
adaptados para que las funciones de procesamiento entreguen resultados correctos de acuerdo con su programación. Con la directriz de la función (API) se deben acondicionar los datos para su operación.

Después de recolectado y almacenado el dato este se envía a las diferentes funciones y requiere de alguno de los siguientes manejos.

Si el dato proviene de diferentes sistemas transaccionales deben conjugarse para
representar el mismo tipo de concepto y formato; es común que los sistemas emplean diferentes tecnologías de almacenamiento y representación. Algunos datos son capturados en utilerías de office. Los provenientes de portales (como FAQ para formación de Bots) se deben remover los caracteres de control (tag) y formato. El paso del dato base (raw) al dato requerido (use data) por la función se realiza con la limpieza de datos, la transformación y el mapeo.

En el manejo de tipo de dato cuando se necesita un número y el dato es una cadena de caracteres (casting) en el correcto manejo para el filtrado; ordenamiento y manejo de fechas. En el manejo de caracteres para procesos de Lenguaje Natural se emplea la remoción de caracteres de puntuación, conjunciones, separación de sentencias en palabras, separación de palabras en caracteres o la reducción de palabras a palabras raíz (diccionario). La resolución y propiedades de luminosidad y claridad en las imágenes y video; y el muestreo en el audio para reconocimiento de patrones. 

Para la validación, control del dato y su porcentaje de calidad se deben realizar funciones estadísticas en conteo de registros, columnas, tipo de dato, valores omitidos (nulos), repetidos y de rango. Las funciones de limpieza, transformación y mapeo permiten tener un porcentaje de calidad superior al juego original.

De acuerdo con la cantidad y requerimientos de la función a emplear:

  • Los datos nulos pueden ignorarse, eliminarse, tener valor de acuerdo con el campo del campo anterior o siguiente, un valor especifico determinado (como la media o mediana)
  • Los datos repetidos se pueden eliminarse, marcarse o mapear a un valor especifico.
  • Los datos que deben estar en un rango y no los están deben eliminarse o ser marcados.
  • Los datos pueden son mapeados o estandarizados (escalados o rescaldados).

Los esquemas de visualización de datos permiten reconocer la calidad de la limpieza de los datos. La utilización de marcas de estado y control en las utilerías permiten determinar la validación.

Referencia:

[1] LA IMPORTANCIA DEL DATA CLEANING AN_ANALYTICS, 17 junio 2018

[2] 3 PASOS ESENCIALES DEL DATA CLEANING 

Hacerlo bien desde el inicio

AN_ANALYTICS, 18 julio 2018

[3] Data Wrangling. Practical Machine Learning with Python

Dipanjan Sarkar, et all. APRESS, 2018

páginas 138-151