Preparación de los datos para el Machine Learning

Sin depender del nivel de sofisticación en los algoritmos en el Machine Learning es importante preparar los datos de forma correcta.

Los datos deben ser seleccionados cuidadosamente para el entrenamiento y prueba de los modelos. Se debe preparar los datos con dedicación y esfuerzo. El tiempo empleado para la limpieza de los datos toma un 80 por ciento de los proyectos.

De acuerdo con el tipo de algoritmo debe de asociarse los datos; en general son de dos clases estructurados y no estructurados; y de tipo de datos: numéricos, categorizados, texto, imágenes y sonidos, etc. De acuerdo con el alcance del algoritmo es el dato; así por ejemplo en reconocimiento de imágenes: fotos, gráficos, escritura de mano, radiografías son el consumo del modelo.

Se debe considerar el medio de obtención de los datos como sistemas de captura de datos (los más típicos son los de administración: ERP, CRM); las maquinas herramienta que monitorean equipos (sistemas numéricos, IoT); grabadores y tomadores de sonido e imagen, etc. La forma de colección y el método es variado de acuerdo a la fuente de información y la herramienta empleada. Es común saber que los BOTS se alimentan de las paginas FAQ a través del web crawer.

En preparación del entrenamiento y prueba del modelo; los datos colectados se deben visualizar para conocer el comportamiento dentro del modelo. Los diferentes modelos requieren de una adecuación de los datos de forma temporal para su tratamiento; por ejemplo, las imágenes se transforman en matrices numéricas que representan las características como color, intensidad, etc.

Todos estos datos estructurados se almacenan en diferente medio de estructuras de datos y bases de datos. Los datos no estructurados generalmente en contendores. Cualquiera de la forma de almacenamiento se deben construir librerías y/o repositorios (corpus) para el servicio de los usuarios para su consumo. Estos datos almacenados son los servicios como Watson, Amazon, Azure indican a los demás partes de la solución propuesta. Los datos generados y almacenados día a día se requieren de una mayor cantidad de espacio de almacenamiento.

Referencias:

[1] Preprocesing Data. Chapter 13. Machine Learning for Dummies. John Paul Muller et more. 2016. Wiley and Sons.

[2] Feature Engineering and Selection. Chapter 4. Practical Machine Learning with Python. Dinanjan Srakar et more. 2018. APress. [3] Quick Tip: The easiest way to grab data out of a web page in Python. Adam Geitgey. medium.com. 2017.