Minería de datos (I): ¿Cómo obtener la información y el conocimiento que subyace bajo los datos?

¿A qué se refiere el concepto «minería de datos» y cómo lo podemos usar en producción porcina?

La idea de “minería de datos” no es nueva. En los años sesenta, los estadísticos manejaban términos como Data Fishing (pesca de datos), Data Mining (minería de datos) o Data Archaeology (arqueología de datos) con la idea de encontrar correlaciones sin una hipótesis previa en bases de datos con ruido, métodos conocidos como no supervisados, ya que partimos sin hipótesis previas.

A principios de los años ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatets ky-Shapiro, entre otros, empezaron a consolidar los términos de minería de datos y descubrimiento de conocimiento en bases de datos (Knowledge Discovery in Databases, KDD).

La evolución de sus herramientas en el transcurso del tiempo puede dividirse en cuatro etapas principales:

■ Recopilación de datos (1960).
■ Acceso de datos (1980).
■ Almacén de datos y apoyo a las decisiones (prin- cipios de la década de 1990).
■ Minería de datos inteligente (finales de la década de 1990).

La minería de datos o exploración de datos es la etapa del descubrimiento de conocimiento en bases de datos

La minería de datos o exploración de datos es la etapa del descubrimiento de conocimiento en bases de datos. Es un campo de la Estadística y de las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos. Utiliza los métodos de la Inteligencia Artificial (IA), aprendizaje automático (machine learning), Estadística y sistemas de Bases de Datos.

Imaginemos que tenemos los resultados de los diferentes lotes de engordes de cerdos del año 2019 y 2020 de una compañía de producción de cerdos. Estos animales provienen de diferentes granjas de cerdas integradas por la compañía y otros que son comprados a granjas de cerdas de otras compañías.
Cada origen de cerdos tiene una sanidad diferente, y el pienso y los animales de reposición han sido suministrados por diferentes fábricas y compañías genéticas. Lógicamente cada una de las granjas son diferentes en localización, tamaño, capacidad, tipos de comederos, etc. ¿Qué patrones subyacen bajo los resultados globales? ¿Podemos comparar los resultados?

Y si seguimos pensando, si nos ofrecen usar un nuevo aditivo en el pienso o una nueva vacuna o técnica de manejo, ¿en qué granjas lo probamos? ¿Son asignables los resultados que hayamos obtenido al universo de granjas y diversidad que tenemos?

Las técnicas de minería de datos nos permiten encontrar patrones y a través de estos patrones y con el uso de KDD, crear conocimiento

El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior.

Conlleva varias etapas, a saber, el análisis en bruto de los datos, la gestión de datos y de bases de datos, el procesamiento de datos, la creación de modelos mediante la inferencia estadística, así como el conocimiento de métricas de intereses, de consideraciones de la teoría de la complejidad computacional, de posprocesamiento de las estructuras descubiertas, de la visualización y de la actualización en línea. En este proceso deben interactuar constantemente tanto los técnicos en la materia que se analiza (en nuestro caso los técnicos porcinos) como los técnicos en la minería de datos.

Un concepto de moda creado como herramienta de marketing

Frecuentemente se usa de forma errónea para referirse a cualquier forma de estudio de datos a gran escala o procesamiento de la información (recolección, extracción, almacenamiento, análisis y estadísticas).

La tarea de la minería de datos real es el análisis automático o semiautomático de grandes cantidades de datos para extraer patrones interesantes hasta ahora desconocidos, como los grupos de registros de datos (análisis de conglomerados), registros poco usuales (la detección de anomalías) y dependencias (minería por reglas de asociación). Estos patrones pueden entonces ser vistos como una especie de resumen de los datos de entrada, y pueden ser utilizados en el análisis adicional o, por ejemplo, en el aprendizaje automático y análisis predictivo.

Por ejemplo, el uso de la minería de datos en nuestra base de datos de producción de cerdos que hemos comentado podría identificar varios grupos en los datos, que luego pueden ser utilizados para obtener resultados más precisos de predicción por un sistema de soporte de decisiones. Pensemos en la empresa anterior e imaginemos que los lechones provienen de un número de granjas de cerdas con diferentes estatus sanitarios pero que tras un análisis de conglomerados podemos resumir en tres grupos como el ejemplo que se presenta en la siguiente imagen. Ni la recopilación de datos, la preparación de datos, ni la interpretación de los resultados son parte de la etapa de minería de datos. Pertenecen a todo el proceso KDD como pasos adicionales.

analisis de conglomerados

Etapas a seguir

Un proceso de minería de datos consta de los siguientes pasos:

  • Selección del conjunto de datos, donde elegiremos las variables objetivo (aquellas que se quiere predecir, calcular o inferir, por ejemplo el coste por kg de cerdo vivo producido), las variables independientes (las que sirven para hacer el cálculo o proceso, como el consumo de pienso, el coste de la integración, etc.), así como el filtrado de los registros disponibles. Por ejemplo, excluiremos del análisis lotes de cerdos en los que ha habido circunstancias especiales como lotes de animales enfermos.

  • Análisis de las propiedades de los datos, con especial atención a los métodos gráficos como los histogramas, diagramas de dispersión y al estudio de la presencia de valores atípicos y ausencia de datos (valores nulos).

  • Transformación del conjunto de datos de entrada. Realizado en función del análisis previo con el objetivo de preparar el conjunto de datos para aplicar la técnica de minería de datos que mejor se adapte a los mismos.

  • Selección y aplicación de la técnica de minería de datos, donde construiremos el modelo predictivo, de clasificación o de creación de conglomerados o clústers.

  • Extracción de conocimiento, mediante una técnica de minería de datos donde se obtiene un modelo de conocimiento. Representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas.

  • Interpretación y evaluación de datos. Una vez obtenido el modelo, se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de obtener varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas y con márgenes de error admisibles) este ya está listo para su explotación.

En los próximos números veremos diferentes técnicas usadas en la minería de datos con un ejemplo práctico que nos permitirá seguir todos estos pasos.

¿Quieres que te avisemos?

Referencias

  • Condition Assessment of High Voltage Insula- tion in Power System Equipment. pp. 207-240. ISBN 9780863417375
  • Wikipedia
  • Espino , Martínez J. 2017. s. f. «Análisis predictivo : Técnicas y modelos utilizados y aplicaciones del mismo herramientas Open Source que permiten su uso», 65.

Artículo publicado en la revista Suis, de Grupo Asishttps://www.grupoasis.com/.

¿Te ha gustado el artículo? Descubre aquí otros parecidos.