La minería de datos, a veces llamada “descubrimiento de conocimiento”, es el proceso de cribar grandes volúmenes de datos en busca de correlaciones, patrones y tendencias.
Definición de minería de datos
La minería de datos (data mining) es un subconjunto de la ciencia de datos que utiliza técnicas estadísticas y matemáticas junto con el aprendizaje automático y los sistemas de bases de datos. El Grupo de Interés Especial sobre Descubrimiento de Conocimiento y Minería de Datos (SigKDD) de la Association for Computing Machinery lo define como “la ciencia para extraer conocimiento útil de los enormes repositorios de datos digitales creados por las tecnologías informáticas”.
La idea de extraer patrones de datos no es nueva, pero el concepto moderno de minería de datos comenzó a tomar forma en las décadas de 1980 y 1990 con el uso de técnicas de gestión de bases de datos y aprendizaje automático para aumentar los procesos manuales.
Minería de datos frente a análisis de datos
Los términos análisis de datos y minería de datos a menudo se combinan, pero el análisis de datos puede entenderse como un subconjunto de la minería de datos.
La “minería de datos” se enfoca en limpiar datos sin procesar, encontrar patrones, crear modelos y luego probar esos modelos, según el proveedor de análisis Tableau . El “análisis de datos”, por otro lado, es la parte de la minería de datos centrada en extraer información de los datos. Su objetivo es aplicar análisis estadísticos y tecnologías sobre los datos para encontrar tendencias y resolver problemas.
El valor comercial de la minería de datos
La minería de datos se utiliza en empresas de una amplia gama de industrias para examinar sus datos a fin de comprender las tendencias y tomar mejores decisiones comerciales. Las empresas de medios y telecomunicaciones utilizan los datos de sus clientes para comprender mejor su comportamiento. Las compañías de seguros utilizan la minería de datos para fijar el precio de sus productos de manera más eficaz y crear nuevos productos. Los educadores ahora están utilizando datos de minería para descubrir patrones en el desempeño de los estudiantes e identificar áreas problemáticas en las que podrían necesitar atención especial. Los minoristas están utilizando la minería de datos para comprender mejor a sus clientes y crear campañas altamente específicas.
Los casos de uso de minería de datos incluyen los siguientes:
- Catholic Relief Services (CRS) está utilizando la recopilación de datos y el aprendizaje automático para ayudar a brindar ayuda humanitaria en todo el mundo. Ha desarrollado Indicadores de medición para el análisis de resiliencia (MIRA), un protocolo de recopilación de datos de alta frecuencia que reúne información sobre las crisis relacionadas con el clima en las comunidades del sudeste de África. Introduce los datos en algoritmos de aprendizaje automático para determinar qué hogares estarán en riesgo de escasez de alimentos debido a tales impactos.
- Bank of America está utilizando la minería de datos, el aprendizaje automático y la inteligencia artificial para identificar con mayor precisión a los inversores para las ofertas públicas iniciales (OPI) . Ha creado Predictive Intelligence Analytics Machine (PRIAM), un sistema de predicción de acuerdos de inteligencia artificial que utiliza una red de algoritmos de aprendizaje automático supervisados para comprender las tendencias de las relaciones entre los banqueros e inversores de los mercados de capital accionario (ECM).
- La procesadora hipotecaria Ellie Mae está utilizando la minería de datos en ataques de ransomware para ayudarlo a identificar indicadores de compromiso (IOC) . Esos IOC se combinan con inteligencia de amenazas, análisis predictivo e inteligencia artificial para impulsar el proyecto Autonomous Threat Hunting para Advanced Persistent Threats.
Técnicas de minería de datos
La minería de datos utiliza una variedad de herramientas y técnicas. Según Talend, especialista en integración e integridad de datos, las funciones más utilizadas incluyen:
- Limpieza y preparación de datos. Antes de que los datos puedan analizarse y procesarse, debe identificar y eliminar errores, y también identificar los datos que faltan.
- La minería de datos con frecuencia aprovecha la inteligencia artificial para tareas asociadas con la planificación, el aprendizaje, el razonamiento y la resolución de problemas.
- Aprendizaje de reglas de asociación. También conocido como análisis de la cesta de la compra, estas herramientas se utilizan para buscar relaciones entre variables en un conjunto de datos. Un minorista podría utilizarlos para determinar qué productos se compran normalmente juntos.
- La agrupación en clústeres se utiliza para dividir un conjunto de datos en subclases significativas para comprender la estructura de los datos.
- Analítica de datos. El análisis de datos es el proceso de extraer información de los datos.
- Almacenamiento de datos. Un almacén de datos es una colección de datos comerciales. Es la base de la mayoría de la minería de datos.
- Aprendizaje automático. El aprendizaje automático ayuda a automatizar el proceso de búsqueda de patrones en sus datos.
- Esta técnica se utiliza con un conjunto de datos en particular para predecir valores como ventas, temperaturas o precios de las acciones.
Proceso de minería de datos
El proceso estándar de la industria cruzada para la minería de datos (CRISP-DM) es un modelo de proceso de seis pasos que se publicó en 1999 para estandarizar los procesos de minería de datos en todas las industrias. Las seis fases de CRISP-DM son: comprensión empresarial, comprensión de datos, preparación de datos, modelado, evaluación e implementación.
Comprensión empresarial
Esta fase trata de comprender los objetivos, los requisitos y el alcance del proyecto. Consta de cuatro tareas: determinar los objetivos comerciales mediante la comprensión de lo que quieren lograr las partes interesadas del negocio; evaluar la situación para determinar la disponibilidad de recursos, los requisitos del proyecto, los riesgos y las contingencias; determinar cómo se ve el éxito desde una perspectiva técnica; y definir planes detallados para las herramientas de cada proyecto junto con la selección de tecnologías y herramientas.
Comprensión de datos
La siguiente fase implica identificar, recopilar y analizar los conjuntos de datos necesarios para lograr los objetivos del proyecto. También comprende cuatro tareas: recopilar datos iniciales, describir los datos, explorar los datos y verificar la calidad de los mismos.
Preparación de datos
Esta suele ser la parte más importante de cualquier proyecto y consta de cinco tareas: seleccionar los conjuntos de datos y documentar el motivo de la inclusión / exclusión, limpiar los datos, construir datos derivando nuevos atributos de los datos existentes, integrar datos de múltiples fuentes y formatear los datos.
Modelado
La construcción de modelos a partir de datos tiene cuatro tareas: seleccionar técnicas de modelado, generar diseños de prueba, construir modelos y evaluar modelos.
Evaluación
Si bien la fase de modelado incluye la evaluación del modelo técnico, esta fase se trata de determinar qué modelo satisface mejor las necesidades comerciales. Implica tres tareas: evaluar los resultados, revisar el proceso y determinar los próximos pasos.
Despliegue
La fase final consiste en poner el modelo en funcionamiento. Incluye cuatro tareas: desarrollar y documentar un plan para implementar el modelo, desarrollar un plan de monitoreo y mantenimiento, producir un informe final y revisar el proyecto.
ASUM-DM
En 2015, IBM publicó una extensión de CRISP-DM llamada Método unificado de soluciones analíticas para minería de datos (ASUM-DM). Toma CRISP-DM como base, pero construye la fase de implementación para incluir colaboración, control de versiones, seguridad y cumplimiento.
Software y herramientas de minería de datos
Las empresas utilizan una variedad de software y herramientas de minería de datos para respaldar sus esfuerzos. Algunos de los software y herramientas más populares incluyen:
- Esta plataforma de aprendizaje automático de código abierto se puede integrar a través de una API y utiliza computación distribuida en memoria para analizar conjuntos de datos masivos.
- IBM SPSS Modeler. La solución de aprendizaje automático y ciencia de datos visuales de IBM se puede utilizar para la preparación, el descubrimiento, el análisis predictivo, la gestión de modelos y la implementación de datos.
- La plataforma de código abierto Knime tiene como objetivo el análisis, la generación de informes y la integración de datos.
- Minería de datos de Oracle (ODM). ODM es parte de Oracle Database Enterprise Edition, que ofrece minería de datos y algoritmos de análisis de datos para clasificación, predicción, regresión, asociaciones, selección de características, detección de anomalías, extracción de características y análisis especializados.
- Minería de datos de Orange. Orange es un conjunto de herramientas de visualización de datos, aprendizaje automático y minería de datos de código abierto.
- Este lenguaje de programación de código abierto y entorno de software libre es ampliamente utilizado por los mineros de datos. Fundada por Revolution Analytics, R también tiene soporte comercial y extensiones. Microsoft adquirió Revolution Analytics en 2015 y ha integrado R con sus ofertas de SQL Server, Power BI, Azure SQL Managed Instance, Azure Cortana Intelligence, Microsoft ML Server y Visual Studio 2017. Oracle, IBM y Tibco también admiten R en sus ofertas .
- Diseñada para equipos, la plataforma de ciencia de datos RapidMiner admite la preparación de datos, el aprendizaje automático y la implementación de modelos predictivos.
- SAS Enterprise Miner. SAS Enterprise Miner tiene como objetivo crear modelos predictivos y descriptivos en grandes volúmenes de datos de fuentes en toda la organización.
- La pila de BI de Sisense cubre todo, desde la base de datos a través de ETL y análisis hasta la visualización.
Trabajos de minería de datos
La minería de datos la realizan con mayor frecuencia científicos de datos o analistas de datos. Estos son algunos de los títulos de trabajo más populares relacionados con la minería de datos y el salario promedio para cada puesto, según datos de PayScale en Estados Unidos :
- Analista de inteligencia empresarial: De 52 mil a 90 mil dólares
- Arquitecto de inteligencia empresarial: $ 72K- $ 140K
- Desarrollador de inteligencia empresarial: $$ 62K- $ 109K
- Analista de datos: $ 43K-90K
- Ingeniero de datos: $ 44K- $ 141K
- Científico de datos: $ 66K- $ 130K
- Analista de datos senior: $ 63K- $ 108K
- Estadístico: $ 44K- $ 159K
Thor Olavsrud, CIO.com