Hoy en día, las organizaciones están recopilando cada vez más volúmenes de información de todo tipo de fuentes, incluyendo sitios web, aplicaciones empresariales, medios sociales, dispositivos móviles, y cada vez más Internet de las Cosas (IoT).
La gran pregunta es: ¿cómo puede derivar el verdadero valor comercial de esta información? Ahí es donde la minería de datos contribuye en gran medida. La minería de datos es el proceso automatizado de búsqueda dentro de enormes conjuntos de datos para identificar tendencias y patrones, y establecer relaciones para resolver problemas de negocio o generar nuevas oportunidades a través del análisis de los datos.
No se trata solo de mirar datos para ver lo que ha sucedido en el pasado y poder actuar inteligentemente en el presente. Las herramientas y técnicas de la minería de datos le permiten predecir lo que va a suceder en el futuro y actuar en consecuencia para aprovechar las tendencias venideras.
El término “minería de datos” se utiliza bastante en la industria de TI. A menudo, era aplicado a una variedad de actividades de procesamiento de datos a gran escala, tales como recolectar, extraer, almacenar y analizar datos. También puede abarcar aplicaciones y tecnologías de apoyo en la toma de decisiones, tales como inteligencia artificial, aprendizaje automático e inteligencia empresarial.
La minería de datos se utiliza en muchas áreas de negocios e investigación, incluyendo desarrollo de productos, ventas y marketing, genética y cibernética -por nombrar algunos. Si se utiliza de la manera correcta, la minería de datos combinada con la analítica predictiva, puede darle una gran ventaja sobre los competidores que no utilizan estas herramientas.
Derivar el valor comercial de la minería de datos
El valor real viene de ser capaz de desenterrar gemas ocultas en forma de patrones y relaciones dentro de los datos, que pueden utilizarse para hacer predicciones que pueden tener un impacto significativo en las empresas.
Por ejemplo, si una empresa determina que una campaña de marketing en particular resultó en ventas extremadamente altas de un modelo particular de un producto en ciertas partes del país, pero no en otras, puede reenfocar la campaña en el futuro para obtener el máximo rendimiento.
Los beneficios de la tecnología pueden variar dependiendo del tipo de negocio y sus objetivos. Por ejemplo, los gerentes de ventas y marketing en el comercio minorista podrían extraer información de los clientes de diferentes maneras para mejorar los índices de conversión que los de las industrias de aerolíneas o servicios financieros.
Independientemente de la industria, la minería de datos aplicada a los patrones de ventas y el comportamiento del cliente en el pasado, se puede utilizar para crear modelos que predicen las ventas futuras y el comportamiento.
También existe el potencial para ayudar a eliminar las actividades que pueden dañar a las empresas. Por ejemplo, puede utilizar la minería de datos para mejorar la seguridad del producto, o detectar actividad fraudulenta en transacciones de seguros y servicios financieros.
Las aplicaciones de la minería de datos
La minería de datos se puede aplicar a una variedad de aplicaciones en, prácticamente, todas las industrias.
– Los minoristas pueden implementar la minería de datos para identificar mejor los productos que las personas probablemente vayan a comprar en función de sus hábitos de compra pasados, o cuáles son los que pueden vender en ciertas épocas del año. Esto puede ayudar a los comerciantes a planificar inventarios y almacenar diseños.
– Los bancos y otros proveedores de servicios financieros pueden extraer datos relacionados con las cuentas, transacciones y preferencias de canales de sus clientes para satisfacer mejor sus necesidades. También pueden recopilar y analizar los datos de sus sitios web y las interacciones de los medios de comunicación social para ayudar a aumentar la lealtad de los clientes existentes y atraer a otros nuevos.
– Las compañías de manufactura pueden utilizar la minería de datos para buscar patrones en el proceso de producción, para así poder identificar con precisión cuellos de botella y métodos defectuosos, y encontrar maneras de aumentar la eficiencia. También pueden aplicar los conocimientos de la minería de datos para el diseño de productos, y hacer retoques basados en la retroalimentación de las experiencias de los clientes.
– Las instituciones educativas pueden beneficiarse de la minería de datos, como por ejemplo analizando conjuntos de datos para predecir los comportamientos futuros de aprendizaje y el rendimiento de los estudiantes, y luego utilizando este conocimiento para hacer mejoras en los métodos de enseñanza o planes de estudio.
– Los proveedores de atención médica pueden extraer y analizar datos para determinar mejores formas de brindar atención a los pacientes y reducir los costos. Con la ayuda de la minería de datos, pueden predecir cuántos pacientes necesitarán cuidar y qué tipo de servicios necesitarán esas personas. En las ciencias humanas, la minería se puede utilizar para recoger información a partir de datos biológicos masivos, para ayudar a desarrollar nuevos medicamentos y otros tratamientos.
– En múltiples industrias, incluyendo el cuidado de la salud y el comercio minorista, se puede utilizar la minería de datos para detectar fraudes y otros abusos -mucho más rápido que con los métodos tradicionales para identificar dichas actividades.
Los componentes clave de la minería de datos
El proceso incluye componentes distintos que abordan diferentes necesidades:
Preprocesamiento. Antes de aplicar algoritmos de minería de datos, es necesario crear un conjunto de datos de destino. Una fuente común de datos es un Datamart o almacén. Se debe realizar el preprocesamiento para poder analizar los conjuntos de datos.
Limpieza y preparación de datos. El conjunto de datos de destino debe ser limpiado y preparado para eliminar el “ruido”, corregir los valores perdidos, filtrar los puntos de datos periféricos (para la detección de anomalías), eliminar errores o realizar exploraciones adicionales, crear reglas de segmentación y realizar otras funciones relacionadas con la preparación de datos.
Reglas de asociación (también conocido como análisis de cesta de compra). Estas herramientas buscan relaciones entre variables en un conjunto de datos, como determinar qué productos se suelen comprar juntos en una tienda.
Clusterización. Esta característica de la minería de datos se utiliza para descubrir grupos y estructuras en conjuntos de datos que son, de alguna manera, similares entre sí, sin utilizar estructuras conocidas en los datos.
Clasificación. Las herramientas que realizan la clasificación generalizan las estructuras conocidas para aplicarlas a nuevos puntos de datos, como cuando una aplicación de correo electrónico intenta clasificar un mensaje como correo legítimo o spam.
Regresión. Esta técnica de minería de datos se utiliza para predecir un rango de valores numéricos, tales como ventas, valores de vivienda, temperaturas o precios cuando se administra un conjunto de datos determinado.
Resumen. Esta técnica proporciona una representación compacta de un conjunto de datos, incluyendo la visualización y generación de informes.
Docenas de proveedores ofrecen herramientas de software de minería de datos; algunos ofrecen software propietario y otros entregan productos a través de esfuerzos de código abierto.
Entre los proveedores clave que ofrecen aplicaciones de software de minería de datos están Angoss, Clarabridge, IBM, Microsoft, Open Text, Oracle, RapidMiner, SAS Institute y SAP.
Las organizaciones que ofrecen software y aplicaciones de minería de datos de código abierto incluyen a Carrot2, Knime, Massive Online Analysis, ML-Flex, Orange, UIMA y Weka.
Los riesgos y desafíos de la minería de datos
La minería de datos viene con su porción de riesgos y desafíos. Al igual que con cualquier tecnología que implique el uso de información potencialmente sensible o personalmente identificable, la seguridad y privacidad están entre las mayores preocupaciones.
A nivel fundamental, los datos que se extraen deben ser completos, precisos y confiables; después de todo, los utiliza para tomar decisiones comerciales importantes y, a menudo, para interactuar con el público, los reguladores, inversores y socios comerciales. Las formas modernas de datos también requieren nuevos tipos de tecnologías, como para reunir conjuntos de datos de una variedad de entornos informáticos distribuidos (también conocida como integración de big data) y para datos más complejos, como imágenes y video, datos temporales y espaciales.
Obtener los datos correctos y luego reunirlos para que puedan ser extraídos no es el último paso del desafío para TI. La nube, el almacenamiento y los sistemas de red deben permitir un alto rendimiento de las herramientas de minería de datos. Además, la información resultante de la minería de datos debe ser presentada de manera clara a la amplia gama de usuarios que se espera que actúen y la interpreten. Necesitará personas con habilidades en la ciencia de datos y áreas relacionadas.
Desde el punto de vista de la privacidad, la idea de extraer información que se relaciona con cómo se comportan las personas, lo que compran, qué sitios web visitan y así sucesivamente, puede desencadenar preocupaciones sobre las empresas teniendo demasiada información. Eso no solo afecta a su implementación tecnológica, sino a su estrategia de negocio y perfil de riesgo.
Más allá de la ética del seguimiento de los individuos tan a fondo, también hay requisitos legales sobre la manera en que los datos pueden ser reunidos, identificados a una persona, y compartidos. La Ley de Portabilidad y Responsabilidad del Seguro de Salud de los Estados Unidos (HIPAA), y la Directiva General de Protección de Datos (GDPR) de la Unión Europea, están entre las más conocidas.
En la minería de datos, el acto inicial de preparación, como la agregación y racionalización de los datos, puede revelar información o patrones que comprometen la confidencialidad de los datos. Por lo tanto, es posible actuar inadvertidamente en contra de las preocupaciones éticas o los requisitos legales.
La minería de datos también requiere protección de datos en cada paso del proceso para asegurarse de que los datos no sean robados, alterados o accedidos secretamente. Las herramientas de seguridad incluyen encriptación, controles de acceso y mecanismos de seguridad de red.
La minería de datos es un diferenciador clave
A pesar de estos desafíos, la minería de datos se ha convertido en un componente vital de las estrategias de TI en muchas organizaciones que buscan obtener beneficios de toda la información que reúnen o a la que pueden acceder. Esta unidad, sin duda, se acelerará con los avances en el análisis predictivo, la inteligencia artificial, el aprendizaje automático y otras tecnologías relacionadas.
-Bob Violino, InfoWorld.com