Del Data Mining al Big Data

Desde los aÃ±os 90, cuando Data Mining se consolidÃ³ como una tecnologÃa de apoyo a la toma de decisiones, se han logrado grandes avances, sobre todo en la parte de comunicaciones y manejo de grandes cantidades de informaciÃ³n. Hoy surgen nuevos retos, sobre todo en la parte de integrar la informaciÃ³n de los dispositivos mÃ³viles a la ya gran Base de Datos.

Por las experiencias que se han tenido, se propone que se incorpore en los proyectos de Data Mining un Modelo de Datos AnalÃtico (MDA), que, sin ser un Data Warehouse, pueda ser Ãºtil a los usuarios finales para una mejor explotaciÃ³n de lo que existe oculto en las bases de datos. Sin embargo, es importante adquirir las tecnologÃas y metodologÃas que Big Data ofrece para poder alcanzar esto.

El objetivo es uno: proveer al usuario de â€œtodaâ€ la informaciÃ³n que existe, que sea fÃ¡cil de explotar, y que ayude a tomar decisiones mÃ¡s asertivas.

Los inicios del concepto Data Mining

En 2002, siendo yo Coordinador del Curso de Data Mining, en la Universitat Oberta de Catalunya (UOC) en Barcelona, EspaÃ±a, me pidieron que escribiera un artÃculo relacionado a Data Mining (en espaÃ±ol conocido como MinerÃa de Datos). Lo titulÃ©: â€œData Mining: Torturando los datos hasta que confiesenâ€.

En aquella Ã©poca fue un artÃculo muy citado, por la poca informaciÃ³n que se tenÃa en espaÃ±ol y por el gran potencial que esta tecnologÃa ofrecÃa a travÃ©s de varios ejemplos de diversos sectores. Lo que intentÃ© transmitir era dejar en claro que Data Mining no era estadÃstica, ni redes neuronales, ni visualizaciÃ³n de datos, ni pronÃ³stico, sino una tecnologÃa orientada a los negocios y que mediante el anÃ¡lisis de grandes bases de datos iba en bÃºsqueda de lo que se llama el conocimiento mediante la integraciÃ³n de un conjunto de tÃ©cnicas.

Haciendo un poco de historia, para consolidar el tÃ©rmino â€œData Miningâ€, se tuvo que pasar desde los 60 por los conceptos de Data Arqueology, Data Dredging, Data Fishing, Data Snooping y KDD (Knowledge Discovery in Databases), entre otros. TodavÃa a finales de los 90 era comÃºn usar el Proceso de Fayyad como referencia para comenzar un proyecto de Data Mining, sin embargo, habÃa problemas en las definiciones, por ejemplo para dimensionar el concepto â€œtrabajar con grandes volÃºmenes de informaciÃ³nâ€, y acotar lo que era grande.

Asimismo, cada investigador le daba una definiciÃ³n dependiendo del Ã¡rea formativa de la que provenÃa.

Sin duda, uno de los mÃ¡s importantes problemas de estos proyectos era la gran dependencia del â€œgurÃºâ€, por lo que en muchas ocasiones cuando se necesitaba realizar nuevamente un estudio comparativo, muchas veces Ã©ste no estaba disponible, y dado que casi no dejaba documentaciÃ³n sobre sus extracciones de SQL, causaba que no existiera continuidad en los estudios de Data Mining.

Ante la falta de regularizaciÃ³n de los procesos de Data Mining, un grupo de investigadores y empresas se reunieron y en 1999, apareciÃ³ la metodologÃa CRISP-DM (Cross Industry Standard Process for Data Mining),Â que se consolida en diferentes llamados del 2002, 2004, and 2007 como la mÃ¡s usada en un proyecto de inicio a fin, por lo tanto, estandariza, en gran medida, los criterios para establecer la estrategia de resoluciÃ³n a los proyectos de Data Mining.

AcompaÃ±ando a esta metodologÃa, diversos trabajos de Ron Kohavi, Tom Mitchel, Liu Huan, Hiroshi Motoda, Peter Shappiro, Heikki Mannila, John Dougherty, Jiawei Han, Micheline Kamber, Gregory Piatetsky-Shapiro, entre muchos otros, vinieron a demostrar los mejores mÃ©todos de muestreo, selecciÃ³n de atributos relevantes, algoritmos de clasificaciÃ³n, y de cÃ¡lculo del error principalmente.

AsÃ que ya no habÃa que inventar muchas cosas. La conclusiÃ³n de todo esto es que son los propios datos, sus caracterÃsticas y el objetivo a alcanzar lo que nos va llevando a la tÃ©cnica a usar, y que habÃa ciertos mÃ©todos que tenÃan en lo general un mejor desempeÃ±o que otros que hacÃan lo mismo.

Desde entonces muchos eventos han sucedido: Mayor capacidad de almacenamiento (CÃ³mputo en la Nube) y procesamiento; mejores herramientas analÃticas con sorprendentes capacidades de visualizaciÃ³n de datos; mejores herramientas para mejorar la calidad de datos; personal que realiza Data Mining con mejores habilidades de entender los negocios y; sobre todo, un cliente con cada vez mayores necesidades de analizar a profundidad sus datos para beneficiar al negocio.

La evoluciÃ³n de Data Mining hacia el Modelo de Datos AnalÃtico

Uno de los hechos relevantes es que Data Mining ya ha evolucionado para venderse mÃ¡s como concepto que como producto. Por lo tanto, ahora se vende como mejora en la utilidad, propensiÃ³n de fuga del cliente, perfilamiento del comportamiento de los defraudadores de tarjetas de crÃ©dito o como una mejora para el ajuste de parÃ¡metros en las herramientas de calificaciÃ³n de riesgo.

Todo esto se resume en que Data Mining se ha conviertido en un concepto que incorpora en las diferentes Ã¡reas de organizaciones la prÃ¡ctica de la Cultura AnalÃtica.

Para vender Cultura AnalÃtica se debe comenzar a diferenciar en una organizaciÃ³n cuÃ¡les son sus procesos operativos y cuÃ¡les los analÃticos.

Los procesos operativos se refieren a todos ellos que trabajan en la continuidad del objeto del negocio, mientras que los segundos registran y miden el desempeÃ±o de ese objeto desde diversos aspectos. Una mÃ©trica simple consiste en calcular las horas/hombre dedicadas a la operaciÃ³n y al anÃ¡lisis en una organizaciÃ³n. En nuestras experiencias, encontramos casos de empresas mexicanas con una relaciÃ³n entre operaciÃ³n/anÃ¡lisis de un 98%/2% y un 89%/11%, respectivamente.

Desde mi punto de vista, y de acuerdo con los diversos tipos de negocios, los rangos deben estar entre un 80%/20% a un 60%/40%.

Como hemos visto, vender Cultura AnalÃtica afecta de manera significativa toda la estructura de la empresa, de ahÃ la importancia de tener una visiÃ³n integral del negocio. En uno de sus diagnÃ³sticos, la Cultura AnalÃtica estudia las actividades sin valor dentro de los procesos analÃticos.

Para ejemplificar esto, recuerdo que tuve una experiencia en una instituciÃ³n bancaria: la persona que analizaba casos de operaciones inusuales de depÃ³sitos bancarios, tenÃa que copiar las cuentas detectadas por un sistema y analizarlas en otro. â€œCopiar y pegarâ€ le consumÃa el 45% de su tiempo laboral. Cuando se detectÃ³ esta actividad sin valor, se desarrollÃ³ un programa que lo hacÃa en minutos, lo que le permitiÃ³ a la persona realizar anÃ¡lisis de mayor profundidad e incorporar nuevas tÃ©cnicas analÃticas.

Otro punto a incorporar es la capacitaciÃ³n, sobre todo en estrategias para resolver los problemas analÃticos y en el uso de herramientas de explotaciÃ³n de datos.

De igual manera que se ha aprendido a vender los proyectos, tambiÃ©n ha habido ciertos aprendizajes citados a continuaciÃ³n:

La Cultura AnalÃtica debe estar al alcance de muchos. Se debe apegar a metodologÃas analÃticas bien documentadas, donde una persona con ciertos conocimientos tÃ©cnicos, sin ser â€œgurÃºâ€ las pueda entender. TambiÃ©n los usuarios deberÃan tener acceso a la explotaciÃ³n de la informaciÃ³n con herramientas amigables con destacados componentes de visualizaciÃ³n de datos.

Un proyecto debe hacerse inmune a quien lo diseÃ±a, por lo tanto, no debe de haber dependencia del â€œgurÃºâ€, de tal forma que el proyecto analÃtico se pueda repetir a lo largo del tiempo.

Se deben tener habilidades que permitan mejorar la calidad de los datos.

Deben darse resultados que impacten el nÃºcleo del negocio, teniendo una visiÃ³n lo mÃ¡s integral posible, por lo que el responsable del proyecto debe de involucrarse mucho en el negocio de la organizaciÃ³n.

Tener una certificaciÃ³n en el uso de herramientas de Data Mining no garantiza el Ã©xito de un proyecto.

Adicionalmente, un elemento trascendental que ha surgido para cubrir las diversas necesidades actuales de las organizaciones, es el â€œModelo de Datos AnalÃticoâ€ (MDA). Se trata de un modelo â€“generalmente bajo el esquema entidad-relaciÃ³nâ€“ que guardan algunas diferencias respecto a un modelo de datos tradicional o un Data Warehouse.

En un modelo tradicional, se determinan objetivos y alcances, luego se realizan entrevistas con los usuarios, se procede al mapeo de procesos, la definiciÃ³n de necesidades futuras, el anÃ¡lisis de las fuentes de datos hasta diseÃ±arlo, construirlo, probarlo, documentarlo, liberarlo y capacitar a los usuarios, dependiendo de la metodologÃa usada.

Una vez definidos los objetivos y el alcance, en el MDA se integran todos los elementos que permitan tomar de decisiones tanto a los directivos, como a quienes estÃ¡n analizando la informaciÃ³n. Se coloca como eje al usuario y sobre eso, se intenta proporcionarle la informaciÃ³n que necesite mediante grÃ¡ficas, tablas, reportes, indicadores, entre otros. Todo lo anterior en apego a las metodologÃas tradicionales, pero con insumos y estrategias diferentes.

Por ejemplo, en un modelo tradicional se necesita definir en su contenido la direcciÃ³n completa de un cliente. En cambio, un MDA sÃ³lo necesitarÃ¡ de la colonia, el cÃ³digo postal (CP) y las variables hijas de Ã©ste, como CP2 y CP3, refiriÃ©ndose al CÃ³digo Postal que contienen los 2 y 3 primeros dÃgitos, para garantizar que los algoritmos puedan consolidar por grandes grupos de localidades.

TambiÃ©n en un MDA, en la gran mayorÃa de los casos, el nombre del cliente no importarÃ¡, sino Ãºnicamente algÃºn identificador Ãºnico. De igual forma no existe el concepto de hechos, ni dimensiones que tiene un Data Warehouse, aunque existen histÃ³ricos, granularidad y metadatos.

Un aspecto importante dentro de un MDA es la polÃtica de nomenclatura de variables. Para ello, es necesario tener nombres que apoyen al usuario a entenderlas de manera intuitiva. Se deben clasificar para saber cuÃ¡ntas variables pertenecen a catÃ¡logos numÃ©ricos, alfanumÃ©ricos, cuÃ¡ntas variables fecha se tienen, cuÃ¡ntas son indicadores, cuÃ¡ntas estÃ¡n relacionadas a montos, importes, etc.

Finalmente, una vez construido el MDA, se debe apoyar con poderosas herramientas grÃ¡ficas de consulta de informaciÃ³n para usuarios no informÃ¡ticos. Esto permite que los usuarios de negocio puedan explotar la informaciÃ³n al momento que la necesiten, sin tener dependencia de las Ã¡reas de TI. A su vez, una herramienta de Data Mining se conecta al MDA, lo que facilita aplicar las diversas tÃ©cnicas, repetir los estudios a lo largo del tiempo para comparar los avances de la organizaciÃ³n.

Entre las tÃ©cnicas mÃ¡s comunes, destaca los Ã¡rboles de decisiÃ³n, las reglas de asociaciÃ³n, clustering y los mÃ©todos bayesianos, principalmente.

Cuando se implementÃ³ un MDA en una compaÃ±Ãa telefÃ³nica, al principio se visitaron las diversas Ã¡reas de negocio para recopilar sus elementos de decisiÃ³n y saber las necesidades de informaciÃ³n que tenÃan. Se partiÃ³ de poner al usuario en el centro para observar la propensiÃ³n de abandono de los clientes, conocido en inglÃ©s como â€œchurnâ€, y determinar quÃ© elementos necesitaba para desempeÃ±ar su trabajo, ademÃ¡s de la informaciÃ³n de consumo que se le daba.

Era necesario saber cuÃ¡ntas campaÃ±as de promociÃ³n se le habÃa hecho al cliente, cuÃ¡ntas quejas se tenÃan, como habÃa evolucionado tecnolÃ³gicamente en sus diversos telÃ©fonos que habÃa adquirido, si usaba su plan de datos para acceder a Facebook, o Twitter, cada cuÃ¡ndo perdÃa su telÃ©fono, entre otros aspectos.

Al presentar el proyecto al Ã¡rea de TI, se nos informÃ³ que lo que solicitÃ¡bamos era â€œimposibleâ€, pues cada informaciÃ³n estaba en sistemas independientes. Afortunadamente, se pudo pasar sobre ese paradigma, gracias a los directivos que apoyaron el proyecto, de tal forma que sus primeros resultados incrementaron la respuesta con las mismas campaÃ±as, pasando de un 3% a un 30%, mediante una mejor selecciÃ³n de clientes propensos a abandonar la compaÃ±Ãa.

La informÃ¡tica no ha podido cumplir los requerimientos de los usuarios

Este crecimiento de los modelos de datos â€“con poca planificaciÃ³n y enfocado mÃ¡s a resolver problemas inmediatosâ€“, ha originado que el tema de la calidad de datos tenga un papel importante.

Aunque existen muchos conceptos para corregir esto tales como: la higienizaciÃ³n de datos, la limpieza de datos, el filtrado de datos, la estandarizaciÃ³n y depuraciÃ³n de datos, hemos decidido llamarles â€œprocesos de mejora de calidad de datosâ€, pero que sin duda se trata de un aspecto fundamental antes de considerar hacer un proyecto de Data Mining.

La informÃ¡tica debe volcar sus esfuerzos en dar soluciones integrales y analÃticas; debe colocar como eje central al usuario y proveerlo de toda la informaciÃ³n necesaria y fidedigna para cumplir con su actividad, lo que traerÃa beneficios directos a las instituciones. AquÃ surge el fundamento de lo que se le ha llamado Big Data.16

El Big Data

A partir de una necesidad para proporcionar al usuario una visiÃ³n analÃtica de 360 grados sobre los clientes, los productos, los empleados, las transacciones que, a su vez, estÃ©n inter-ligados, surge el concepto Big Data, conocido tambiÃ©n por otros nombres (Big Data Analytics, Value Data, Smart Data, entre otros).

Aunque hay todavÃa muchas discusiones por el nombre, lo que de veras importa es que atiende una necesidad y que debe de contener varias palabras: almacenamiento y procesamiento masivo, heterogeneidad de datos, integraciÃ³n, fÃ¡cil explotaciÃ³n de datos, anÃ¡lisis avanzado y data mining.

Muchos textos al respecto se preocupan mÃ¡s por el tipo de almacenamiento de datos heterogÃ©neos y hablan de pentabytes, exabytes, zettabytes o yottabytes. Sin embargo, eso no necesariamente responde a la necesidad del usuario.

Otro de los factores que pueden detonar el Big Data, consiste en explotar mejor la informaciÃ³n que envian los sensores o dispositivos mÃ³viles, tales como la informaciÃ³n de camiones de transporte, de dispositivos de geolocalizaciÃ³n, de tarjetas con antenas transmisoras. Estas Ãºltimas, por ejemplo, pueden rastrear con la instalaciÃ³n de muchas antenas la navegaciÃ³n de los clientes en una tienda, o de sistemas mÃ¡s complicados como en la red de transporte pÃºblico de la ciudad.

Junto con Big Data hay que proveer al usuario de herramientas para ejecutar acciones oportunas como respuesta del negocio. Aunque falta mucho camino para entender a los clientes, un gran error que comenten los ejecutivos es que si Ã©stos detectan â€œalgoâ€ en la red social, quieren atacar ese mercado desde esa misma red social. Pero eso no siempre es lo mejor.

En la gran mayorÃa de los casos, las redes sÃ³lo sirven para detectar patrones o grupos y deben ser atraÃdos desde otros medios.

En las campaÃ±as presidenciales de MÃ©xico en el 2012 existieron dos propuestas polÃticas (PRD-PT y PAN) que quisieron convencer a parte de ese electorado de su voto a favor desde las redes sociales. Sin embargo, tuvieron un efecto contrario y acabaron llenÃ¡ndolos de infinidad de informaciÃ³n, no toda fidedigna, y hasta con cierto grado de agresiÃ³n no sÃ³lo a los candidatos, sino a los cibernautas.

En mi opiniÃ³n concluÃ â€“con base en varias encuestasâ€“ que muchos electores indecisos decidieron no dar su voto a la propuesta polÃtica que enviaba mensajes agresivos en la red social en la que estaban. Cabe aclarar que muchos de estos mensajes no eran realizados por estas propuestas polÃticas, sino por cibernautas afines a ellas.

El equipo cientÃfico de Barack Obama en las elecciones del 2012, dirigido por Rayid Ghani, se dedicÃ³ a analizar los diferentes perfiles de electores en un lugar llamado â€œLa Cuevaâ€. La situaciÃ³n al principio prÃ¡cticamente era un empate tÃ©cnico entre ambos candidatos, por lo que habÃa que hacer cosas diferentes.

Durante 18 meses unificaron todas las bases de datos que emplearon los equipos de campaÃ±a de Obama que le ganÃ³ a McCain en el 2008, en lo que podemos llamar el Big Data, combinando las redes sociales, listas de donantes, encuestas, las bases de datos del partido que determinaban sus preferencias polÃticas o la indecisiÃ³n en cada estado de importancia.

Entre las variables introducidas estaban: sexo, edad, raza, etnia, lugar de residencia, idioma, ingreso, tendencia polÃtica, historial de participaciÃ³n electoral, junto con aficiones, red de amigos, preferencias de consumo, la mayorÃa obtenidos del Facebook.

Algunos aspectos que encontraron los cientÃficos fueron:

El 20% de los que recibÃan un mensaje vÃa Facebook lo leÃan y lo mandaban a sus amigos. La acciÃ³n fue diseÃ±ar una aplicaciÃ³n que transmitÃa mensajes muy bien estructurados animando a sus contactos a registrarse para algÃºn evento donde Obama estarÃa presente.

Se descubriÃ³ que en Florida era necesario convencer a las mujeres del condado de Dade de menos de 35 aÃ±os, que les gustaban ciertos programas de televisiÃ³n. La acciÃ³n fue contratar publicidad en â€œSons of Anarchyâ€ y â€œThe Walking Deadâ€, que eran programas que la gran mayorÃa de ellas veÃa con frecuencia.

HabÃa un importante grupo de votantes indecisos en la red social Reddit. La acciÃ³n fue que Obama se registrÃ³ para interactuar junto con su equipo dentro de esa red.

Se encontrÃ³ que un grupo de mujeres de la Costa Este estaban indecisas. La acciÃ³n fue hacer un sorteo en esa regiÃ³n para ir a visitar, junto con Obama, a la actriz de la serie televisiva â€œSex and the Cityâ€, Sarah Jessica Parker, nacida en 1965 y conocida como un referente en la moda.

Se descubriÃ³ que las mujeres de entre 40 y 49 aÃ±os de la Costa Oeste soÃ±aban con tener una cena con George Clooney. La acciÃ³n fue hacer un sorteo para cenar con Obama y el actor en Hollywood.

En la noche del escrutinio, Mitt Romney vio cÃ³mo se iban sus estados como Ohio, Virginia, New Hampshire, Indiana, Colorado, Florida, Iowa a favor de Obama. Unas horas despuÃ©s, la revista TIME17 fue el medio que develÃ³ la existencia de â€œLa Cuevaâ€. En marzo del 2012, el presidente Obama dio a conocer un proyecto denominado â€œThe Big Data Research and Development Initiativeâ€.18

La iniciativa estÃ¡ compuesta por 84 diferentes programas de Big Data distribuidos en seis dependencias.

El reto futuro

Las instituciones tanto pÃºblicas como privadas han hecho esfuerzos por conceptos como Cuenta Ãšnica, Cliente Ãšnico, Clave Ãšnica de Registro de PoblaciÃ³n (CURP), Registro Federal de Causantes (RFC), Documento Nacional de Identidad (DNI), entre otros.

Sin embargo, por ejemplo, en los sistemas es comÃºn hablar de la CURP16 o CURP18, para decir que la primera le faltan dÃgitos y en el segundo estÃ¡ completa.

En un estudio del CURP de ciudadanos que asistÃan a escuelas del Distrito Federal, encontramos que un grupo importante de estos aparentemente habÃan nacido en el estado de Aguascalientes. Al buscar la fuente del problema, encontramos que el sistema de captura asumÃa el estado que aparece como primero y lo ponÃa por defecto, en caso de que no se hubiera llenado, en vez de haber puesto Distrito Federal por defecto. Por lo tanto, debemos decir que el esfuerzo de cumplir con las claves de identificaciÃ³n Ãºnicas completas debe ser prioridad de las instituciones del gobierno, certificando que los sistemas puedan llenar de forma correcta y completa datos como la CURP.

De igual forma sucede con las direcciones. Es necesario que cada predio tenga una direcciÃ³n Ãºnica, ya que resulta curioso que la correspondencia que recibe un ciudadano de los distintos Ã³rganos del gobierno (agua, luz, predial, multas de trÃ¡nsito, etc.) tienen direcciones diferentes, que varÃan principalmente en el nombre de la colonia y el cÃ³digo postal. La necesidad de que los municipios cuenten con catÃ¡logos de calles y colonias es primordial, asÃ como establecer criterios para dar los nombres a las calles.

Existe el caso de un municipio que decidiÃ³ realizar una polÃtica de nomenclatura a sus calles, de tal forma que en lo referente a nombres de hÃ©roes o personajes distinguidos, se comienza por el nombre y termina por el apellido sin abreviaturas. Esto facilita bastante la forma de que cada predio tenga una direcciÃ³n Ãºnica y la correspondencia llegue realmente a donde debe.

Actualmente, en MÃ©xico existen dos organismos que indican cÃ³mo se debe establecer una direcciÃ³n: uno es el Servicio Postal Mexicano (SEPOMEX) y el otro es el Instituto Nacional de EstadÃstica y GeografÃa (INEGI). Sin embargo, en el tema de usar o no abreviaturas, por ejemplo, Ã©stas se contraponen, situaciÃ³n que se debe unificar.

Por otro lado, cada vez que se pide una factura fiscal, resulta que se deben capturar todos los datos; siendo que si existieran sistemas mÃ¡s eficientes, con sÃ³lo teclear el RFC y solicitar a un centro del gobierno que llene los campos restantes en forma automÃ¡tica, eso ahorrarÃa miles de horas/hombre anuales gastadas en esa actividad. Algunos me entenderÃ¡n cuando piden una factura a un restaurante y Ã©sta llega a tardar mÃ¡s de 30 minutos y despuÃ©s de su revisiÃ³n observamos que tiene errores.

Una estrategia para vender Big Data se refiere a plantearle situaciones de peligro a la compaÃ±Ãa y ver si estÃ¡ preparada tecnolÃ³gicamente para responder ante eso.

Por ejemplo, quÃ© informaciÃ³n crucial se requiere al momento que hubiera un accidente para definir acciones. Ante eso, el posible cliente se da cuenta de que sÃ³lo tiene informaciÃ³n parcial ante un posible escenario y percibe inmediatamente la necesidad del Big Data, asÃ como su necesidad de analizar toda la informaciÃ³n en conjunto.

Para concluir, a lo largo de este artÃculo hemos hecho una revisiÃ³n de cÃ³mo han evolucionado las actividades analÃticas a lo largo del tiempo, y cÃ³mo se han ido solventando problemas con la incorporaciÃ³n de metodologÃas, de una visiÃ³n integral del negocio, del Modelo de Datos AnalÃtico, y que esto a su vez estÃ¡ convirtiÃ©ndose en lo que se conoce como Big Data.

Hoy algunas de las empresas que venden estÃ¡ tecnologÃa encabezan sus discursos de venta sobre almacenamiento masivo de datos heterogÃ©neos, incorporando tÃ©rminos como â€œcÃ³mputo en la nubeâ€.

Sin embargo, el verdadero poder de esta evoluciÃ³n tecnolÃ³gica estÃ¡ en darle a los usuarios una informaciÃ³n completa, integral y fidedigna, acompaÃ±ada de elementos analÃticos y de fÃ¡cil explotaciÃ³n, que le ayuden a entender mejor el negocio, permitiendo beneficios como ahorros, identificaciÃ³n de nuevos perfiles, bÃºsqueda de nuevos nichos de mercado, recomendaciÃ³n de nuevos productos, detecciÃ³n de fallas en los procesos, entre otros.

– El autor de este artÃculo, Luis Carlos Molina FÃ©lix, comenzÃ³ en Data Mining desde 1996. Es autor del libro Data Mining â€“ Una IntroducciÃ³n, FUOC 2000, y del artÃculo â€œData Mining: Torturando los datos hasta que confiesenâ€, UOC 2002. Desde el 2005 es director de Operaciones de Power Builders, empresa de soluciones analÃticas y limpieza de datos con sede en MÃ©xico, luiscarlos.molina@powerbuilders.com.mx. La versiÃ³n completa del artÃculo estÃ¡ en https://iworld.com.mx/Del-Data-Mining-al-Big-Data/

Secciones

Síguenos

Contenido Exclusivo

¡Ya está aquí la Revista Digital “Los Mejores 20 CISO de México 2025”!

¡Descarga la Revista Digital “Los Mejores 100 CIO de México 2025”!

“Los 100 Mejores CIO de MÃ©xico” celebran 20 AÃ±os de transformaciÃ³n y liderazgo Ã©tico

Secciones

Síguenos

Del Data Mining al Big Data

Lo Más Reciente

La revolución de la IA está haciendo al hardware más importante que nunca

Crecer ya no es contratar: el dilema de las empresas mexicanas en 2026

La nueva fiscalización digital convierte los datos en un activo estratégico

México 2026: fútbol, prime time y una audiencia hiperconectada

Newsletter

La revolución de la IA está haciendo al hardware más importante que nunca

Crecer ya no es contratar: el dilema de las empresas mexicanas en 2026

La nueva fiscalización digital convierte los datos en un activo estratégico

Acerca de CIO | EDIWORLD

Secciones