Data mining en eCommerce: del big data a la información
Los datos juegan un papel central en el eCommerce. Muchas tiendas online recopilan datos sobre los hábitos de los clientes, sobre los carritos de la compra y sobre los productos con la intención de optimizar sus procesos de venta. Sin embargo, una montaña de datos por sí sola dice poco. Convertir estos datos puros en información útil ayuda a mejorar el funcionamiento de la tienda y a aumentar las ventas. Es aquí donde entra en juego una herramienta de análisis de datos masivos denominada data mining o minería de datos.
¿Qué es el data mining?
Para entender este concepto, que bebe de las ciencias de la computación y la estadística, es útil entender la metáfora contenida en el nombre. Si se observa el resultado del rastreo casi absoluto del comportamiento de los usuarios en Internet como una montaña de datos aparentemente inútil, el data mining, que se traduce como minería de datos, proporciona las herramientas necesarias para explorar esta cantidad ingente de datos y extraer de ella información relevante. Estas herramientas consisten en métodos estadísticos que permiten identificar patrones de comportamiento y conexiones en unos datos que, por sí solos, no significan nada. La minería de datos se relaciona, a menudo, con el big data, concepto que se refiere a las bases de datos cuyo volumen ya no permite un análisis convencional y, por ello, se apoya en procesos computacionales. Mediante el proceso de data mining se puede explorar, sin embargo, cualquier cantidad de datos. En realidad, la exploración de datos es una de las etapas de un proceso mayor, la denominada “extracción de conocimientos en bases de datos” (Knowledge Discovery in Databases o KDD), que abarca los siguientes pasos:
- Elección de la base de datos a analizar
- Procesamiento previo que limpia y prepara la base de datos
- Transformación en la forma que necesite el proceso de análisis
- Proceso mismo de análisis mediante un proceso matemático (data mining)
- Interpretación de los resultados
La información que se extrae mediante una KDD puede aplicarse a una gran variedad de ámbitos, por ejemplo, a la planificación estratégica de un negocio online y a la toma de decisiones de marketing.
Áreas de aplicación del data mining
La minería de datos permite optimizar el comercio electrónico sobre una base científica. Las grandes bases de datos propias de las tiendas online constituyen el punto de partida para extraer conclusiones y pronósticos. Estos datos, elaborados estadísticamente y visualizados de forma estructurada, permiten a los administradores de tiendas online identificar los factores que influyen en el éxito de un negocio online y recalcular las estrategias. Data mining se usa en este caso para:
- Segmentar mercados
- Analizar la demanda
- Crear perfiles de compradores
- Analizar carritos de la compra
- Calcular los precios de los productos
- Identificar fallos en los procesos de venta
- Elaborar un pronóstico sobre el vencimiento de los contratos
Métodos del data mining
Para extraer información relevante para las empresas, se han implementado diferentes métodos basados en la identificación de conexiones, modelos y patrones significativos y que usan procedimientos propios de las ciencias estadísticas:
- Reconocimiento del valor atípico (outlier detection): por valores atípicos se entienden aquellos valores que se distancian de forma extrema del resto, ya que se desvían de un patrón o una tendencia general. En la minería de datos este análisis sirve para identificar datos llamativos que podrían conducir a un fraude mediante tarjeta de crédito.
- Análisis de agrupamiento o clustering: un clúster es un grupo de objetos que se apoya en las relaciones de parecido mutuo. El objetivo de este análisis es la segmentación de datos no estructurados, para lo que se usan algoritmos que exploran bases de datos en busca de estructuras de semblanza para identificar nuevos clústeres. A diferencia de la clasificación, el análisis de agrupamiento tiene el objetivo de descubrir nuevas posibilidades de agrupación. Los datos que no se pueden subordinar a ningún grupo pueden ser interpretados como datos atípicos. Un caso muy habitual de aplicación en eCommerce es la identificación de grupos de usuarios.
- Clasificación (análisis discriminante): mientras que en el anterior método de análisis la atención se centra en la identificación de grupos nuevos, en el análisis discriminante se aplican clases predefinidas. La distribución tiene lugar a partir de características comunes a datos individuales. Una manera muy habitual para clasificar datos automáticamente consiste en los árboles de decisión (decision trees), modelos de predicción usados en la inteligencia artificial para establecer esquemas de construcciones lógicas que permiten categorizar una serie de condiciones sucesivas. Funciona a partir de nodos, en cada uno de los cuales se fija un aspecto del objeto. Su constancia o no constancia en el objeto decide la elección del siguiente nodo (o característica del objeto). En el ámbito del eCommerce se usa este procedimiento de data mining para segmentar a los clientes en diferentes grupos.
- Análisis de asociación (reglas de asociación): un análisis de este tipo busca identificar conexiones que puedan ser formuladas como regla absoluta. Para las tiendas online este procedimiento de data mining se podría aplicar para identificar correlaciones en un carrito de la compra típico según el patrón “clientes que compran el producto A, compran también el producto B”.
- Análisis de regresión: con este tipo de análisis estadístico se pueden crear modelos que expliquen una variable dependiente a partir de variantes independientes. En la práctica, permite elaborar un pronóstico para la venta de un producto, poniendo en relación en un patrón de regresión el precio del producto y el sueldo medio del cliente.
Limitaciones del data mining
El data mining agrupa métodos estadísticos que permiten un análisis fundamentalmente objetivo de bases de datos. Sin embargo, la elección subjetiva del tipo de análisis y de los diferentes algoritmos y parámetros según determinados objetivos, puede llevar, quizás de forma deseada, a una adulteración de los resultados. Una forma de evitarlo podría ser recurrir a un servicio externo de minería de datos.
El estado de la base de datos también es fundamental para la calidad de la información extraída. Solo se extraen resultados representativos cuando los datos disponibles lo son también. Es por esto que en la mayoría de los casos, antes de comenzar con el proceso de data mining propiamente, se realiza un procesamiento previo de la base de datos, eliminando espacios vacíos y distorsiones.
Por último, no hay que olvidar que el data mining arroja los resultados en forma de patrones y conexiones. Para obtener respuestas hay que interpretar los resultados en función de las interrogaciones y los objetivos establecidos previamente.