jueves, 3 de mayo de 2018

Haciendo un proyecto de machine learning

Muchos productos en el mercado tecnológico actual esta enfocados en soluciones de machine learning, y algunos equipos de consultoría aún más atrevidos abordan el concepto desde Big Data, uno de esos conceptos que son usados por muchas empresas, consultorías y gurús tecnológicos sin conocer en realidad su significado. En esta entrada quiero enfatizar en un proceso aplicado y que ha funcionado en mi experiencia para implementar este tipo de proyectos en el orden correcto, con las expectativas adecuadas, con tiempos competitivos y presupuestos que no pongan en aprieto demostrar el ROI de este tipo de iniciativas. Lo dividiré en distintas entradas, y en esta me enfocare en la base de todo, la data de origen procesada por el modelo.
Primero quiero detenerme a hablar un poco de Big Data, y aclarar que en mi percepción practica (no teórica), el big data no es más que el aprovechamiento de datos que antiguamente no eran almacenados ni aprovechados de una forma ordenada por las organizaciones, y esto incluye datos de todos los tipos, o como la teoría los llama, estructurados y no estructurados. Y si claro, es una cantidad inmensa de datos, solamente evaluemos cuantos datos residen en las cabezas de nuestros colaboradores, y que actualmente no se encuentran en un sistema de almacenamiento tecnológico, estamos hablando de millones de datos. Este enfoque nos hace confirmar que la data de nuestra empresa es una mina de oro, pero lastimosamente a veces nos enfocamos tanto en esto, que olvidamos la pequeña data, aquella que ya reside en un sistema de almacenamiento y que no estamos aprovechando, no digo que el big data no debe hacerse, pero no es más que una administración efectiva y en masa de data de todo tipo estructurada y no.
Ahora, enfocándome más en el tema de modelos de “machine learning”, pues estos están directamente relacionados con el big data, evidentemente entre más data tengamos, nuestros modelos pueden ser mucho más exactos, esto no es algo nuevo, los modelos de probabilidad y muestreo nos lo enseñan de manera teórica desde hace muchos años. Sin embargo, yo debo decir que difiero en mencionar que la cantidad de datos está directamente proporcionada con la calidad de los análisis de machine learning, pues no solo la cantidad, sino la calidad (completitud, correctitud e idoneidad) son fundamentales para que los resultados de estos modelos se acerquen a lo esperado, o a lo inesperado, pero realmente predictivo que las industrias están esperando.
Nuevamente, la tecnología de implementación, si hacemos un lago o no, y que herramienta de ML implementamos, o inclusive, si es necesario implementarla o no, son de las decisiones menos trascendentales de este tipo de proyectos. Sin más explicación, quiero compartir con ustedes las claves que en mi experiencia me han llevado a abordar y ejecutar este tipo de proyectos con éxito en el pasado: (FASE I, fuentes de los modelos)
1.       Todo inicia en la arquitectura: Se que esto es común en mis publicaciones y en el tema de datos no es la excepción. La arquitectura es la base y en este tipo de proyectos identificar el AS IS es importante, yendo más de los típicos activos de datos transaccionales. Pero como puede ser un trabajo sin fin, en la primera iteración es importante dejarlo tan general como sea posible, nombres de fuentes como máximo. Si tratamos de hondar más es posible que no salgamos nunca de este primer paso.
2.       Priorizar valor: Aunque toda la data es importante, no toda genera el mismo valor, y no es la misma en todas las organizaciones, depende mucho de la realidad de cada una, la industria, sus mayores dolores entre otros. No puedo decirles cual será el mayor valor, depende de la organización donde estén realizando el ejercicio, lo que si les puedo decir es que deben identificarlo para dar un alcance real a la iniciativa.
3.       Modelar entradas y corregir lo necesario desde el origen: Una vez se identifique el punto 2, debemos analizar las fuentes del primer punto que son necesarias para alcanzar ese valor. Y de esas fuentes debemos identificar la calidad de los datos que tenemos, para asegurar el nivel de acierto que tendrá el modelo, así como considerar el costo vs beneficio y reconstruir la data que consideremos necesaria. Lo que decidamos corregir, debemos asegurar que sea desde la raíz y como siempre defino, las tres variables, el proceso que genera el input de los datos, las personas pues deben capacitarse y finalmente el sistema o tecnología en la que se captura el input. Debe de corregirse de raíz para que esta iteración sea cada vez más corta.
4.       Pequeños alcances y grandes resultados: La data en una organización moderan es BIG desde su origen, porque esta alimentada por fuentes terceras que tienen un altísimo flujo de datos de interés. Redes sociales, centros comerciales, tarjetas de puntos, bancos, etc. Entonces, pensar en cubrir todo el universo de los datos a la primera es imposible. Es importante definir un alcance orientado a los pain points más grandes. Empezar en este punto y dejar lo demás de lado, además de no permitir que los demás participantes del grupo, quieran moverse a la perfección de la totalidad del universo de los datos, de lo contrario, no acabaras nunca.
Finalmente, es importante mapear el alcance y las iniciativas a tomar a los objetivos de negocio, y entender que no toda la data genera el mismo valor para todas las organizaciones y que por lo tanto en algunas ocasiones es más eficiente renunciar a algunos de estos datos por lo menos en ese momento. Para esto trato de usar el esquema de almacenar todo lo existente, tal vez no todo podre usarlo el día 0, pero reducir la perdida al mínimo, pensando en un futuro que puede ser en estos temas muy incierto.
En esta primera entrada describo el primer paso, trabajar con la data de origen. Esto es fundamental, pues no solo podemos considerar el volumen de datos sino la calidad, y trabajar para de raíz asegurarnos que los problemas de calidad queden sanados en la data a usar en le modelo, de lo contrario, si lo que entra no es de calidad, lo que saldrá, tampoco lo será. Como siempre la agilidad, el alcance corto y el valor rápido son fundamentales. Empecemos con la data relevante para el primer modelo y luego desde ese punto seguimos avanzando. Definamos iteraciones cortas de limpieza, no olvidemos incluir siempre la raíz.
En la próxima entrada continuare hablando sobre este tema, y profundizando en los pasos de construcción del modelo, la arquitectura técnica, incluyendo el concepto de “data lake” y su necesidad para estas iniciativas. Finalmente incluiré un tema de canales de consumo y validación de idoneidad de modelos de aprendizaje con “machine learning” y acotare especialmente el alcance de las herramientas que los proveedores nos venden para este fin, pues, muchas empresas ya tienen modelos de machine learning en un primer nivel desarrollados, y NO es necesario tener herramientas especializadas para poder dar los primeros de pasos de madurez en este tipo de tecnologías. La herramienta es lo de menos, como siempre.

No hay comentarios.:

Publicar un comentario