Muchos productos en el mercado
tecnológico actual esta enfocados en soluciones de machine learning, y algunos
equipos de consultoría aún más atrevidos abordan el concepto desde Big Data,
uno de esos conceptos que son usados por muchas empresas, consultorías y gurús
tecnológicos sin conocer en realidad su significado. En esta entrada quiero
enfatizar en un proceso aplicado y que ha funcionado en mi experiencia para
implementar este tipo de proyectos en el orden correcto, con las expectativas
adecuadas, con tiempos competitivos y presupuestos que no pongan en aprieto
demostrar el ROI de este tipo de iniciativas. Lo dividiré en distintas
entradas, y en esta me enfocare en la base de todo, la data de origen procesada
por el modelo.
Primero quiero detenerme a hablar
un poco de Big Data, y aclarar que en mi percepción practica (no teórica), el
big data no es más que el aprovechamiento de datos que antiguamente no eran
almacenados ni aprovechados de una forma ordenada por las organizaciones, y
esto incluye datos de todos los tipos, o como la teoría los llama,
estructurados y no estructurados. Y si claro, es una cantidad inmensa de datos,
solamente evaluemos cuantos datos residen en las cabezas de nuestros
colaboradores, y que actualmente no se encuentran en un sistema de
almacenamiento tecnológico, estamos hablando de millones de datos. Este enfoque
nos hace confirmar que la data de nuestra empresa es una mina de oro, pero
lastimosamente a veces nos enfocamos tanto en esto, que olvidamos la pequeña
data, aquella que ya reside en un sistema de almacenamiento y que no estamos
aprovechando, no digo que el big data no debe hacerse, pero no es más que una
administración efectiva y en masa de data de todo tipo estructurada y no.
Ahora, enfocándome más en el tema
de modelos de “machine learning”, pues estos están directamente relacionados con
el big data, evidentemente entre más data tengamos, nuestros modelos pueden ser
mucho más exactos, esto no es algo nuevo, los modelos de probabilidad y
muestreo nos lo enseñan de manera teórica desde hace muchos años. Sin embargo,
yo debo decir que difiero en mencionar que la cantidad de datos está
directamente proporcionada con la calidad de los análisis de machine learning,
pues no solo la cantidad, sino la calidad (completitud, correctitud e
idoneidad) son fundamentales para que los resultados de estos modelos se
acerquen a lo esperado, o a lo inesperado, pero realmente predictivo que las
industrias están esperando.
Nuevamente, la tecnología de
implementación, si hacemos un lago o no, y que herramienta de ML implementamos,
o inclusive, si es necesario implementarla o no, son de las decisiones menos
trascendentales de este tipo de proyectos. Sin más explicación, quiero
compartir con ustedes las claves que en mi experiencia me han llevado a abordar
y ejecutar este tipo de proyectos con éxito en el pasado: (FASE I, fuentes de
los modelos)
1. Todo inicia en la arquitectura: Se que
esto es común en mis publicaciones y en el tema de datos no es la excepción. La
arquitectura es la base y en este tipo de proyectos identificar el AS IS es
importante, yendo más de los típicos activos de datos transaccionales. Pero
como puede ser un trabajo sin fin, en la primera iteración es importante
dejarlo tan general como sea posible, nombres de fuentes como máximo. Si
tratamos de hondar más es posible que no salgamos nunca de este primer paso.
2. Priorizar valor: Aunque toda la data es
importante, no toda genera el mismo valor, y no es la misma en todas las
organizaciones, depende mucho de la realidad de cada una, la industria, sus
mayores dolores entre otros. No puedo decirles cual será el mayor valor,
depende de la organización donde estén realizando el ejercicio, lo que si les
puedo decir es que deben identificarlo para dar un alcance real a la
iniciativa.
3. Modelar entradas y corregir lo necesario
desde el origen: Una vez se identifique el punto 2, debemos analizar las
fuentes del primer punto que son necesarias para alcanzar ese valor. Y de esas
fuentes debemos identificar la calidad de los datos que tenemos, para asegurar
el nivel de acierto que tendrá el modelo, así como considerar el costo vs
beneficio y reconstruir la data que consideremos necesaria. Lo que decidamos
corregir, debemos asegurar que sea desde la raíz y como siempre defino, las
tres variables, el proceso que genera el input de los datos, las personas pues
deben capacitarse y finalmente el sistema o tecnología en la que se captura el
input. Debe de corregirse de raíz para que esta iteración sea cada vez más
corta.
4. Pequeños alcances y grandes resultados: La
data en una organización moderan es BIG desde su origen, porque esta alimentada
por fuentes terceras que tienen un altísimo flujo de datos de interés. Redes
sociales, centros comerciales, tarjetas de puntos, bancos, etc. Entonces,
pensar en cubrir todo el universo de los datos a la primera es imposible. Es
importante definir un alcance orientado a los pain points más grandes. Empezar en
este punto y dejar lo demás de lado, además de no permitir que los demás participantes
del grupo, quieran moverse a la perfección de la totalidad del universo de los
datos, de lo contrario, no acabaras nunca.
Finalmente, es importante mapear
el alcance y las iniciativas a tomar a los objetivos de negocio, y entender que
no toda la data genera el mismo valor para todas las organizaciones y que por
lo tanto en algunas ocasiones es más eficiente renunciar a algunos de estos
datos por lo menos en ese momento. Para esto trato de usar el esquema de
almacenar todo lo existente, tal vez no todo podre usarlo el día 0, pero
reducir la perdida al mínimo, pensando en un futuro que puede ser en estos temas
muy incierto.
En esta primera entrada describo
el primer paso, trabajar con la data de origen. Esto es fundamental, pues no
solo podemos considerar el volumen de datos sino la calidad, y trabajar para de
raíz asegurarnos que los problemas de calidad queden sanados en la data a usar
en le modelo, de lo contrario, si lo que entra no es de calidad, lo que saldrá,
tampoco lo será. Como siempre la agilidad, el alcance corto y el valor rápido son
fundamentales. Empecemos con la data relevante para el primer modelo y luego
desde ese punto seguimos avanzando. Definamos iteraciones cortas de limpieza,
no olvidemos incluir siempre la raíz.
En la próxima entrada continuare
hablando sobre este tema, y profundizando en los pasos de construcción del
modelo, la arquitectura técnica, incluyendo el concepto de “data lake” y su
necesidad para estas iniciativas. Finalmente incluiré un tema de canales de
consumo y validación de idoneidad de modelos de aprendizaje con “machine learning”
y acotare especialmente el alcance de las herramientas que los proveedores nos
venden para este fin, pues, muchas empresas ya tienen modelos de machine
learning en un primer nivel desarrollados, y NO es necesario tener herramientas
especializadas para poder dar los primeros de pasos de madurez en este tipo de tecnologías.
La herramienta es lo de menos, como siempre.
No hay comentarios.:
Publicar un comentario