La metodología es el factor más importante en un proyecto de Data Science
Puede marcar la diferencia entre el éxito y el fracaso. Literalmente
En este video te explico la metodología correcta para hacer un proyecto de Data Science.
O, si eres de los que prefieres leer, debajo del video te explico el mismo contenido pero en texto.
Seguir una metodología nos va a permitir 2 cosas:
- Garantizar que estamos siguiendo el mejor proceso para conseguir el objetivo del proyecto
- Garantizar que lo estamos haciendo de la forma más eficiente posible (en términos de tiempo y recursos)
Una metodología no es más que un conjunto de pasos estructurados y ordenados para conseguir el objetivo.
Usamos metodlogías a diario en nuestra vida cotidiana sin darnos cuenta.
Por ejempolo, ¿recuerdas la primera vez que cogiste un avión? Te voy a contar la mia.
Ahora es frecuente que los niños se vayan de vacaciones en avión con sus padres, pero en mi tiempo no lo era tanto.
Así que yo nunca había cogido un avión en mi infancia.
Cuando empecé a trabajar como becario un día vino mi jefa y me dijo que al día siguiente tenía que ir a Barcelona a ocuparme de un tema.
Yo estaba encantando con la oportunidad, pero al poco tiempo me entró incertidumbre porque … no sabía cómo se coge un avión!!
Recuerdo que invité a un compañero a un café, casi en secreto porque hasta me daba un poco de vergüenza, y le pregunté cómo se hacía.
Después de soltar una carcajada me empezó a contar que primero llegas al aeropuerto a la terminal que te toque, luego tienes que mirar en las pantallas tu número de vuelo.
Eso te dirá los mostradores a los que tienes que ir para el checkin. Después tienes que pasar por un control, y finalmente ir a la puerta de embarque que te diga en la pantalla.
Ahora esto lo hacemos automático, y ni pensamos en ello, pero si te fijas no es más que …
… una metodología!!
¿Te imaginas plantarte en el aeropuerto a las 7 de la mañana sin saber qué tienes que hacer?
¿Qué valor te aporta esa metodología? ¿Hacer todo el proceso en 15 min en vez de en 2h? ¿Poder dormir más y llegar más tarde al aeropuerto? ¿Simplemente no parecer tonto :-)?
Pues lo mismo es en un proyecto de Data Science.
Curso GRATIS Data Science
Te voy a contar la metodología que usamos en DS4B.
Por cierto, precisamente el enfoque diferencial de DS4B es enseñar Data Science basándose en la realización de proyectos reales. Por ejemplo en el Programa de Machine Learning Predictivo hacemos un proyecto de desarrollar modelos de machine learning para optimizar los resultados de las campañas comerciales de un banco. Y lo hacemos siguiendo semana a semana esta metodología.
Si quieres reforzar en serio tu aprendizaje de Data Science aplicado a problemas reales puedes echarle un ojo al programa AQUÍ.
La metodología tiene 6 pasos:
- Importación de datos: acceder a las fuentes originales de datos, que normalmente son varias, de diferente formato y están dispersas. Por ejemplo datamarts, datawarehouse, ERPs, ficheros de texto, hojas excel, etc
- Calidad de datos: garantizar que los datos que vas a usar para el proyecto tienen la calidad suficiente como para generar conclusiones y resultados
- Transformación de datos: hay que hacer dos grandes cosas en esta fase:
- Estructurar los datos en la forma que necesitan los algoritmos que usaremos posteriormente
- Crear nuevas variables a partir de las originales que generen info de valor para el negocio o sector concreto en el que estás haciendo el proyecto
- Modelización: identificar y aplicar el mejor algoritmo analítico para el objetivo del proyecto. Será diferente si es una segmentación, un modelo predictivo, un análisis de redes, etc
- Evaluación: evaluar la calidad del modelo generado así como su aportación al negocio
- Implantación: puesta del modelo generado en un entorno de producción. Norlamente las fases anteriores el modelo se crea en lenguajes como R o Python y después se pone en producción en SQL, Java, C++ u otro lenguaje más apropiado para ese tipo de entornos
Lógicamente cada fase tiene varias subfases y muchos detalles.
En el video que está al inicio del post puedes ver un poco más de zoom sobre ellos.
Y de nuevo te comento que, si te interesa aprender esto con todo el detalle tanto funcional como técnico, y hacerlo resolviendo un proyecto real con R, le eches un ojo al programa de Machine Learning Predictivo
happy data science!