La ruta más fácil para aprender Data Science

by isaacgonzalez | Uncategorized | 2 commentsLa ruta más fácil para aprender Data Science

Índice de contenidos

“Llevo varios años trabajando con datos, en posiciones de business intelligence, pero quiero evolucionar hacia cosas más avanzadas de data science. El problema es que no sé ni por dónde empezar!”

Esa es la duda que una chica me preguntó hace unos días.

Realmente el email era más largo, pero básicamente ese era el mensaje.

Entonces me puse a pensar cómo podía responder a una pregunta tan amplia de una forma breve y concreta.

Saqué una hoja y me puse a dibujar cajitas (mi manera de pensar siempre es en cajitas).

Al final quedé tan contento de mi propia obra 🙂 que pensé que ese esquema podría ayudar a más gente y decidí transformarlo en post.

Así que que aquí va el esquema y su explicación por si a ti también te ayuda.

Lo primero es identificar el problema

En mi opinión lo que está debajo de esta duda que tiene tanta gente es el hecho de que analytics es un mundo muy amplio.

Y la gente tiene la FALSA creencia de que tiene que aprenderlo todo!!

Y lo que es peor, todo a la vez.

Supongo que conoces al amigo Pareto, al fin y al cabo somos analíticos, no?

Pareto definió la famosa ley de que el 20% de los elementos generan el 80% de los resultados.

Es posiblemente una de las verdades más universales y se cumple en todos los ámbitos.

Piensa en algo en lo que tú seas experto (tocar la guitarra, hablar japonés, lo que sea). ¿A que con el 20% del total de cosas consigues el 80% de los resultados?

¿Entonces cual es el verdadero problema?

Pues que precisamente necesitas ser un experto para identificar cual es el 20% bueno, y si estás intentando aprender algo es porque no eres un experto lógicamente.

Por ejemplo, a mi me gustan las artes marciales, y las llevo practicando desde pequeño.

Ahora, a mis 40 años yo sé que el 90% de lo que he practicado no vale para nada.

Y que si hubiera centrado todos esos años en el 10% que sí vale mi nivel sería muy superior al que es.

El problema es, cómo sin saber de algo identificas ese 10% y pones todos tus esfuerzos en ese 10%.

Para mí el 10% en Data Science que te va a generar el 90% de los resultados está en esquema que te he comentado.

Primero veámoslo y luego te lo explico.

Estos son los 3 pasos prácticos que yo te recomiendo seguir para empezar:

1. Elige una herramienta de análisis

Si quieres hacer Data Science de forma profesional antes o después tendrás que aprendera alguna herramienta de “código”.

Existen muchas en el mercado, tanto comerciales como open source. Para empezar te recomendaría empezar por una open source, las dos principales son R o Python.

Consejo: elige una y aprende primero con ella. El motivo es que una vez que sepas usar la herramienta vas a empezar a aplicarla y a poner en práctica los diferentes tipos de análisis. Y si en el futuro tienes que aprender otra te va a resultar mucho más fácil porque ya sabes lo que vas buscando.

Por ejemplo, aprendes R, y aprendes cómo se hace una regresión logística con R. Si dentro de un año tienes que usar Python tú ya sabes que una cosa que vas a querer hacer es “sacar los coeficientes de mi regresión” por lo que es mucho más fácil hacer una búsqueda sobre “cómo sacar los coeficientes de una regresión logística en Pyhton” que ya es algo concreto.

2. Elige un tipo de análisis

Hay muchas formas de clasificar las técnicas analíticas. Para mi la primera sería por el tipo de información que quieres analizar.

Diría que hay 3 grandes tipos de información que puedes tener en un entorno empresarial:

– Estructurada: la típica estructura de filas y columnas

– Texto: semi estructurado o totalmente libre

– Imágenes: bien fotos o videos

El 90% de los proyectos en empresas los vas a hacer sobre datos estructurados, así que mi consejo en este punto es centrarte ahí, y dejar texto e imágenes para más adelante.

Además, también podemos clasificar las técnicas entre supervisadas o no supervisadas.

Simplificando mucho, supervisadas es cuando quieres predecir algo, por ejemplo si un cliente va a comprar o no un producto.También se les llama modelos predictivos.

Mientras que en las no supervisadas no quieres predecir nada, si no más bien agrupar o separar cosas. El ejemplo más típico es una segmentación de clientes.

Pues bien, de nuevo me mojo, empieza por supervisadas.

¿Por qué?

Pues básicamente porque son las más usadas en los casos de uso como los que te voy a hablar a continuación en los proyectos que generan más dinerito para las empresas.

Y al final, de una forma u otra, más dinero para las empresas significa más dinero para tí.

3. Elige un caso de uso

Casos de uso hay muchos, te voy a poner solamente 3 ámbitos de los más frecuentes:

– Marketing: Personalización comercial, abandono de clientes, …

– Riesgos: riesgo de impago de un cliente, recuperación de mora, ..

– Operaciones: identificación de fraude, mantenimiento preventivo, …

Elige uno e intenta especializarte en él.

El motivo es que el momento en el que uno pasa de ser simplemente un técnico más (en este caso en data science) a un profesional altamente demandado es cuando sabe cómo aplicar las técnicas analíticas a un problema de negocio concreto, sabe hablar el lenguaje de ese negocio y sobre todo sabe cómo generar resultados.

Y creéme las empresas valoran mucho la diferencia entre uno y otro, y tu cuenta corriente también lo va a notar.

En resumen, sigue estos paso si quieres que tu aprendizaje efectivo en Data Science pase de 6 años a 6 meses:

1- Elige una herramiénta y domínala

2- Elige un tipo de análisis y hazte un experto (te recomiendo modelos predictivos)

3- Elige un caso de uso y profundiza en él hasta saber más que tus futuros clientes

4- Dieta estricta: trabaja sobre esos 3 puntos y olvídate de lo demás durante 6 meses

Te aseguro que notarás un cambio bestial en tus compentecias como data scientist.

Si esta guía te ha ayudado a poner orden y a facilitar tu aprendizaje me encantaría saberlo! escríbeme un email o por linkedin, etc

Saludos!!

Isaac

www.datascience4business.com