¿Quieres saber para qué utilizan en Airbnb data science, cómo lo tienen estructurado y la arquitectura que utilizan?
Navegando por la red he encontrado este paper que me ha parecido muy interesante, ya que desde Airbnb nos desvelan a alto nivel cómo usan Data Science para crecer su negocio.
Son 18 páginas en inglés así que, aprovechando que he generado unas notas para mi, las voy a compartir también contigo por si te resultan de utilidad.
- Estructuran la función de data science en tres grandes áreas: insights de producto, experimentación y modelización predictiva
Elaboración propia
- En Insights de producto plantean la función de “Discovery” clásica, analizando datos para entender por ejemplo qué diferentes perfiles de usuarios existen, por qué algunos apartamentos no se alquilan o qué ciudades comienzan a estar saturadas
- En experimentación es donde prueban las decisiones de negocio. La gente de producto formula hipótesis y lo testan mediante test A/B y multivariantes
- En modelización predictiva usan los datos históricos por ejemplo para predecir el precio óptimo al que recomiendan alquilar cada apartamento a su propietario, o el revenue esperado para Airbnb de cada uno de ellos
- La mayor parte de sus data scientist usan R
- Aunque lo usan prioritariamente para prototipar y después los ingenieros lo ponen en producción por ejemplo con Python
- Stack técnico: capturan la información de lo que pasa en sus canales, y guardan los metadatos y los datos transaccionales en MySql, después lo suben a Amazon, donde lo almacenan en HDFS usando S3. Por las noches lanzan lo jobs pesados para agregar la información y hacer todos los ETLs que transforman la información en bruto a un formato de DataWarehouse en estrella. A partir de ahí lo explotan con Tableau para la visualización, consultas en SQL y análisis avanzado en R
Elaboración propia
Estas son las notas que me han parecido más interesantes a nivel estratégico sobre para qué utilizan data science, cómo lo tienen estructurado y la arquitectura que utilizan.
A partir de aquí el paper ya entra en el detalle concreto de qué técnicas y qué paquetes de R usan en cada una de las 3 funciones principales. Que también es una lectura muy recomendable.
En conclusión, te recomiendo que lo leas como una explicación de un caso de uso práctico, bien explicado, al grano y sin perderse en conceptos vacíos.
Ajunto de nuevo el link: https://peerj.com/preprints/3182.pdf?utm_campaign=Data%2BElixir&utm_medium=email&utm_source=Data_Elixir_151
Curso GRATIS Data Science