¿De qué trata este libro?
Este libro se ocupa de los aspectos prácticos de manipular, procesar, limpiar y desmenuzar datos en Python. El objetivo es ofrecer una guía de los componentes del lenguaje de programación Python y su ecosistema de librerías y herramientas orientadas a datos, que permita al lector equiparse para convertirse en un analista de datos efectivo. Aunque «análisis de datos» forma parte del título del libro, el objetivo específico del mismo es la programación de Python y sus librerías y herramientas, a diferencia de la metodología del análisis de datos. Esta es la programación de Python que necesita para análisis de datos.
En algún momento posterior a la publicación de este libro en 2012, se empezó a utilizar el término «ciencia de datos» como una descripción general para todo, desde sencillas estadísticas descriptivas hasta análisis estadísticos más avanzados y aprendizaje automático. El ecosistema de código abierto de Python para hacer análisis de datos (o ciencia de datos) también se ha expandido notablemente desde entonces. hora hay muchos otros libros que se centran concretamente en estas metodologías más avanzadas. Confío en que este libro sirva como preparación adecuada para permitir a sus lectores avanzar a un recurso de dominio más específico.
Quizá haya gente que describa buena parte del contenido del libro como «manipulación de datos» a diferencia de «análisis de datos». También emplearemos los términos «disputa» (wrangling) o «procesado» (munging) para referirnos a la manipulación de datos.
¿Qué tipos de datos?
Cuando decimos «datos» ¿a qué nos referimos exactamente? El principal enfoque se centra en datos estructurados, un término deliberadamente genérico que abarca muchas formas comunes de datos, como por ejemplo: