Sigla: PF3861
Creditaje: 4
Tipo de curso: Optativo
Descripción

En el 2020, cada persona en el mundo generó el equivalente a 1.7Mb de información cada segundo. Según IDC, en este mismo año el “universo digital” alcanzó los 40 trillones de Gb – o 40 Zetabytes en total, en una tendencia de crecimiento que no se desacelerará. Se estima que todos los usuarios de internet generan aproximadamente 2.5 quintllones de bytes al día, y el 95% de las compañías colocan como prioridad número 1 la necesidad de manejar grandes volúmenes de datos estructurados y no estructurados. Las redes sociales, el internet de las cosas y la computación móvil han disparado en los últimos años la generación exponencial de datos en todo momento, industria, caso de uso y geografía. Esta explosión de datos ha empujado una explosión igualmente exponencial de necesidades – y soluciones – de análisis de información, y han sido el génesis para la ciencia de datos, desde el data mining hasta el desarrollo de algoritmos avanzados de aprendizaje de máquina (ML).

Sin embargo, ninguna de estas habilidades analíticas serían posibles sin la tecnología subyacente para modelar, representar, almacenar, recuperar y distribuir grandes volúmenes de datos, tanto estructurados como no estructurados. Este curso es una visión comprensiva a las metodologías, algoritmos y técnicas, así como las tecnologías que hacen posible la gestión de enormes volúmenes de información, partiendo desde la problemática de la representación de la información estructurada y no estructurada, la aplicación de sistemas distribuidos, paralelos y de optimización, hasta la administración de datos no estructurados en forma de bases de datos no relacionales.

Objetivo general
El estudiante adquirirá conocimientos y habilidades básicas para el almacenamiento, recuperación y administración de grandes volúmenes de datos en diversos formatos y desde diversas fuentes, con la finalidad de facilitar la aplicación de técnicas de análisis propias del ámbito de la ciencia de datos, integrando metodologías, algoritmos y tecnologías para un almacenamiento y acceso eficiente y efectivo a los datos.
Objetivos específicos
  • Comprender y aplicar los conceptos de sistemas distribuidos y paralelos, y sus aplicaciones en la implementación de bases de datos distribuidas y ejecución de consultas en paralelo.
  • Conocer los conceptos y las tecnologías básicas relacionadas con Big Data, análisis de información y modelaje.
  • Comprender y aplicar tipos de datos y extensiones al SQL para el manejo de información no estructurada.
  • Aplicar conceptos multidimensionales en la creación de bases de datos para la toma de decisiones.
  • Comprender y utilizar distribución, paralelismo y particionamiento como mecanismos para eficientizar la administración de grandes volúmenes datos.
  • Conocer y aplicar los conceptos de bases de datos NoSQL en sus diversas modalidades.
Docentes que imparten el curso