Big data: Data lake

El llamado data lake es un repositorio que contiene una copia de todos los datos de la empresa en bruto a la espera de su posterior explotación con tecnologías de Big Data.

Cada elemento del data lake tiene una etiqueta que identifica su contenido para su posterior uso.

Para gestionar el data lake es común utilizar Hadoop, primero se cargan los datos en esta plataforma y luego se aplican herramientas de análisis y minería de datos.

La principal utilidad de un data lake es poder tener los datos de la empresa reunidos y organizados incluso antes de tener una estrategia de explotación de los mismos. Los datos se almacenan en bruto de tal manera que pueden volver a ser utilizados con nuevas tecnologías de explotación cuando sea necesario.

Cuando se quiera explotar los datos se extraen del data lake, se normalizan y una vez verificada su calidad se explotan mediante el gobierno del dato.

Un data lake conserva todos los datos, soporta todos los tipos de datos, soporta todos los tipos de usuario, está abierto a cambios rápidos y permiten tener una visión sencilla y rápida de los mismos.


Comentarios