¿Set de datos? ¿bases de datos? ¿almacén de datos? o ¿lago de datos?

datos

¡Muchos datos! Va una didáctica guía para entender que estamos hablando cuando hablamos de estos conceptos.

Resulta curioso que en estos tiempos en que la data ha cobrado máxima relevancia y visibilidad exista tanta confusión conceptual sobre los distintos tipos de repositorios donde ella se encuentra.

Términos como set de datos, base de datos (BD), motor de base de datos, almacén de datos o lago de datos,  se usan sin entender en forma precisa su significado.

Trataremos de explicar algunos de ellos en la forma más sencilla y menos técnica posible.

1. ¿Qué es un set de datos (dataset)?

Es simplemente un conjunto de datos disponibles en un formato que un computador puede procesar y que tiene que ver con un cierto tema.

Por ejemplo, dos archivos en formato Excel o simplemente cvs en que tengamos la información del clima en Santiago en los últimos 3 meses.

2. ¿Qué es una base de datos (database, BD)? ¿Y un motor?

Una BD comparte con un set de datos que trata de un mismo tema, pero tiene un par de aspectos que la hacen diferente.

Primeramente, una base siempre está gestionada por un software que se suele llamar motor de BD (database engine).

Si quiero agregar o modificar data en la base debo hacerlo a través del motor.

Si quiero consultar sobre información almacenada en la base lo hago a través del motor usando un lenguaje de consulta muy simple.

Todo esto hace que una BD, a diferencia de un simple set de datos, sea eminentemente dinámica. Su contenido puede cambiar cada segundo.

Las BD suscriben lo que se conoce como un “modelo de datos”. Este representa la forma general en que se organiza la información en ellas.

Es como si Ud. tuviese una bodega en que todo se guarda en sacos o todo se guarda en maletas o se hace en repisas horizontales y verticales.

Modelo relacional predominante

Hoy el modelo relacional, que se caracteriza por guardar todos los datos en forma de tablas (similar a planillas Excel), es el predominante. Ciertamente, lo utiliza más del 90% de las bases de datos del mundo.

Sin embargo, a veces la información que queremos manejar no es tan estructurada y se hace difícil organizarla en forma de tablas porque necesitaríamos tener filas de distinto tipo. En este caso puede usarse un modelo de documentos en lugar de uno relacional.

Siempre la interacción será con un motor

Cualquiera sea el modelo elegido la interacción con la BD será a través de un motor usando un lenguaje de consultas.

Otro aspecto interesante de los motores es que entregan una interfaz de programación para que un software escrito en algún lenguaje de programación pueda interactuar con la BD.

Esto es fundamental para implementar aplicaciones que deben acceder a los antecedentes contenidos en la BD.

3. ¿Qué es un almacén de datos?

Revisemos ahora el concepto de almacén de datos (data warehouse). En una empresa sus bases son usadas principalmente para apoyar la gestión operativa del negocio y no las decisiones de carácter estratégico.

Las decisiones de este tipo requieren acceder a información consolidada y a través de un tiempo mas largo.

El área de ventas puede apoyarse en una base que va a contener las transacciones detalladas del mes.

Estas transacciones se descargan a un almacén de datos al final de cada mes junto con transacciones asociadas a otras áreas de la empresa e incluso generadas en forma externa a ella.

Ello le va a permitir a los ejecutivos visualizar las tendencias de ventas por sector, por producto, por ciudad, etc.

Tanto las herramientas asociadas a inteligencia de negocios como el trabajo de minería de datos se alimentan desde estos grandes repositorios que llamamos almacenes y lagos.

4. ¿Qué es un lago de datos (data lake)?

Un lago de datos (data lake), al igual que un almacén, tiene por objetivo albergar datos que se pueden usar en la toma de decisiones de mediano a largo plazo.

La diferencia principal es que la data que entra al almacén es de tipo estructurada y se valida antes de que se ingrese, de acuerdo a lo que se espera guardar.

En el lago la información puede ser de todo tipo y se suele agregar sin mucha pompa ni circunstancia, esperando validar o hacer sentido de ella solo al momento de usarla.

En síntesis…

Para resumir, un set es un vaciado de antecedentes sobre un tema en particular que puede ser leído por un computador.

Una base es un conjunto de data que adhiere a un modelo y se administra bajo un motor de BD.

El motor es encargado de gestionar la BD. Y proporciona los medios para interactuar con ella directamente a través de un lenguaje de consultas o mediante un programa.

Un almacén es similar a una base, pero es para toda la organización. Y con énfasis en la dimensión temporal, lo que permite que pueda usarse para sostener las decisiones de nivel estratégico.

Un lago es como un almacén donde se puede ingresar información más variada sin saber a priori cuál es su forma.

 

Actualízate con el curso sobre Python y bases de datos (online) de Clase Ejecutiva UC.





¿Te gustó? Compártelo en tus redes

Artículos más recientes del autor