Que es data warehouse

Tipos de almacén de datos

Este artículo necesita la atención de un experto en Bases de Datos. Por favor, añade una razón o un parámetro de conversación a esta plantilla para explicar el problema con el artículo. El WikiProyecto Bases de Datos puede ayudar a reclutar un experto. (Junio 2009)

Una dimensión es una estructura que categoriza hechos y medidas para permitir a los usuarios responder a preguntas de negocio. Las dimensiones más utilizadas son las personas, los productos, el lugar y el tiempo[1][2] (Nota: las personas y el tiempo a veces no se modelan como dimensiones).

En un almacén de datos, las dimensiones proporcionan información de etiquetado estructurada a medidas numéricas que, de otro modo, serían desordenadas. La dimensión es un conjunto de datos compuesto por elementos de datos individuales y no superpuestos. Las funciones principales de las dimensiones son tres: proporcionar filtrado, agrupación y etiquetado.

Estas funciones se describen a menudo como «slice and dice». Un ejemplo habitual de almacén de datos es el de las ventas como medida, con el cliente y el producto como dimensiones. En cada venta, un cliente compra un producto. Los datos se pueden trocear eliminando todos los clientes excepto los de un grupo en estudio y, a continuación, se pueden trocear agrupándolos por producto.

Ejemplo de almacén de datos

Este artículo incluye una lista de referencias, lecturas relacionadas o enlaces externos, pero sus fuentes no están claras porque carece de citas en línea. Por favor, ayude a mejorar este artículo introduciendo citas más precisas. (Noviembre de 2015) (Aprende cómo y cuándo eliminar este mensaje de la plantilla)

Extraer, cargar, transformar (ELT) es una alternativa a extraer, transformar, cargar (ETL) que se utiliza con las implementaciones de los lagos de datos. A diferencia del ETL, en los modelos ELT los datos no se transforman al entrar en el lago de datos, sino que se almacenan en su formato original sin procesar. Esto permite tiempos de carga más rápidos. Sin embargo, el ELT requiere una potencia de procesamiento suficiente dentro del motor de procesamiento de datos para llevar a cabo la transformación bajo demanda, para devolver los resultados de manera oportuna. Dado que los datos no se procesan al entrar en el lago de datos, no es necesario definir la consulta y el esquema a priori (aunque a menudo el esquema estará disponible durante la carga, ya que muchas fuentes de datos son extractos de bases de datos o sistemas de datos estructurados similares y, por tanto, tienen un esquema asociado). ELT es un modelo de canalización de datos[1].

Almacén de datos frente a base de datos

El término «Data Warehouse» fue acuñado por primera vez por Bill Inmon en 1990. Según Inmon, un almacén de datos es una colección de datos orientada a un tema, integrada, variable en el tiempo y no volátil. Estos datos ayudan a los analistas a tomar decisiones informadas en una organización.

Una base de datos operativa sufre cambios frecuentes a diario a causa de las transacciones que se producen. Supongamos que un ejecutivo de una empresa quiere analizar la información anterior sobre cualquier dato, como un producto, un proveedor o cualquier dato de los consumidores, entonces el ejecutivo no tendrá datos disponibles para analizar porque los datos anteriores se han actualizado debido a las transacciones.

Un almacén de datos nos proporciona datos generalizados y consolidados en una vista multidimensional. Junto con la vista generalizada y consolidada de los datos, un almacén de datos también nos proporciona herramientas de procesamiento analítico en línea (OLAP). Estas herramientas nos ayudan a realizar un análisis interactivo y eficaz de los datos en un espacio multidimensional. Este análisis da lugar a la generalización de los datos y a la minería de datos.

Qué es un almacén de datos en la minería de datos

Un almacén de datos es un tipo de sistema de gestión de datos que está diseñado para permitir y apoyar las actividades de inteligencia empresarial (BI), especialmente la analítica. Los almacenes de datos están destinados exclusivamente a realizar consultas y análisis y suelen contener grandes cantidades de datos históricos. Los datos de un almacén de datos suelen proceder de una amplia gama de fuentes, como archivos de registro de aplicaciones y aplicaciones de transacciones.

Un almacén de datos centraliza y consolida grandes cantidades de datos procedentes de múltiples fuentes. Sus capacidades analíticas permiten a las organizaciones obtener valiosos conocimientos empresariales de sus datos para mejorar la toma de decisiones. Con el tiempo, construye un registro histórico que puede ser muy valioso para los científicos de datos y los analistas de negocios. Debido a estas capacidades, un almacén de datos puede considerarse la «única fuente de verdad» de una organización.

Los almacenes de datos ofrecen la ventaja global y única de permitir a las organizaciones analizar grandes cantidades de datos variantes y extraer un valor significativo de ellos, así como mantener un registro histórico.