一、概念
数据湖(Data Lake)是一个集中存储和处理大量结构化、半结构化、非结构化数据的系统。它提供了一个可扩展的、灵活的、低成本的数据存储解决方案,能够支持各种数据类型和数据源,并允许用户在数据湖中进行数据分析、挖掘和机器学习等操作。数据湖的核心思想是“存储一切”,即尽可能多地收集和存储数据,而不需要事先定义数据的模式或结构。
数据仓库(Data Warehouse)是一个面向主题的、集成的、稳定的、随时间变化的数据集合,用于支持管理决策。数据仓库通常存储的是经过清洗、转换和整合后的结构化数据,这些数据通常来自多个不同的数据源,并经过ETL(Extract, Transform, Load)过程处理后加载到数据仓库中。数据仓库的设计目的是为了支持复杂的查询和分析,通常采用星型或雪花型模型来组织数据。