什么是数据仓库

数据仓库是用于报告和分析的数据的中央存储库。 数据通常从[[在线事务处理|事务系统]]、关系数据库或[[数据湖|其他来源]]进入数据仓库。 然后,业务分析师、数据工程师、数据科学家和决策者通过[[商业智能|商业智能]]工具、[[SQL]]客户端和其他分析应用程序访问数据。 由于数据仓库的主要用例围绕分析,因此它们通常使用[[在线分析处理|OLAP]]技术来提高性能。

数据仓库的优势

  • 将多个数据源的数据整合为一个“事实来源”
  • 针对读取访问进行了优化,这使得生成报告比使用源事务系统进行报告更快
  • 存储和分析大量历史数据

数据仓库的缺点

  • 投入大量时间和资源来正确构建
  • 不是为实时摄取数据而设计的(尽管它们通常可以近乎实时地处理)

何时使用数据仓库

数据仓库是为大型数据集的复杂查询而设计的。 如果您出于性能原因希望将历史数据与当前事务分开,则应该考虑使用数据仓库。

流行的数据仓库

  • Amazon Redshift
  • Azure Synapse Analytics
  • Google BigQuery
  • Snowflake

数据仓库基准