什么是数据仓库
数据仓库是用于报告和分析的数据的中央存储库。 数据通常从[[在线事务处理|事务系统]]、关系数据库或[[数据湖|其他来源]]进入数据仓库。 然后,业务分析师、数据工程师、数据科学家和决策者通过[[商业智能|商业智能]]工具、[[SQL]]客户端和其他分析应用程序访问数据。 由于数据仓库的主要用例围绕分析,因此它们通常使用[[在线分析处理|OLAP]]技术来提高性能。
- 将多个数据源的数据整合为一个“事实来源”
- 针对读取访问进行了优化,这使得生成报告比使用源事务系统进行报告更快
- 存储和分析大量历史数据
- 投入大量时间和资源来正确构建
- 不是为实时摄取数据而设计的(尽管它们通常可以近乎实时地处理)
数据仓库是为大型数据集的复杂查询而设计的。 如果您出于性能原因希望将历史数据与当前事务分开,则应该考虑使用数据仓库。
- Amazon Redshift
- Azure Synapse Analytics
- Google BigQuery
- Snowflake
- 1 TB:[2020 - Redshift、Snowflake、Presto 和 BigQuery](https:// Fivetran.com/blog/warehouse-benchmark)
- 30 TB:2019 年 - Redshift、Azure SQL 数据仓库、BigQuery、Snowflake