Azure 选择合适的服务来存储数据

You plan to store 20 TB of data in Azure. The data will be accessed infrequently and visualized by using Microsoft Power BI.

You need to recommend a storage solution for the data.

Which two solutions should you recommend?

中文答案和解答


根据答案需要记一下。

好的,这是您的中文答案和解答。


推荐的解决方案

您应该推荐的两个解决方案是:

  1. Azure Data Lake Storage Gen2
  2. Azure Synapse Analytics

详细解答

以下是为什么这两个解决方案是最佳组合的详细解释:

1. Azure Data Lake Storage Gen2 (用于数据存储)

Azure Data Lake Storage Gen2 是专为大数据分析而优化的可扩展数据存储库。它非常适合您的情况,原因如下:

  • 处理海量数据 (20 TB):Data Lake Storage Gen2 旨在存储和分析 PB 级别的数据,因此处理 20 TB 的数据绰绰有余。
  • 成本效益和不频繁访问:它支持分层存储(热、冷、存档层)。您可以将不常访问的数据放置在冷层 (Cool Tier),从而显著降低存储成本,这完全符合您“数据将被不频繁访问”的要求。
  • 为分析而优化:它具有分层命名空间,可以像文件系统一样组织数据,这大大提高了分析查询的性能。它是 Azure 中所有主流分析服务(包括 Synapse)的首选存储后端。

简单来说,Azure Data Lake Storage Gen2 是您存放这 20 TB 数据的理想、经济高效的“仓库”。

2. Azure Synapse Analytics (用于数据分析和查询)

Azure Synapse Analytics 是一个集成的分析服务,它统一了数据仓库和大数据分析。它是连接数据湖和 Power BI 的关键桥梁:

  • 与 Power BI 的原生集成:Power BI 与 Azure Synapse Analytics 具有原生且高度优化的集成。您可以使用 DirectQuery 模式将 Power BI 报表直接连接到 Synapse。这意味着 Power BI 不会将 20 TB 的数据导入其模型中,而是实时将查询发送到 Synapse,由 Synapse 强大的计算引擎来处理海量数据并返回结果。这对于处理大规模数据集至关重要。
  • 高性能查询引擎:无论是使用其无服务器 SQL 池还是专用 SQL 池,Synapse 都采用大规模并行处理 (MPP) 架构,能够非常快速地查询存储在 Data Lake 中的海量数据。这确保了您的 Power BI 报表和仪表板即使在处理 20 TB 数据时也能保持响应迅速。

简单来说,Azure Synapse Analytics 是一个强大的“引擎”,它能快速地从您的数据“仓库”(Data Lake)中提取和分析数据,并将结果呈现给 Power BI。

两者如何协同工作

最佳实践架构如下:

  1. 存储:将 20 TB 的原始数据存储在 Azure Data Lake Storage Gen2 中,并根据访问频率将其置于适当的成本层(例如冷层)。
  2. 分析:使用 Azure Synapse Analytics 在数据湖之上创建一个分析层。Synapse 可以直接查询数据湖中的数据,或者将数据加载到其高性能的数据仓库中。
  3. 可视化:将 Microsoft Power BI 连接到 Azure Synapse Analytics。用户在 Power BI 中进行交互时,查询会被发送到 Synapse 进行处理,从而实现对海量数据的快速可视化分析。

这个组合方案为您提供了可扩展、成本效益高且性能卓越的端到端解决方案,完美满足了您的所有需求。