微软PowerBI考试 PL300-使用 Power BI 准备数据以供分析【提供练习数据】_pl300:你有一个本地数据网关。 你需要减少通过该网关传输的数据量,这些数据由运行
微软PowerBI考试 PL300-使用 Power BI 准备数据以供分析
您将了解如何使用 Power Query 从不同的数据源中提取数据,选择存储模式和连接性类型。 您还将了解在对数据进行建模之前,如何分析、清理数据以及将数据加载到 Power BI 中。
在 Power BI 中获取数据
您将了解如何从各种数据源(包括 Microsoft Excel、关系数据库和 NoSQL 数据存储)检索数据。 您还将了解如何在检索数据的同时提高性能。
简介
与大多数人一样,你在一家公司工作,公司要求你生成 Microsoft Power BI 报表。 数据驻留在多个不同的数据库和文件中。 这些数据存储库彼此之间不同,某些存储库在 Microsoft SQL Server 中,某些存储库在 Microsoft Excel 中,但所有数据都是相关的。
在本模块方案中,你在 Tailwind Traders 工作。 高层领导向你分配了一项工作,即创建一套依赖于多个不同位置的数据的报表。 跟踪销售事务的数据库位于 SQL Server 中,关系数据库包含每个客户购买的物品以及购买的时间。 它还跟踪进行销售的员工以及员工姓名和员工 ID。 但该数据库不包含员工的雇用日期、职务或经理的身份。 若要获得该信息,需要访问人力资源部门保存的 Excel 文件。 你一直在请求他们使用 SQL 数据库,但他们还没有机会实现这一点。
当物品发货时,发货记录保留在公司刚刚开始使用的仓库应用程序中。 开发人员选择将数据以一组 JSON 文档的形式存储在 CosmosDB 中。
Tailwind Traders 提供了一个可帮助进行财务预测的应用程序,因此,他们可以根据过去的趋势预测今后几个月和几年的销售情况。 这些预测数据存储在 Microsoft Azure Analysis Services 中。 下面是要求你合并其中数据的多个数据源的视图。
必须先从各种数据源提取数据,然后才能创建报表。 与 SQL Server 的交互不同于 Excel,因此你应该了解两个系统之间的细微差别。 了解了系统之后,可以使用 Power Query 来帮助清理数据,例如重命名列、替换值、删除错误以及合并查询结果。 Excel 中也提供了 Power Query。 清理并组织数据后,便可以在 Power BI 中生成报表。 最后,将合并的语义模型和报表发布到 Power BI 服务。 在这里,其他人可以使用你的语义模型生成其自己的报表,或者使用你已生成的报表。 此外,如果其他人生成了你要使用的语义模型,你也可以从该数据集生成报表!
本模块将重点介绍第一步:从不同的数据源获取数据并使用 Power Query 将数据导入 Power BI 中。
学完本模块后,你将能够:
标识数据源并连接到数据源
从 Microsoft SQL Server 等关系数据库中获取数据
从 Microsoft Excel 等文件中获取数据
从应用程序中获取数据
从 Azure Analysis Services 中获取数据
选择存储模式
修复性能问题
解决数据导入错误
下一单元: 从文件中获取数据
组织通常会将数据导出并存储在文件中。 “平面文件”为可能采用的文件格式之一。 “平面文件”是一种文件类型,其中只包含一个数据表,并且每行数据都具有相同的结构。 该文件不包含层次结构。 你可能已经熟悉最常见的平面文件类型,例如逗号分隔值 (.csv) 文件、带分隔符的文本 (.txt) 文件和固定列宽文件。 另一种类型的文件是来自不同应用程序的输出文件,如 Microsoft Excel 工作簿 (.xlsx)。
Power BI Desktop 允许从多种类型的文件中获取数据。 使用 Power BI Desktop 中的“获取数据”功能时,可以看到一个可用选项列表。 以下各节将说明如何从存储在本地计算机上的 Excel 文件中导入数据。
方案
Tailwind Traders 的人力资源 (HR) 团队已准备好一个平面文件,其中包含组织内的部分员工数据,如员工姓名、雇用日期、职位和上级经理。 他们请求使用这些数据以及位于其他多个数据源中的数据生成 Power BI 报表。
平面文件位置
第一步是确定要用于导出和存储数据的文件位置。
你的 Excel 文件可能位于以下位置之一:
本地 - 你可以将数据从本地文件导入 Power BI 中。 文件不会移动到 Power BI 中,并且不会保留指向该文件的链接。 而是会在 Power BI 中创建一个新的语义模型,并将 Excel 文件中的数据加载到其中。 因此,对原始 Excel 文件所做的更改不会体现在 Power BI 语义模型中。 对于未更改的数据,可以使用本地数据导入。
OneDrive for Business - 你可以从 OneDrive for Business 将数据拉取到 Power BI 中。 这种方法可以有效地使 Excel 文件与 Power BI 中的语义模型、报表和仪表板保持同步。 Power BI 会定期连接到 OneDrive 上的文件。 如果发现任何更改,语义模型、报表和仪表板将在 Power BI 中自动更新。
OneDrive 个人版 - 你可以使用个人 OneDrive 帐户上文件中的数据,并获得与 OneDrive for Business 相同的诸多优势。 但是,你需要使用个人 OneDrive 帐户登录,并选择“使我保持登录状态”选项。 请与系统管理员联系,以确定你的组织是否允许这种类型的连接。
SharePoint 团队网站 - 将 Power BI Desktop 文件保存到 SharePoint 团队网站的过程与保存到 OneDrive for business 类似。 主要区别在于从 Power BI 连接到文件的方式。 你可以指定 URL 或连接到根文件夹。
使用云选项(如 OneDrive 或 SharePoint 团队网站)是使文件与 Power BI 中的语义模型、报表和仪表板保持同步的最有效方法。但是,如果数据不会经常更改,则可以在本地计算机上保存文件。
连接到文件中的数据
在 Power BI 中的“主页”选项卡上,选择“获取数据”。 在显示的列表中,选择所需的选项,例如“Text/CSV”或“XML”。 在此示例中,选择“Excel”。
根据所做的选择,你需要查找并打开数据源。 系统可能会提示你登录到 OneDrive 等服务,以对你的请求进行身份验证。 在本示例中,你将打开存储在桌面上的“员工数据”Excel 工作簿(请记住,不会提供用于练习的文件,这些是假设步骤)。
选择要导入的文件数据
文件连接到 Power BI Desktop 后,将打开“导航器”窗口。 此窗口将显示数据源(在此示例中为 Excel 文件)中可用的数据。 你可以选择一个表或实体来预览其内容,以确保将正确的数据加载到 Power BI 模型中。
选中要引入 Power BI 的表所对应的复选框。 此选择将激活“加载”和“转换数据”按钮,如下图所示。
现在,你可以选择“加载”按钮以自动将数据加载到 Power BI 模型,或者选择“转换数据”按钮以启动 Power Query 编辑器,在该编辑器中,你可以查看和清理数据,然后再将其加载到 Power BI 模型中。
我们通常建议对数据进行转换,此过程将在此模块的后面部分进行讨论。 对于此示例,可以选择“加载”。
更改源文件
在开发过程中或者在文件存储位置发生更改的情况下,你可能必须更改数据源的源文件的位置。 要使报表保持最新状态,你需要在 Power BI 中更新文件连接路径。
Power Query 提供了多种方法来完成此任务,因此你可以根据需要进行此类更改。
数据源设置
查询设置
高级编辑器
例如,尝试在数据源设置中更改数据源文件路径。 选择 Power Query 中的“数据源设置”。 在“数据源设置”窗口中,选择相应文件,然后选择“更改源”。 更新“文件路径”或使用“浏览”选项查找文件,选择“确定”,然后选择“关闭”。
下一单元: 从关系数据源中获取数据
如果组织使用关系数据库进行销售,你可以使用 Power BI Desktop 直接连接到数据库,而不是使用导出的平面文件。
将 Power BI 连接到数据库将帮助你监视业务进度并确定趋势,以便预测销售数据、计划预算并设置性能指标和目标。 Power BI Desktop 可以连接到云或本地的多个关系数据库。
方案
Tailwind Traders 的销售团队已请求你连接到组织的本地 SQL Server 数据库,并将销售数据导入 Power BI Desktop,以便可以构建销售报表。
连接到关系数据库中的数据
可以使用 Power BI Desktop 中的“获取数据”功能,并为关系数据库选择适用的选项。 在此示例中,可以选择“SQL Server”选