【Python】torch_npu_torch-npu

技术文档

Ascend AI处理器核心计算范式与PyTorch的桥接艺术：深入探索torch_npu的基石

要真正理解torch_npu，我们必须首先超越其作为PyTorch后端库的表面认知，深入其所服务的硬件——华为昇腾（Ascend）AI处理器的核心计算范式。这不仅仅是关于如何在NPU上运行PyTorch模型，更是关于NPU如何设计其计算，以及torch_npu如何巧妙地将这种硬件特性映射到PyTorch的抽象层之上。

1. 昇腾AI处理器的达芬奇架构：极致算力的源泉

昇腾AI处理器并非传统的CPU或GPU。它采用了华为独创的达芬奇（Da Vinci）架构，这是一种专门为AI计算优化的异构计算架构。它的设计理念是最大化AI计算的效率，而不是通用计算的灵活性。

在达芬奇架构中，核心计算单元被称为AI Core，它被设计用于高效执行矩阵乘法和向量计算，这正是深度学习中最常见且计算密集的操作。每个AI Core内部包含：

Cube Unit（立方体单元）：专门用于执行矩阵乘法指令，例如神经网络中的全连接层和卷积层计算。它支持INT8、FP16等多种精度，旨在以极高的吞吐量处理矩阵运算。这是达芬奇架构中最核心的AI算力来源。
Vector Unit（向量单元）：用于执行向量计算指令，例如激活函数、归一化操作、元素级运算等。它处理的是张量的元素级操作，与Cube Unit形成互补，共同覆盖了深度学习模型中几乎所有的算子类型。
Scalar Unit（标量单元）：负责控制流、地址计算、通用寄存器操作等，类似于传统CPU的标量处理器，但其主要任务是为Cube Unit和Vector Unit提供数据和指令调度。

这种分工明确的架构使得NPU在处理AI任务时能够达到远超通用处理器的能效比。理解这一点是理解torch_npu性能优化的基石，因为torch_npu的目标就是最大限度地发挥这些单元的并行计算能力。

2. NPU内存体系与数据流：极致带宽与低延迟

昇腾AI处理器拥有多级的内存体系，旨在最大限度地减少数据搬运的延迟并提高带宽利用率：

片上内存（On-Chip Memory）：这是距离计算单元最近的内存，具有极高的访问速度和带宽。它通常被划分为多个独立的部分，如Cube Unit的Buffer、Vector Unit的Buffer等，用于临时存储计算过程中需要频繁访问的数据。torch_npu在执行算子时，会尽可能地利用这部分内存来缓存数据，从而避免从DDR（外部存储）频繁读取，大大降低延迟。
高带宽存储（High Bandwidth Memory, HBM）/DDR：这是芯片外部的大容量存储，用于存储模型权重、大量中间特征图以及数据集。尽管其带宽远高于传统DDR，但相较于片上内存，访问延迟仍高出数个数量级。torch_npu在数据放置（data placement）和数据重用（data reuse）方面会做大量的优化，以减少HBM/DDR的访问。
DMA（Direct Memory Access）控制器：NPU内部集成了强大的DMA控制器，负责在不同内存层次之间高效地搬运数据，而无需占用AI Core的计算资源。这意味着数据搬运可以与计算并行进行，从而实现计算和数据传输的流水线化，提升整体吞吐量。

torch_npu在底层如何管理这些内存，并调度数据流，是其实现高性能的关键。例如，一个矩阵乘法操作在NPU上执行时，torch_npu会将输入的矩阵数据通过DMA控制器高效地搬运到Cube Unit的片上Buffer中，Cube Unit完成计算后，再将结果通过DMA搬运回片外内存，整个过程最大化并行度。

3. 昇腾计算语言与昇腾软件栈：NPU编程的抽象层次

华为为昇腾AI处理器构建了一整套软件栈，从底层到上层提供不同抽象层次的编程接口，torch_npu正是运行在这一软件栈之上：

CANN（Compute Architecture for Neural Networks）：这是昇腾AI处理器的核心计算架构和编程接口。CANN提供了完整的AI开发工具链，包括算子开发、模型训练和推理等。它向下对接达芬奇架构的硬件，向上提供统一的编程接口。
- 昇腾图引擎（Ascend Graph Engine）：负责将模型定义（例如PyTorch的计算图）转化为NPU可以高效执行的图表示，并进行一系列图优化，包括算子融合、内存复用、并行调度等。这是torch_npu性能优化的重要组成部分，许多高级优化都是在图引擎层面完成的。
- 昇腾算子库（Ascend Operator Library）：提供了大量预优化的神经网络算子，这些算子都是为达芬奇架构定制和优化过的，能够最大限度地发挥NPU的算力。当torch_npu接收到PyTorch的算子请求时，它会尝试将其映射到昇腾算子库中对应的优化算子。
- Ascend C (AICore Language)：这是一种基于C++的编程语言，允许开发者直接针对NPU的AI Core编写自定义算子。对于那些昇腾算子库中没有或者需要特定优化的算子，开发者可以使用Ascend C进行开发。torch_npu内部的一些高级算子优化或新算子支持，就可能涉及到使用Ascend C编写的底层实现。
PyTorch Adapters (torch_npu)：torch_npu位于CANN之上，作为PyTorch与昇腾软件栈之间的桥梁。它将PyTorch的Tensor操作、模型定义和训练流程无缝地“翻译”给CANN，并利用CANN提供的能力在NPU上执行计算。

理解这些层次关系至关重要。torch_npu并非一个独立的计算框架，它深度依赖于CANN及其底层的NPU硬件特性。它的价值在于：

透明性：尽量让PyTorch用户感知不到NPU的底层复杂性，像使用CUDA一样使用NPU。
性能最大化：通过与CANN的紧密集成，充分利用NPU的并行计算能力、片上内存、高效的DMA以及图优化能力。
生态融合：让PyTorch这个主流的深度学习框架能够无缝地运行在华为昇腾硬件上，拓宽其应用场景。

4. PyTorch的设备抽象层与Dispatch机制：为torch_npu接入提供可能

PyTorch之所以能够支持多种硬件后端（如CPU、CUDA、XLA、MPS以及NPU），得益于其灵活的设备抽象层（Device Abstraction Layer）和调度（Dispatch）机制。torch_npu正是利用了这一机制，将自己注册为PyTorch的一个新的计算后端。

ATen（A Tensor Library）：PyTorch的核心是一个名为ATen的C++张量库。它定义了所有张量操作（如加法、乘法、卷积等）的通用接口。这些接口是设备无关的。
注册机制（Registration Mechanism）：ATen允许不同的后端（CPU、CUDA、NPU等）注册它们自己实现的算子版本。当用户调用一个PyTorch算子时，PyTorch的调度器会根据当前张量所在的设备类型，查找并调用对应设备上注册的算子实现。
Tensor类型：在PyTorch中，torch.Tensor是一个抽象概念。具体的设备实现是通过不同的内部TensorImpl类来完成的。例如，torch.cuda.FloatTensor和torch.FloatTensor（CPU）背后是不同的实现。torch_npu引入了它自己的NPU Tensor类型，例如torch.npu.FloatTensor，这些NPU Tensor在底层由torch_npu的NPU Tensor实现类来管理，它们包含了指向NPU设备内存的指针，并知道如何将操作分发到NPU上执行。

当您创建一个NPU Tensor并对其执行操作时，例如 a.add(b)：

PyTorch的调度器会识别出a和b都是NPU Tensor。
调度器会查找在NPU设备上注册的add算子实现。
如果找到，它就会调用torch_npu内部为此操作编写的NPU版本。
这个NPU版本会进一步调用CANN接口，最终在NPU硬件上执行加法操作。

这种设计使得torch_npu能够以模块化的方式集成到PyTorch中，而无需修改PyTorch的核心代码。它只需要提供NPU设备的张量类型、设备管理API以及所有PyTorch核心算子在NPU上的实现。

5. torch_npu的初始化与设备管理：开启NPU计算之旅

在深入使用torch_npu进行深度学习之前，了解其如何初始化和管理NPU设备是基础。与torch.cuda类似，torch_npu提供了一系列API来查询和设置NPU设备。

首先，您需要确保您的环境中正确安装了torch_npu和CANN。通常，这意味着PyTorch版本与torch_npu版本以及CANN版本需要兼容。

import torch # 导入PyTorch库，这是使用torch_npu的基础import torch_npu # 导入torch_npu库，这是连接PyTorch和NPU的桥梁# 检查NPU设备是否可用# torch_npu.npu.is_available() 函数检查当前环境中是否有可用的NPU设备if torch_npu.npu.is_available(): # 如果返回True，则表示NPU设备可以被PyTorch识别和使用 print(\"NPU设备可用，可以进行NPU加速计算。\") # 打印消息告知用户NPU设备已准备好else: # 如果返回False，则表示NPU设备不可用 print(\"NPU设备不可用，请检查NPU驱动和CANN环境。\") # 打印消息提醒用户检查NPU环境配置# 查询可用的NPU设备数量# torch_npu.npu.device_count() 函数返回系统中NPU设备的数量npu_count = torch_npu.npu.device_count() # 将NPU设备的数量赋值给npu_count变量print(f\"系统中共有 { npu_count} 个NPU设备。\") # 打印系统中NPU设备的数量# 获取当前NPU设备的索引# torch_npu.npu.current_device() 函数返回当前正在使用的NPU设备的索引号（默认为0）current_npu_index = torch_npu.npu.current_device() # 将当前NPU设备的索引赋值给current_npu_index变量print(f\"当前使用的NPU设备索引是: { current_npu_index}\") # 打印当前正在使用的NPU设备索引# 根据索引获取NPU设备的名称# torch_npu.npu.get_device_name(index) 函数根据给定的NPU设备索引返回该设备的名称device_name = torch_npu.npu.get_device_name(current_npu_index) # 获取当前NPU设备的名称print(f\"当前NPU设备的名称是: { device_name}\") # 打印当前NPU设备的名称# 设置默认的NPU设备# torch_npu.npu.set_device(index) 函数用于设置接下来所有NPU张量操作将使用的默认NPU设备# 注意：这通常在程序开始时设置一次，或者在需要切换设备时使用if npu_count > 1: # 如果系统中存在多个NPU设备 target_device_index = 1 if current_npu_index == 0 else 0 # 尝试切换到另一个NPU设备（如果当前是0就切到1，否则切到0） print(f\"尝试将默认NPU设备切换到索引 { target_device_index}。\") # 打印即将切换的设备索引 torch_npu.npu.set_device(target_device_index) # 执行NPU设备切换操作 print(f\"新的当前NPU设备索引是: { torch_npu.npu.current_device()}\") # 打印切换后新的当前NPU设备索引# 创建一个NPU张量# torch.randn(shape, device=\'npu:index\') 用于在指定NPU设备上创建随机张量# \'npu:0\' 表示在索引为0的NPU设备上创建张量x = torch.randn(3, 3, device=\'npu:0\') # 创建一个3x3的随机张量，并直接将其放置在索引为0的NPU设备上print(f\"在NPU上创建的张量x:\\n{ x}\") # 打印NPU张量x的内容print(f\"张量x所在的设备: { x.device}\") # 打印张量x当前所在的设备# 将CPU张量移动到NPU# .to(\'npu:index\') 方法可以将张量从一个设备移动到另一个设备cpu_tensor = torch.tensor([[1.0, 2.0], [3.0, 4.0]]) # 在CPU上创建一个2x2的张量print(f\"CPU张量:\\n{ cpu_tensor}\") # 打印CPU张量的内容npu_tensor = cpu_tensor.to(\'npu:0\') # 将CPU张量移动到索引为0的NPU设备上，生成一个新的NPU张量print(f\"移动到NPU后的张量:\\n{ npu_tensor}\") # 打印移动到NPU后的张量内容print(f\"NPU张量所在的设备: { npu_tensor.device}\") # 打印NPU张量当前所在的设备# 将NPU张量移动回CPUcpu_tensor_back = npu_tensor.to(\'cpu\') # 将NPU张量移动回CPU设备print(f\"移动回CPU后的张量:\\n{ cpu_tensor_back}\") # 打印移动回CPU后的张量内容print(f\"CPU张量（回传）所在的设备: { cpu_tensor_back.device}\") # 打印回传后的CPU张量当前所在的设备# 在NPU上执行简单的操作a = torch.tensor([[1, 2], [3, 4]], device=\'npu:0\') # 在NPU上创建一个张量ab = torch.tensor([[5, 6], [7, 8]], device=\'npu:0\') # 在NPU上创建一个张量bc = a + b # 在NPU上执行张量a和张量b的加法操作，结果c也在NPU上print(f\"NPU上的加法结果c:\\n{ c}\") # 打印NPU上的加法结果c# 内存管理概念：空闲内存和总内存# torch_npu.npu.memory_allocated(device_index) 返回指定NPU设备上当前已分配的内存量（字节）# torch_npu.npu.max_memory_allocated(device_index) 返回指定NPU设备上历史最高已分配内存量（字节）# torch_npu.npu.memory_cached(device_index) 返回指定NPU设备上缓存的内存量（字节，通常用于存储已释放但未归还给系统的内存）# torch_npu.npu.max_memory_cached(device_index) 返回指定NPU设备上历史最高缓存内存量（字节）# 注意：NPU内存查询API可能与CUDA有所不同，此处提供常见概念# 具体的NPU内存信息查询，建议参考华为昇腾官方文档，因为API可能随版本更新而调整# 以下代码仅为示意，实际可用API可能需要进一步确认print(\"\\n--- NPU内存信息 (概念性示意) ---\") # 打印分隔符，表示以下是内存信息try: # 尝试执行内存查询，因为NPU的内存API可能与CUDA略有不同，所以使用try-except # 在实际环境中，需要根据torch_npu版本和文档来确认准确的API allocated_memory = torch_npu.npu.memory_allocated(current_npu_index) # 获取当前NPU设备已分配内存 cached_memory = torch_npu.npu.memory_cached(current_npu_index) # 获取当前NPU设备缓存内存 print(f\"NPU { current_npu_index} 已分配内存: { allocated_memory / (1024**2):.2f} MB\") # 打印已分配内存（转换为MB） print(f\"NPU { current_npu_index} 缓存内存: { cached_memory / (1024**2):.2f} MB\") # 打印缓存内存（转换为MB） # 清空NPU内存缓存（类似于torch.cuda.empty_cache()） # 这会释放PyTorch缓存的显存，使其可被其他进程使用，但不保证所有显存都被操作系统回收 # torch_npu.npu.empty_cache() # 释放NPU上的内存缓存 # print(\"NPU内存缓存已清空。\") # 打印清空内存缓存的消息except AttributeError: # 如果内存查询API不存在，则捕获AttributeError print(\"NPU内存查询API可能与示例不同，请查阅最新torch_npu文档。\") # 提示用户查阅最新文档except Exception as e: # 捕获其他可能的异常 print(f\"获取NPU内存信息时发生错误: { e}\") # 打印错误信息

在上述代码中：

torch_npu.npu.is_available(): 这是进行任何NPU操作前最基本的检查，确保NPU设备能够被系统识别并准备就绪。
torch_npu.npu.device_count(): 查询当前系统中有多少个NPU卡可供使用。在多NPU环境中，这对于负载均衡或分布式训练至关重要。
torch_npu.npu.current_device(): 获取当前PyTorch会话默认使用的NPU设备索引。如果没有显式设置，通常默认为0。
torch_npu.npu.set_device(index): 允许您在程序中动态地设置或切换默认的NPU设备。这在单机多卡训练中非常有用，可以确保每个进程操作不同的NPU卡。
torch.randn(..., device=\'npu:0\') 和 tensor.to(\'npu:0\'): 这是将张量创建在NPU上或从CPU移动到NPU的两种主要方式。一旦张量在NPU上，对其执行的后续操作（如加法、乘法、卷积等）都将自动在NPU上执行，前提是torch_npu已经为这些操作提供了NPU实现。
tensor.to(\'cpu\'): 将NPU上的张量数据复制回CPU内存。这在需要将结果保存到磁盘、进行CPU端的后处理或打印结果时非常有用。

6. NPU张量的内部表示与生命周期管理：数据在NPU上的生存

当我们创建一个torch.Tensor并将其放置到NPU设备上时，例如x = torch.randn(3, 3, device=\'npu:0\')，这个x不再仅仅是一个Python对象，它的底层数据实际存储在NPU的显存中。torch_npu负责管理这部分显存的分配、释放以及数据的读写。

一个NPU张量通常包含以下关键信息：

形状（Shape）和数据类型（Dtype）：与CPU张量类似，定义了张量的维度和元素类型（如float32、float16、int8等）。
设备信息（Device Information）：指明张量当前所在的NPU设备索引，例如npu:0。
NPU显存指针：这是一个指向NPU显存中实际数据起始地址的内部指针。PyTorch通过torch_npu，再通过CANN，最终通过这个指针访问和操作数据。
引用计数（Reference Counting）：与Python对象的内存管理类似，torch_npu也会对NPU上的张量数据进行引用计数。当一个张量不再被引用时，其占用的NPU显存会在适当的时候被回收。

torch_npu的内存管理机制旨在高效利用有限的NPU显存。它通常会维护一个内存池（Memory Pool），当需要分配显存时，会优先从内存池中获取已释放但未归还给操作系统的显存块，以减少频繁的显存申请和释放带来的开销。当您调用del tensor或者张量超出其作用域时，其占用的显存并不会立即归还给操作系统，而是回到PyTorch的内存池中，供后续的张量分配复用。如果您需要强制释放缓存的显存，可以使用torch_npu.npu.empty_cache()，这类似于torch.cuda.empty_cache()。

这种内存池机制对于深度学习训练至关重要，因为它能够显著减少内存碎片化，提高内存分配的效率，并降低训练过程中的显存峰值。然而，这也意味着当您观察torch-smi（或类似的NPU监控工具）报告的显存使用量时，它可能高于PyTorch memory_allocated报告的量，因为torch-smi显示的是整个进程占用的显存，包括PyTorch缓存的未使用的显存。

7. NPU流（Stream）与事件（Event）：深度并发的基石

在NPU上，为了实现最大化的并行度，计算通常以异步的方式进行。这意味着当您在NPU上启动一个操作时，它可能不会立即完成，而是被放入一个**流（Stream）**中排队执行。流可以被理解为一个按顺序执行NPU操作的队列。不同的流之间可以并发执行，从而实现深度计算和数据传输的并行化。

torch_npu引入了与torch.cuda.Stream类似的torch_npu.npu.Stream对象，用于管理NPU上的异步操作。

默认流（Default Stream）：每个NPU设备都有一个默认流。如果您没有显式创建和使用其他流，所有NPU操作都会在默认流中执行。默认流是同步的，即在一个默认流中的操作会按顺序执行，但不同默认流（如果涉及不同设备）之间可以并行。
用户自定义流（User-defined Streams）：您可以创建自己的流，并在这些流中调度操作。不同流中的操作可以并发执行，前提是没有数据依赖。这对于实现计算和数据传输的重叠、或者在模型中并发执行不同部分的计算非常有用。

**事件（Event）**是用于在流之间进行同步的机制。一个事件可以在一个流中的某个特定点被记录，然后在另一个流中等待这个事件完成。这允许您精确控制不同流之间的依赖关系。

以下代码演示了NPU流和事件的基本使用：

import torchimport torch_npuif not torch_npu.npu.is_available(): # 再次检查NPU是否可用 print(\"NPU设备不可用，跳过流和事件示例。\") # 如果不可用，则跳过else: # 如果NPU可用 print(\"\\n--- NPU流和事件示例 ---\") # 打印分隔符 # 确保当前有NPU设备 current_device = torch_npu.npu.current_device() # 获取当前NPU设备的索引 print(f\"当前NPU设备: npu:{ current_device}\") # 打印当前NPU设备的索引 # 创建一个NPU张量 # 在默认流中创建张量 a = torch.randn(1000, 1000, device=f\'npu:{ current_device}\') # 在当前NPU设备上创建一个1000x1000的随机张量a b = torch.randn(1000, 1000, device=f\'npu:{ current_device}\') # 在当前NPU设备上创建一个1000x1000的随机张量b # 1. 默认流的操作 # 默认流是隐式存在的，所有没有指定流的操作都在默认流中执行 print(\"在默认流中执行加法操作...\") # 打印提示信息 c_default = a + b # 执行a和b的加法操作，此操作在默认流中排队 torch_npu.npu.synchronize() # 显式等待默认流中所有操作完成，确保c_default已计算完毕 print(\"默认流加法完成。\") # 打印完成信息 # 2. 创建自定义流 # torch_npu.npu.Stream(device=None) 创建一个新的NPU流，可以指定设备 stream1 = torch_npu.npu.Stream(device=f\'npu:{ current_device}\') # 在当前NPU设备上创建一个新的NPU流stream1 stream2 = torch_npu.npu.Stream(device=f\'npu:{ current_device}\') # 在当前NPU设备上创建另一个新的NPU流stream2 # 3. 使用流上下文管理器 # with torch_npu.npu.stream(stream_obj): 进入指定流的上下文，所有NPU操作都会在该流中排队 print(\"\\n在自定义流中执行操作...\") # 打印提示信息 with torch_npu.npu.stream(stream1): # 进入stream1的上下文 print(\"Stream 1: 开始第一个矩阵乘法...\") # 打印提示信息 d = torch.matmul(a, b) # 在stream1中执行a和b的矩阵乘法，结果d也在NPU上 print(\"Stream 1: 第一个矩阵乘法已调度。\") # 打印调度信息 with torch_npu.npu.stream(stream2): # 进入stream2的上下文 print(\"Stream 2: 开始第二个矩阵乘法...\") # 打印提示信息 e = torch.matmul(b, a) # 在stream2中执行b和a的矩阵乘法，结果e也在NPU上 print(\"Stream 2: 第二个矩阵乘法已调度。\") # 打印调度信息 # 4. 使用事件进行跨流同步 # torch_npu.npu.Event() 创建一个NPU事件 # event.record(stream_obj) 在指定流的当前点记录事件 # stream_obj.wait_event(event_obj) 当前流等待另一个流中的事件完成 print(\"\\n使用事件进行流同步...\") # 打印提示信息 event = torch_npu.npu.Event() # 创建一个NPU事件 with torch_npu.npu.stream(stream1): # 进入stream1上下文 f = d + 1 # 在stream1中执行操作（依赖d） event.record(stream1) # 在stream1的当前点记录事件 with torch_npu.npu.stream(stream2): # 进入stream2上下文 stream2.wait_event(event) # stream2等待event（即stream1中的f操作完成） g = e + f # 在stream2中执行操作（依赖f和e） print(\"Stream 2: 等待Stream 1事件后执行操作。\") # 打印提示信息 # 5. 等待所有自定义流完成 # stream_obj.synchronize() 等待该流中的所有操作完成 print(\"\\n等待所有自定义流操作完成...\") # 打印提示信息 stream1.synchronize() # 等待stream1中所有操作完成 stream2.synchronize() # 等待stream2中所有操作完成 print(\"所有自定义流操作完成。\") # 打印完成信息 # 验证结果 (将结果移回CPU打印) print(f\"d在NPU上: { d.device}\") # 打印张量d所在的设备 print(f\"e在NPU上: { e.device}\") # 打印张量e所在的设备 print(f\"f在NPU上: { f.device}\") # 打印张量f所在的设备 print(f\"g在NPU上: { g.device}\") # 打印张量g所在的设备 # 确保g的结果在CPU上可用 g_cpu = g.cpu() # 将NPU张量g移动到CPU上 print(f\"g移动到CPU后，其形状: { g_cpu.shape}\") # 打印g的形状 # 清理内存 (可选) # del a, b, c_default, d, e, f, g # 删除所有张量对象，帮助GC回收内存 # torch_npu.npu.empty_cache() # 清空NPU内存缓存 # print(\"NPU内存缓存已清空 (可选操作)。\") # 打印提示信息

在这个示例中：

我们首先在默认流中执行了一个简单的加法操作，并用torch_npu.npu.synchronize()确保其完成。synchronize()是一个非常重要的函数，它会阻塞CPU直到所有NPU操作（默认流中）完成。在实际训练中，通常会在每个训练批次结束时或评估模型前调用它，以确保所有计算都已完成。
我们创建了两个独立的流stream1和stream2。
通过with torch_npu.npu.stream(stream_obj):上下文管理器，我们确保在特定代码块中的NPU操作被调度到指定的流中。这意味着stream1中的矩阵乘法和stream2中的矩阵乘法可以并发执行，前提是NPU硬件资源允许。
event.record(stream1)在stream1中的特定点标记了一个事件。
stream2.wait_event(event)使stream2暂停执行，直到event所标记的操作（即stream1中的f = d + 1）完成。这是一种非阻塞的跨流同步方式，即CPU线程不会被阻塞，只是stream2中的后续操作会被延迟。
最后，stream1.synchronize()和stream2.synchronize()确保所有流中的操作都已完成，这样我们才能安全地将结果从NPU复制回CPU进行验证。

熟练掌握流和事件的使用对于实现高效的NPU计算至关重要，特别是在需要精细控制并行度、重叠计算和数据传输的复杂模型和数据流水线中。

8. NPU上的数据类型与精度：FP16混合精度训练的奥秘

深度学习中常用的数据类型包括FP32（单精度浮点数）和FP16（半精度浮点数）。NPU在设计之初就考虑了对FP16的优化支持，因为FP16相较于FP32可以：

减少显存占用：存储相同数量的数据，FP16只需要FP32一半的显存。这使得更大的模型或更大的批次大小可以在有限的NPU显存中运行。
提高计算速度：达芬奇架构的AI Core内部的Cube Unit对FP16运算有专门的优化指令，通常可以提供更高的理论吞吐量。
降低带宽需求：传输相同数量的信息，FP16需要的数据量更少，从而减少了对内存带宽的需求。

然而，单纯将所有计算都切换到FP16可能会带来精度损失，因为FP16的数值范围和精度都小于FP32，这可能导致梯度消失或溢出等问题，从而影响模型收敛。为了解决这个问题，torch_npu支持混合精度训练（Mixed Precision Training）。

混合精度训练的核心思想是在保持模型精度不损失的前提下，尽可能地利用FP16的优势。这通常通过以下几个关键技术实现：

Op-Casting：将模型的某些操作（例如矩阵乘法、卷积）的数据类型从FP32自动转换为FP16执行，而其他对精度敏感的操作（例如梯度累加、BN层的统计量计算）仍然保持FP32。torch_npu通过其与CANN的集成，能够智能地识别并执行这种转换。
Loss Scaling（损失缩放）：为了避免在FP16下出现梯度下溢（underflow），即梯度值变得非常小以至于无法用FP16表示为非零值，通常会将损失函数乘以一个较大的缩放因子。这样，反向传播时得到的梯度值也会相应变大，避免下溢。在梯度累加到FP32的权重更新之前，再将缩放因子除掉。
Master Weights（主权重）：通常，模型的权重会以FP32格式存储一份（称为主权重）。在每次迭代中，会从主权重派生出FP16的副本用于前向和反向传播计算。梯度计算完成后，会使用FP32的梯度直接更新FP32的主权重。这样可以确保权重的更新精度始终保持在FP32，从而维持模型稳定性。

torch_npu通过与PyTorch的Automatic Mixed Precision (AMP) 功能以及NPU特定的优化相结合，提供了开箱即用的混合精度训练支持。

import torchimport torch_npufrom torch.cuda.amp import autocast, GradScaler # 虽然是cuda.amp，但torch_npu通常会重载其功能if not torch_npu.npu.is_available(): # 检查NPU可用性 print(\"NPU设备不可用，跳过混合精度示例。\") # 不可用则跳过else: # NPU可用 print(\"\\n--- NPU混合精度训练示例 ---\") # 打印分隔符 # 定义一个简单的神经网络模型 # 继承torch.nn.Module class SimpleModel(torch.nn.Module): def __init__(self): # 构造函数 super(SimpleModel, self).__init__() # 调用父类构造函数 self.fc1 = torch.nn.Linear(100, 50) # 定义一个全连接层，输入特征100，输出特征50 self.relu = torch.nn.ReLU() # 定义ReLU激活函数 self.fc2 = torch.nn.Linear(50, 10) # 定义另一个全连接层，输入特征50，输出特征10 def forward(self, x): # 前向传播函数 x = self.fc1(x) # 数据通过第一个全连接层 x = self.relu(x) # 数据通过ReLU激活函数 x = self.fc2(x) # 数据通过第二个全连接层 return x # 返回模型的输出 # 将模型移动到NPU设备 current_device = torch_npu.npu.current_device() # 获取当前NPU设备索引 device = torch.device(f\'npu:{ current_device}\') # 创建PyTorch设备对象 model = SimpleModel().to(device) # 创建模型实例并将其移动到NPU设备 # 定义优化器 optimizer = torch.optim.SGD(model.parameters(), lr=0.01) # 使用SGD优化器，学习率为0.01 # 定义损失函数 criterion = torch.nn.CrossEntropyLoss() # 使用交叉熵损失函数 # 创建GradScaler用于混合精度训练 # GradScaler管理损失缩放，以防止FP16梯度下溢 scaler = GradScaler() # 初始化GradScaler对象 print(f\"模型参数初始数据类型（全连接层1权重）: { model.fc1.weight.dtype}\") # 打印模型参数的初始数据类型 # 模拟训练循环 for epoch in range(2): # 训练2个epoch print(f\"\\n--- Epoch { epoch+1} ---\") # 打印当前epoch # 准备输入数据和目标数据 # 输入数据在NPU上创建，并且是FP32类型 inputs = torch.randn(64, 100, device=device) # 创建一个批次大小为64，特征维度为100的随机输入张量 labels = torch.randint(0, 10, (64,), device=device) # 创建一个批次大小为64的随机标签张量 optimizer.zero_grad() # 梯度清零，清除上次迭代计算的梯度 # 1. 前向传播：使用autocast上下文，自动将某些操作转换为FP16 # autocast() 是PyTorch AMP提供的上下文管理器，在NPU上它会调度到torch_npu的实现 with autocast(device_type=\'npu\'): # 在NPU设备上启用自动混合精度 print(f\"输入张量的数据类型（进入autocast前）: { inputs.dtype}\") # 打印输入张量的数据类型 outputs = model(inputs) # 执行模型的前向传播 # 在autocast中，根据算子类型，张量和计算可能会自动转换为FP16 print(f\"模型输出张量的数据类型（autocast中）: { outputs.dtype}\") # 打印模型输出张量的数据类型 loss = criterion(outputs, labels) # 计算损失 print(f\"损失值: { loss.item()}\") # 打印当前损失值 # 2. 梯度缩放：缩放损失，防止反向传播时梯度下溢 # scaler.scale(loss) 将损失乘以缩放因子 scaled_loss = scaler.scale(loss) # 对损失进行缩放 # 3. 反向传播：计算梯度 # scaled_loss.backward() 反向传播计算梯度 scaled_loss.backward() # 执行反向传播，此时计算的梯度是缩放后的 # 4. 优化器更新：解除缩放并更新模型参数 # scaler.unscale_(optimizer) 在更新参数前，将优化器中的梯度解除缩放 # scaler.step(optimizer) 执行优化器参数更新 # scaler.update() 更新缩放因子，如果发生溢出则减少，否则增加 scaler.unscale_(optimizer) # 解除优化器中所有参数的梯度缩放 # 检查梯度的inf/NaN，并执行参数更新。如果梯度中包含inf/NaN，则跳过更新。 scaler.step(optimizer) # 根据计算的梯度更新模型参数 scaler.update() # 更新GradScaler的缩放因子 print(f\"模型参数数据类型（全连接层1权重）: { model.fc1.weight.dtype}\") # 再次打印模型参数数据类型，验证其保持FP32 print(\"\\n混合精度训练示例完成。\") # 打印完成信息 # 再次强调，模型的权重通常保持FP32，只有前向/反向计算的中间结果和部分操作切换到FP16 print(\"注意：模型权重通常保持为FP32，中间计算结果可能为FP16以节约显存和加速。\")

这段代码展示了如何使用torch.cuda.amp模块（在torch_npu环境中会被适配到NPU）进行混合精度训练。

autocast(device_type=\'npu\')上下文管理器是关键。在它的作用域内，PyTorch会根据预定义的规则，自动选择是使用FP16还是FP32进行操作。对于torch_npu，这意味着它会尽可能地利用NPU对FP16的高效支持。
GradScaler负责损失缩放和管理权重的更新。它确保了即使在FP16下计算的梯度值很小，也能避免下溢，并在更新FP32主权重时，正确地将梯度值解除缩放。
重要的是，模型本身的权重（例如model.fc1.weight）通常保持为FP32。只有前向传播和反向传播的中间计算结果，以及一些特定的数学运算，才可能被转换为FP16执行，以获得性能优势。这样既能利用FP16的速度和显存优势，又能保持FP32的精度以确保模型收敛。

混合精度训练是优化深度学习模型在NPU上性能的常用且高效的方法，能够显著提升训练速度并允许训练更大的模型。

9. torch_npu的高级优化策略：静态图编译与算子融合的极致性能榨取

为了将昇腾AI处理器的达芬奇架构算力发挥到极致，仅仅将PyTorch的动态计算图直接映射到NPU上的异步执行是不够的。真正的性能飞跃往往来源于对计算图的深度分析和优化，这就是**静态图编译（Static Graph Compilation）**的核心价值。torch_npu通过与华为昇腾CANN软件栈的深度集成，能够将PyTorch的动态图转化为NPU上高效执行的静态图。

动态图 vs. 静态图：核心差异与NPU的偏好

动态图（Eager Mode）：PyTorch默认的执行模式。代码执行到一行，对应的操作就立即执行。这提供了极大的灵活性和易于调试的优点，但在性能上存在一些挑战：
- Python解释器开销：每个操作都需要Python解释器进行调度，引入额外的开销。
- 调度开销：NPU上的每个操作都需要独立的调度指令，无法充分利用NPU硬件的并行性和流水线。
- 缺乏全局优化视野：由于操作是逐个执行的，编译器无法看到整个计算图，因此无法进行跨操作的全局优化，如算子融合、内存复用等。
静态图（Graph Mode）：将整个计算图（或计算图的一部分）在执行前编译成一个优化过的、不可变的执行单元。
- NPU偏好：昇腾AI处理器及其CANN软件栈被设计为更适合执行静态图。CANN的图引擎能够对整个图进行深度分析和优化，生成高度优化的NPU可执行指令流。
- 优化潜力：在静态图模式下，CANN能够进行：
  - 算子融合（Operator Fusion）：将多个连续的小操作融合成一个大的NPU核心操作，减少核函数启动开销和内存访问。例如，卷积-BN-ReLU序列常被融合为一个单一的核。
  - 内存复用（Memory Reuse）：通过分析数据依赖，智能地复用显存，减少显存峰值和数据搬运。
  - 并行调度优化：更精细地调度NPU上Cube Unit、Vector Unit和DMA的并行执行。
  - 图剪枝（Graph Pruning）：移除对最终结果没有贡献的冗余操作。

torch_npu通过提供机制（例如torch_npu.npu.jit.trace或结合torch.jit.trace）将PyTorch模型转化为NPU可执行的静态图。

9.1. 基于JIT Tracing的静态图生成与优化

PyTorch本身提供了JIT（Just-In-Time）编译功能，可以将部分PyTorch模型或函数追踪（Trace）成TorchScript图。torch_npu利用并扩展了这一能力，使得TorchScript图可以在NPU上进行优化和执行。

Tracing的基本原理：
Tracing的工作方式是：给定一个模型实例和一个或多个示例输入，PyTorch会记录模型在这些输入上执行时所有操作的序列，从而构建出一个计算图。这个图是静态的，因为它捕捉的是特定输入形状和数据流下的计算路径。

import torch # 导入PyTorch库import torch.nn as nn # 导入神经网络模块import torch_npu # 导入torch_npu库if not torch_npu.npu.is_available(): # 检查NPU设备是否可用 print(\"NPU设备不可用，跳过JIT Tracing示例。\") # 如果NPU不可用，则打印提示并跳过示例else: # 如果NPU可用 print(\"\\n--- NPU JIT Tracing 静态图编译示例 ---\") # 打印分隔符 # 1. 定义一个简单的神经网络模型 # 继承torch.nn.Module class SimpleConvNet(nn.Module): def __init__(self): # 构造函数 super(SimpleConvNet, self).__init__() # 调用父类构造函数 # 定义一个2D卷积层，输入通道3，输出通道16，卷积核大小3x3，填充1 self.conv1 = nn.Conv2d(3, 16, kernel_size=3, padding=1) self.relu1 = nn.ReLU() # 定义第一个ReLU激活函数 self.pool1 = nn.MaxPool2d(kernel_size=2, stride=2) # 定义第一个2D最大池化层，核大小2x2，步长2 self.conv2 = nn.Conv2d(16, 32, kernel_size=3, padding=1) # 定义第二个2D卷积层 self.relu2 = nn.ReLU() # 定义第二个ReLU激活函数 self.pool2 = nn.MaxPool2d(kernel_size=2, stride=2) # 定义第二个2D最大池化层 # 假设输入是32x32，经过两次池化后变为8x8，展平为32 * 8 * 8 = 2048 self.fc = nn.Linear(32 * 8 * 8, 10) # 定义一个全连接层，输入2048，输出10 def forward(self, x): # 前向传播函数 x = self.pool1(self.relu1(self.conv1(x))) # 卷积1 -> ReLU1 -> 池化1 x = self.pool2(self.relu2(self.conv2(x))) # 卷积2 -> ReLU2 -> 池化2 x = x.view(x.size(0), -1) # 将多维张量展平为一维，-1表示自动推断维度大小 x = self.fc(x) # 通过全连接层 return x # 返回输出 # 2. 实例化模型并将其移动到NPU设备 # 获取当前NPU设备索引 current_device = torch_npu.npu.current_device() # 创建PyTorch设备对象，指定为NPU device = torch.device(f\'npu:{ current_device}\') model = SimpleConvNet().to(device) # 创建模型实例并将其移动到NPU # 3. 创建示例输入张量 # 注意：tracing需要固定的输入形状，这里使用批次大小1，输入通道3，图像尺寸32x32 example_input = torch.randn(1, 3, 32, 32, device=device) # 在NPU上创建一个示例输入张量 # 4. Tracing模型到TorchScript # torch.jit.trace(model, example_inputs) 将模型追踪为TorchScript模块 # 注意：对于NPU，torch_npu会拦截这个调用并确保其在NPU后端进行优化 # traced_model 将是一个TorchScript JIT编译的模块 print(\"开始JIT Tracing模型，这将把模型转化为NPU优化的静态图...\") # 打印提示信息 # 这一步是关键，它会将PyTorch模型编译为TorchScript图，并由torch_npu进一步优化为NPU可执行的静态图 traced_model = torch.jit.trace(model, example_input) print(\"模型JIT Tracing完成。\") # 打印完成信息 # 5. 验证Traced模型的执行（在NPU上） # 使用新的输入数据进行推理 new_input = torch.randn(2, 3, 32, 32, device=device) # 创建一个新的批次大小为2的随机输入张量 print(f\"使用新的输入形状 { new_input.shape} 对Traced模型进行推理...\") # 打印提示信息 # 执行Traced模型，此时模型在NPU上以静态图模式运行 output_traced = traced_model(new_input) print(f\"Traced模型输出形状: { output_traced.shape}\") # 打印Traced模型的输出形状 print(f\"Traced模型输出所在设备: { output_traced.device}\") # 打印Traced模型输出所在的设备 # 6. 对比Eager模式的输出（可选） # 为了验证Traced模型的正确性，可以与Eager模式的输出进行对比 # model.eval() 设置模型为评估模式（关闭Dropout等） model.eval() # output_eager = model(new_input) # 在Eager模式下执行模型 # 注意：浮点精度计算可能导致微小差异，通常使用torch.allclose进行比较 # print(f\"Eager模式模型输出形状: {output_eager.shape}\") # assert torch.allclose(output_traced, output_eager, atol=1e-4), \"Traced模型输出与Eager模式不一致！\" # print(\"Traced模型输出与Eager模式输出一致（在容忍范围内）。\") # 7. 保存和加载Traced模型 (对于部署非常有用) # traced_model.save(\"simple_conv_net_npu.pt\") # 保存Traced模型到文件 # print(\"Traced模型已保存为 simple_conv_net_npu.pt。\") # 打印保存信息 # loaded_model = torch.jit.load(\"simple_conv_net_npu.pt\", map_location=device) # 从文件加载Traced模型并映射到NPU # print(\"Traced模型已从文件加载。\") # 打印加载信息 # loaded_output = loaded_model(new_input) # 使用加载的模型进行推理 # print(f\"加载模型后输出形状: {loaded_output.shape}\") # 打印加载模型后的输出形状 # assert torch.allclose(output_traced, loaded_output), \"保存和加载后的模型输出不一致！\" # print(\"保存和加载后的模型输出与原Traced模型输出一致。\")

在上述示例中，torch.jit.trace(model, example_input)是核心步骤。当torch_npu环境激活时，这一追踪过程会被CANN的图引擎感知，并生成针对NPU高度优化的静态计算图。这个图可以被序列化（保存到文件），并在部署时直接加载执行，从而避免了Python解释器的开销，实现了低延迟和高吞吐的推理。

静态图编译的注意事项：

控制流限制：Tracing只能捕获数据流，不能很好地处理依赖于输入数据的动态控制流（例如if/else语句，for循环的迭代次数依赖于张量值）。如果模型包含此类动态控制流，Tracing可能会出错或生成不正确的图。对于这类模型，可能需要使用TorchScript的script模式（@torch.jit.script）或者更高级的编译技术。
输入形状固定：Tracing生成的图是针对特定输入形状的。如果推理时输入形状发生变化，可能需要重新Tracing，或者在Tracing时使用torch.jit.make_tuple(example_input)和check_trace=False来放松形状检查（但这可能导致运行时错误）。
训练与推理：Tracing更常用于推理阶段的模型优化。在训练阶段，由于反向传播、优化器步骤、学习率调度等动态行为，直接Tracing整个训练循环通常不可行。然而，可以对训练过程中的前向和反向传播的核心计算图进行Tracing以获得部分加速。

10. torch_npu的自定义算子开发：扩展NPU的计算能力

尽管昇腾CANN和torch_npu已经提供了丰富的预优化算子，但在某些特定场景下，标准算子库可能无法满足所有需求，或者用户希望实现一种现有算子库中没有的新型运算。这时，**自定义算子（Custom Operator）**开发就变得至关重要。自定义算子允许开发者直接利用昇腾AI处理器的底层能力，实现高度定制和优化的计算。

为什么要开发自定义算子？

创新模型：实现现有框架和库中不支持的新颖层或操作。
性能瓶颈：当发现某个标准算子在NPU上性能不佳，但有特定的优化空间时，可以开发自定义算子来替代。
特定硬件特性利用：直接利用NPU的某些底层特性，例如特定的指令集或内存访问模式，以达到极致性能。
兼容性需求：支持来自其他框架或研究论文的特定操作。

自定义算子开发栈：从Python到NPU硬件

开发一个torch_npu自定义算子，通常涉及以下几个层次：

Python前端（torch.autograd.Function）：这是用户在PyTorch中定义自定义算子的入口。您需要创建一个继承自torch.autograd.Function的类，并实现其forward和backward静态方法。forward定义了算子的前向计算逻辑，backward定义了算子的反向传播梯度计算逻辑。
C++/CUDA/Ascend C 后端实现：这是实际执行计算的核心部分。对于NPU，这意味着您需要使用CANN提供的开发工具和API，通常是：
- Ascend C (AICore Language)：这是一种为达芬奇架构深度定制的C++方言，允许开发者直接控制AI Core（Cube Unit、Vector Unit）的计算和内存访问。这是实现最高性能自定义算子的首选方式，但开发难度也最大。
- TBE (Tensor Boost Engine)：CANN提供的一个基于DSL（领域特定语言）的算子开发框架。它允许开发者用Python或JSON定义算子的计算逻辑和调度策略，TBE编译器会将其转化为NPU可执行的二进制。TBE开发相对Ascend C更容易，且能获得不错的性能。
Python-C++绑定（Pybind11）：由于核心逻辑是用C++或Ascend C实现的，需要使用工具（如Pybind11）将这些C++函数暴露给Python，使得PyTorch可以调用它们。
torch_npu集成：在Python前端中，您的forward和backward方法将调用通过Pybind11暴露的底层NPU实现。

概念性自定义算子实现流程 (Python侧):

由于直接编写Ascend C代码非常复杂且篇幅巨大，这里将专注于PyTorch Python前端的实现，并假定底层C++ NPU实现已存在。这部分代码展示了如何在PyTorch中定义一个自定义算子，并连接到假想的NPU后端实现。

import torch # 导入PyTorch库import torch.nn as nn # 导入神经网络模块import torch_npu # 导入torch_npu库# 注意：以下是一个概念性的自定义NPU算子实现示例# 实际的NPU底层实现（使用Ascend C/TBE）非常复杂，需要CANN开发环境和工具链# 此处主要演示PyTorch侧如何定义和调用自定义算子，并假设底层NPU实现已通过C++扩展暴露给Pythonif not torch_npu.npu.is_available(): # 检查NPU设备是否可用 print(\"NPU设备不可用，跳过自定义算子示例。\") # 如果NPU不可用，则打印提示并跳过示例else: # 如果NPU可用 print(\"\\n--- NPU自定义算子概念性示例 ---\") # 打印分隔符 # 假设我们想实现一个简单的“自定义激活函数” # 比如： f(x) = x * sigmoid(x) (Swish激活函数的一种变体) # 假设标准PyTorch中没有这个算子或者我们想在NPU上对其进行特殊优化 # 1. 定义底层NPU算子的Python绑定（伪代码） # 在真实场景中，这部分是通过Pybind11等工具将C++函数绑定到Python # 这里的npucustom_ops只是一个占位符，模拟了实际的NPU后端实现 class NPUCustomOps: @staticmethod def _swish_forward_npu(input_tensor): # 模拟Swish算子的前向传播NPU实现 # 真实实现中，这里会调用CANN的API在NPU上执行计算 # 例如，调用昇腾C/TBE编译生成的核函数 print(\" [NPU Backend] Executing custom_swish_forward on NPU...\") # 打印模拟执行信息 # 伪计算：简单地返回 input_tensor * torch_npu.sigmoid(input_tensor) # 实际计算会是直接在NPU上完成，无需回退到PyTorch的npu.sigmoid return input_tensor * torch_npu.npu.sigmoid(input_tensor) # 模拟NPU上的前向计算 @staticmethod def _swish_backward_npu(grad_output, input_tensor, output_tensor): # 模拟Swish算子的反向传播NPU实现 # 真实实现中，这里会调用CANN的API在NPU上计算梯度 print(\" [NPU Backend] Executing custom_swish_backward on NPU...\") # 打印模拟执行信息 # 伪计算：简单地返回 grad_output * (sigmoid(x) + x * sigmoid(x) * (1 - sigmoid(x))) sigmoid_x = torch_npu.npu.sigmoid(input_tensor) # 模拟NPU上的sigmoid计算 grad_input = grad_output * (sigmoid_x + input_tensor * sigmoid_x * (1 - sigmoid_x)) # 模拟NPU上的反向计算 return grad_input # 返回输入张量的梯度 # 2. 定义PyTorch Autograd Function # 这是PyTorch自定义算子的核心，连接Python前端和NPU后端 class CustomSwish(torch.autograd.Function): # type_context参数是用于在不同设备（CPU/NPU）上进行分派的上下文，在NPU自定义算子中可能被用到 @staticmethod # ctx用于保存forward中的非张量参数和需要在backward中使用的张量 def forward(ctx, input_tensor): # 定义前向传播 # 确保输入张量在NPU上 if not input_tensor.is_npu: # 如果输入张量不在NPU上 raise RuntimeError(\"CustomSwish operator expects NPU input tensor.\") # 抛出运行时错误 # 保存input_tensor，以便在backward中使用 ctx.save_for_backward(input_tensor) # 将输入张量保存到ctx，供反向传播使用 # 调用假想的NPU后端实现 # NPUCustomOps._swish_forward_npu(input_tensor) 会在NPU上执行实际计算 output = NPUCustomOps._swish_forward_npu(input_tensor) # 调用模拟的NPU前向计算 return output # 返回计算结果 @staticmethod # grad_output是来自下一层的梯度 def backward(ctx, grad_output): # 定义反向传播 # 从ctx中取出forward时保存的input_tensor input_tensor, = ctx.saved_tensors # 从ctx中获取保存的张量 # 再次确保grad_output在NPU上 if not grad_output.is_npu: # 如果梯度输出不在NPU上 raise RuntimeError(\"CustomSwish backward expects NPU grad_output.\") # 抛出运行时错误 # 再次确保input_tensor在NPU上 if not input_tensor.is_npu: # 如果输入张量不在NPU上 raise RuntimeError(\"CustomSwish backward expects NPU input_tensor.\") # 抛出运行时错误 # 调用假想的NPU后端实现来计算输入张量的梯度 # NPUCustomOps._swish_backward_npu(...) 会在NPU上执行实际的梯度计算 grad_input = NPUCustomOps._swish_backward_npu(grad_output, input_tensor, None) # 调用模拟的NPU反向计算 return grad_input # 返回输入张量的梯度 # 3. 将自定义算子封装成一个PyTorch nn.Module（可选，但推荐） # 这样可以像使用其他PyTorch层一样使用自定义算子 class CustomSwishModule(nn.Module): def forward(self, x): # 前向传播函数 # 调用自定义算子的autograd Function return CustomSwish.apply(x) # 通过.apply()方法调用自定义Autograd Function # 4. 在模型中使用自定义算子 # 定义一个包含自定义算子的简单模型 class ModelWithCustomOp(nn.Module): def __init__(self): # 构造函数 super(ModelWithCustomOp, self).__init__() # 调用父类构造函数 self.linear1 = nn.Linear(128, 64) # 定义一个全连接层 self.custom_act = CustomSwishModule() # 使用自定义激活函数模块 self.linear2 = nn.Linear(64, 10) # 定义另一个全连接层 def forward(self, x): # 前向传播函数 x = self.linear1(x) # 数据通过第一个全连接层 x = self.custom_act(x) # 数据通过自定义激活函数 x = self.linear2(x) # 数据通过第二个全连接层 return x # 返回输出 # 5. 实例化模型并将其移动到NPU model_custom = ModelWithCustomOp().to(device) # 创建模型实例并移动到NPU设备 # 6. 准备输入数据 input_data = torch.randn(32, 128, device=device) # 在NPU上创建一个输入张量 # 7. 执行前向传播和反向传播 print(\"\\n执行包含自定义算子的模型前向传播...\") # 打印提示信息 output = model_custom(input_data) # 执行模型前向传播 print(f\"模型输出形状: { output.shape}\") # 打印模型输出形状 # 模拟损失并执行反向传播 # output.mean().backward() 假设有一个标量损失，并对其进行反向传播 loss = output.mean() # 假设损失是输出的平均值 print(f\"模拟损失: { loss.item()}\") # 打印模拟损失值 print(\"执行模型反向传播（将触发自定义算子的backward方法）...\") # 打印提示信息 loss.backward() # 执行反向传播 print(\"自定义算子示例完成。\") # 打印完成信息

在这个概念性的示例中，我们展示了torch.autograd.Function在NPU自定义算子开发中的作用。CustomSwish.forward和CustomSwish.backward方法是连接PyTorch计算图和底层NPU实现的桥梁。虽然NPUCustomOps是一个模拟的类，但在真实的开发中，它将是您通过C++扩展（例如使用Pybind11）绑定到Python的、用Ascend C或TBE编写的NPU原生算子。

自定义算子开发的复杂性与挑战：

硬件编程：需要深入理解达芬奇架构的编程模型，包括AI Core的指令集、内存层次、并行度控制等。
工具链：熟悉CANN的算子开发工具链，包括编译器、调试器、性能分析器等。
内存管理：需要手动管理NPU显存的分配和释放，避免内存泄漏或碎片化。
精度管理：在Ascend C/TBE中处理FP16和FP32的混合精度计算，确保精度和性能的平衡。
算子调度：编写高效的调度逻辑，充分利用NPU的并行能力。
测试与验证：需要详尽的单元测试和集成测试，确保算子在各种输入条件下的正确性、稳定性和性能。

尽管自定义算子开发具有一定的门槛，但它为深度学习研究者和工程师提供了无限的可能性，可以在NPU上实现高度定制和极致性能的AI计算。

11. torch_npu的分布式训练：扩展到多NPU和多机环境

对于大型深度学习模型和海量数据集，单卡NPU的计算能力往往不足以满足训练需求。**分布式训练（Distributed Training）**成为必然选择，它允许我们将训练任务分布到多块NPU卡（单机多卡）或多台服务器的多块NPU卡（多机多卡）上并行执行，从而缩短训练时间，并支持训练更大的模型。

PyTorch提供了强大的分布式训练工具箱，主要通过torch.distributed模块实现。torch_npu与此模块无缝集成，使得用户可以几乎不修改代码地将基于CUDA的PyTorch分布式训练代码迁移到NPU上。

分布式训练的核心概念：

进程组（Process Group）：分布式训练中的基本通信单元。所有参与训练的进程会组成一个进程组，它们可以通过进程组进行通信和数据同步。
秩（Rank）与世界大小（World Size）：
- 秩（Rank）：每个进程在进程组中的唯一标识符，通常从0到world_size - 1。
- 世界大小（World Size）：参与分布式训练的总进程数。
后端（Backend）：定义了进程之间通信的方式。对于NPU，torch_npu通常使用**HCCL (Huawei Collective Communication Library)**作为其通信后端，它类似于CUDA环境中的NCCL (NVIDIA Collective Communication Library)，为NPU设备提供了高性能的集体通信原语（如All-Reduce, All-Gather等）。
分布式数据并行（DistributedDataParallel, DDP）：PyTorch中最常用的分布式训练范式。它在每个进程的NPU上复制一份完整的模型，每个进程处理不同批次的数据。反向传播时，各个进程计算得到各自的梯度，然后通过集体通信操作（通常是All-Reduce）将所有进程的梯度进行平均，确保所有模型副本的参数更新保持一致。

分布式训练环境初始化：

在进行分布式训练之前，需要对环境进行初始化。最常用的初始化方式是使用torch.distributed.init_process_group。

import os # 导入操作系统模块，用于获取环境变量import torch # 导入PyTorch库import torch.nn as nn # 导入神经网络模块import torch.optim as optim # 导入优化器模块import torch_npu # 导入torch_npu库import torch.distributed as dist # 导入PyTorch分布式模块from torch.nn.parallel import DistributedDataParallel as DDP # 导入DDP模块from torch.utils.data import DataLoader, Dataset # 导入数据加载器和数据集# 确保NPU设备可用，且系统配置支持分布式训练（例如，多卡环境）if not torch_npu.npu.is_available(): # 检查NPU设备是否可用 print(\"NPU设备不可用，跳过分布式训练示例。\") # 如果不可用，则跳过示例else: # 如果NPU可用 # 为了简化，这里假设只有一个NPU设备，但在真实多卡场景下，会启动多个进程，每个进程绑定到一个NPU # 模拟分布式环境参数，这些参数通常由外部启动脚本（如torch.distributed.launch或deepspeed）传入 # 例如：python -m torch.distributed.launch --nproc_per_node=N train_script.py # 如果是单进程模拟，则设置rank=0, world_size=1 # 对于真实的分布式训练，这些环境变量会在每个进程启动时由启动器自动设置 # export MASTER_ADDR=\'localhost\' # export MASTER_PORT=\'29500\' # export RANK=\'0\' # export WORLD_SIZE=\'1\' # 获取环境变量或设置默认值 rank = int(os.environ.get(\'RANK\', \'0\')) # 获取当前进程的秩，默认为0 world_size = int(os.environ.get(\'WORLD_SIZE\', \'1\')) # 获取总进程数，默认为1 master_addr = os.environ.get(\'MASTER_ADDR\', \'localhost\') # 获取主节点IP地址 master_port = os.environ.get(\'MASTER_PORT\', \'29500\') # 获取主节点端口 # 1. 初始化分布式环境 # dist.init_process_group(backend, init_method, rank, world_size) # backend: \'hccl\' for NPU # init_method: 用于初始化进程组的方式，可以是\'env://\'（从环境变量读取）或\'tcp://IP:PORT\' try: # 尝试初始化进程组 print(f\"Rank { rank}/{ world_size}: 正在初始化分布式环境...\") # 打印初始化信息 dist.init_process_group( backend=\'hccl\', # 指定后端为HCCL，这是NPU的集体通信库 init_method=f\'tcp://{ master_addr}:{ master_port}\', # 指定初始化方法为TCP，连接到主节点 rank=rank, # 当前进程的秩 world_size=world_size # 总进程数 ) print(f\"Rank { rank}/{ world_size}: 分布式环境初始化成功。\") # 打印成功信息 except Exception as e: # 捕获初始化过程中的异常 print(f\"Rank { rank}/{ world_size}: 分布式环境初始化失败: { e}\") # 打印失败信息 exit() # 退出程序 # 2. 设置当前进程使用的NPU设备 # 在DDP中，每个进程通常绑定到一个独立的NPU设备 # LOCAL_RANK是当前节点上的进程索引，通常由启动脚本设置 local_rank = int(os.environ.get(\'LOCAL_RANK\', \'0\')) # 获取当前节点上的局部秩，默认为0 # 设置当前进程要使用的NPU设备 torch_npu.npu.set_device(local_rank) # 将当前进程的默认NPU设备设置为local_rank对应的NPU device = torch.device(f\"npu:{ local_rank}\") # 创建一个PyTorch设备对象 print(f\"Rank { rank}/{ world_size} (Local Rank { local_rank}): 正在使用设备 { device}\") # 打印设备信息 # 3. 定义一个简单的模型 class SimpleNet(nn.Module): def __init__(self): # 构造函数 super(SimpleNet, self).__init__() # 调用父类构造函数 self.fc1 = nn.Linear(10, 20) # 定义第一个全连接层 self.relu = nn.ReLU() # 定义ReLU激活函数 self.fc2 = nn.Linear(20, 2) # 定义第二个全连接层，输出2个类别 def forward(self, x): # 前向传播函数 x = self.fc1(x) # 数据通过第一个全连接层 x = self.relu(x) # 数据通过ReLU激活函数 x = self.fc2(x) # 数据通过第二个全连接层 return x # 返回输出 # 4. 将模型移动到NPU并包装为DDP模型 model = SimpleNet().to(device) # 创建模型实例并将其移动到当前进程的NPU设备 # DDP包装模型，使其能够进行分布式梯度同步 # device_ids=[local_rank] 指定了模型所在的设备 # output_device=local_rank 指定了模型输出所在的设备 ddp_model = DDP(model, device_ids=[local_rank], output_device=local_rank) # 使用DDP包装模型 # 5. 定义优化器和损失函数 optimizer = optim.SGD(ddp_model.parameters(), lr=0.01) # 使用SGD优化器，作用于DDP模型的参数 criterion = nn.CrossEntropyLoss() # 使用交叉熵损失函数 # 6. 准备模拟数据集和DataLoader # 为了简化，使用随机数据生成模拟数据集 class RandomDataset(Dataset): def __init__(self, num_samples, input_dim, num_classes): # 构造函数 self.num_samples = num_samples # 数据集样本数量 self.input_dim = input_dim # 输入特征维度 self.num_classes = num_classes # 类别数量 # 生成随机数据和标签 self.data = torch.randn(num_samples, input_dim) # 随机生成输入数据 self.labels = torch.randint(0, num_classes, (num_samples,)) # 随机生成标签 def __len__(self): # 返回数据集大小 return self.num_samples # 返回样本数量 def __getitem__(self, idx): # 根据索引获取数据 return self.data[idx], self.labels[idx] # 返回对应索引的数据和标签 dataset = RandomDataset(num_samples=1000, input_dim=10, num_classes=2) # 创建一个包含1000个样本的随机数据集 # 使用DistributedSampler，确保每个进程加载数据集的不同部分 # 这对分布式训练至关重要，避免数据重复和确保每个进程处理的数据不同 sampler = torch.utils.data.distributed.DistributedSampler(dataset, num_replicas=world_size, rank=rank) # 创建分布式采样器 # DataLoader用于批量加载数据 train_loader = DataLoader(dataset, batch_size=32, sampler=sampler, num_workers=0) # 创建数据加载器，使用分布式采样器 # 7. 训练循环 num_epochs = 5 # 训练5个epoch for epoch in range(num_epochs): # 遍历每个epoch ddp_model.train() # 设置模型为训练模式 # 每个epoch开始时，需要调用sampler.set_epoch，确保每个进程在不同epoch中获取不同的随机子集 sampler.set_epoch(epoch) # 设置采样器的当前epoch，保证每个epoch数据打乱方式不同 total_loss = 0.0 # 初始化总损失 for batch_idx, (data, target) in enumerate(train_loader): # 遍历数据加载器中的每个批次 data, target = data.to(device), target.to(device) # 将数据和标签移动到当前进程的NPU设备 optimizer.zero_grad() # 梯度清零 output = ddp_model(data) # 前向传播 loss = criterion(output, target) # 计算损失 loss.backward() # 反向传播，DDP会自动触发All-Reduce同步梯度 optimizer.step() # 更新模型参数 total_loss += loss.item() # 累加损失 if batch_idx % 50 == 0: # 每50个批次打印一次信息 print(f\"Rank { rank}/{ world_size} (Local Rank { local_rank}) - Epoch { epoch+1}, Batch { batch_idx}/{ len(train_loader)}, Loss: { loss.item():.4f}\") # 打印训练进度和损失 avg_loss = total_loss / len(train_loader) # 计算平均损失 print(f\"Rank { rank}/{ world_size} (Local Rank { local_rank}) - Epoch { epoch+1} 结束，平均损失: { avg_loss:.4f}\") # 打印epoch结束信息 # 8. 清理分布式环境 dist.destroy_process_group() # 销毁进程组，释放资源 print(f\"Rank { rank}/{ world_size}: 分布式环境已销毁。\") # 打印销毁信息

如何运行上述分布式训练代码：

上述代码是一个分布式训练的骨架。在真实的分布式环境中，您通常不会直接运行这个Python文件，而是通过一个启动脚本，例如torch.distributed.launch（PyTorch官方推荐的启动方式）或华为昇腾提供的npu_launcher.py（如果存在类似工具）来启动多个进程。

例如，使用torch.distributed.launch在单机上启动2个NPU进程：

假设您的Python文件名为train_npu_ddp.py。
在命令行中执行：

python -m torch.distributed.launch --nproc_per_node=2 train_npu_ddp.py

--nproc_per_node=2: 表示在当前节点上启动2个进程。每个进程会绑定到一个不同的NPU设备（通常是npu:0和npu:1）。
torch.distributed.launch会自动设置必要的环境变量，例如RANK、WORLD_SIZE、MASTER_ADDR、MASTER_PORT和LOCAL_RANK，供每个进程读取并用于dist.init_process_group和torch_npu.npu.set_device。

分布式训练的关键点和优化：

数据并行与模型并行：
- 数据并行（Data Parallelism）：DDP是数据并行的主要实现。每个NPU卡上都有一个完整的模型副本，数据批次被切分到不同的卡上。这是最常用也最容易实现的分布式训练方式。
- 模型并行（Model Parallelism）：当模型太大以至于无法放入单个NPU的显存时，需要将模型本身拆分到多个NPU上。这通常比数据并行复杂得多，需要手动管理子模块在不同设备上的放置和数据传输。torch_npu底层支持张量在NPU之间的数据移动，为模型并行提供了基础。
集体通信效率：HCCL是NPU上分布式训练性能的关键。它的优化程度直接影响梯度同步的速度。torch_npu会确保DDP内部调用的是HCCL的高效实现。
异步梯度同步：DDP在默认情况下会同步等待所有梯度的All-Reduce操作完成，这可能导致等待时间。PyTorch和torch_npu支持通过no_sync()上下文管理器或更高级的梯度累积策略来控制梯度的同步频率，以减少通信开销。
显存优化：
- 梯度累积：通过累积多个小批次的梯度再进行一次参数更新，可以有效减少梯度同步的频率，从而减少通信开销，并可以用较小的物理批次大小模拟更大的逻辑批次大小。
- 混合精度训练：在分布式训练中结合混合精度（FP16）能够显著减少通信量（因为数据量减半）和显存占用，从而允许更大的批次大小或模型。
NCCL/HCCL Timeout：在复杂的网络环境中，分布式通信可能会因为网络延迟或故障而超时。dist.init_process_group和其他通信操作通常有超时参数可以设置。
状态保存与加载：在分布式训练中保存和加载模型检查点时，需要特别注意。通常，只在rank 0进程上保存模型的state_dict，并且加载时也要确保所有进程都能正确加载。DDP模型的state_dict结构可能与原始模型略有不同，因此在保存和加载时通常会解包DDP模型（例如model.module.state_dict()）。

12. torch_npu的性能分析与调优：洞察瓶颈，释放潜力

即使有了优化的硬件和软件库，深度学习训练的性能也常常受到各种瓶颈的限制。对torch_npu环境下的模型进行性能分析和调优，是实现高效训练和推理不可或缺的一步。

常见的性能瓶颈来源：

数据加载瓶颈（Data Bottleneck）：如果数据预处理或从磁盘读取数据的速度跟不上NPU的计算速度，NPU就会长时间处于空闲状态。
计算瓶颈（Compute Bottleneck）：模型中的某些算子计算量巨大，或者NPU上的算子实现效率不高。
内存带宽瓶颈（Memory Bandwidth Bottleneck）：NPU计算单元的吞吐量很高，但如果数据从内存读取或写入的速度跟不上，也会导致性能下降。
通信瓶颈（Communication Bottleneck）：在分布式训练中，不同NPU或不同节点之间的数据同步（如梯度All-Reduce）耗时过长。
Python解释器开销：在Eager模式下，Python代码的执行和调度会引入一定的开销。

torch_npu和CANN提供了一系列工具和方法来帮助我们识别和解决这些瓶颈。

12.1. 关键性能指标监控

在训练过程中，持续监控NPU的利用率、内存使用、功耗等指标至关重要。

torch-smi (或类似NPU监控工具)：类似于NVIDIA的nvidia-smi，华为昇腾提供了类似的命令行工具来实时监控NPU设备的运行状态，包括：
- NPU利用率（Utilization）：NPU计算单元的活跃程度。理想情况下，应接近100%。
- 显存使用量（Memory Usage）：NPU显存的分配和使用情况。
- 功耗（Power Consumption）：NPU的实时功耗。
- 温度（Temperature）：NPU的工作温度。
- PCIE带宽：数据通过PCIe总线传输的速率。

通过观察这些指标，可以初步判断是否存在NPU空闲、显存溢出等问题。如果NPU利用率长期低下，说明存在计算瓶颈或数据瓶颈。

12.2. PyTorch Profiler (结合NPU后端)

PyTorch自带的Profiler是一个强大的工具，可以详细记录模型在CPU和NPU上每个操作的执行时间、内存使用、内核启动等信息。torch_npu已经将PyTorch Profiler扩展，使其能够捕获NPU上的具体活动。

import torch # 导入PyTorch库import torch.nn as nn # 导入神经网络模块import torch_npu # 导入torch_npu库from torch.profiler import profile, schedule, tensorboard_trace_handler # 导入PyTorch Profiler模块if not torch_npu.npu.is_available(): # 检查NPU设备是否可用 print(\"NPU设备不可用，跳过Profiler示例。\") # 如果不可用，则跳过示例else: # 如果NPU可用 print(\"\\n--- NPU Profiler 性能分析示例 ---\") # 打印分隔符 # 1. 定义一个简单的模型 class SimpleNet(nn.Module): def __init__(self): # 构造函数 super(SimpleNet, self).__init__() # 调用父类构造函数 self.conv = nn.Conv2d(3, 64, kernel_size=3, padding=1) # 定义卷积层 self.relu = nn.ReLU() # 定义ReLU激活函数 self.pool = nn.MaxPool2d(kernel_size=2) # 定义最大池化层 self.fc = nn.Linear(64 * 16 * 16, 10) # 定义全连接层（假设输入是32x32，经过池化后是16x16） def forward(self, x): # 前向传播函数 x = self.conv(x) # 卷积 x = self.relu(x) # 激活 x = self.pool(x) # 池化 x = x.view(x.size(0), -1) # 展平 x = self.fc(x) # 全连接 return x # 返回输出 # 2. 实例化模型并移动到NPU current_device = torch_npu.npu.current_device() # 获取当前NPU设备索引 device = torch.device(f\'npu:{ current_device}\') # 创建PyTorch设备对象 model = SimpleNet().to(device) # 创建模型实例并移动到NPU # 3. 准备示例输入数据 # 批次大小4，通道3，图片大小32x32 inputs = torch.randn(4, 3, 32, 32, device=device) # 在NPU上创建随机输入张量 # 4. 使用PyTorch Profiler进行性能分析 # warm_up_steps: 预热步数，让NPU进入稳定工作状态 # active_steps: 真正记录trace的步数 # wait_steps: 在warm_up和active之间等待的步数，用于清空缓存或等待硬件稳定 # with profile(...)上下文管理器用于启动和停止Profiler # schedule=torch.profiler.schedule(wait=1, warmup=1, active=3) 定义Profiler的调度策略 # on_trace_ready=tensorboard_trace_handler(\"./log/npu_profiler\") 指定trace数据输出目录和处理器 # record_shapes=True 记录张量的形状信息 # profile_memory=True 记录内存使用情况 # with_stack=True 记录调用栈信息，方便定位代码 # with_npu=True (或 with_cuda=True) 启用NPU设备端的事件记录 print(\"开始进行NPU Profiler性能分析...\") # 打印提示信息 # 注意: torch_npu通常会重载torch.profiler的CUDA相关功能，使其适用于NPU # 因此，即使API是with_cuda，在NPU环境下也会记录NPU事件 with profile( schedule=schedule(wait=1, warmup=1, active=3), # 调度策略：等待1步，预热1步，记录3步 on_trace_ready=tensorboard_trace_handler(\"./log/npu_profiler\"), # 将分析结果保存到./log/npu_profiler目录，以便TensorBoard查看 record_shapes=True, # 记录张量形状 profile_memory=True, # 记录内存使用 with_stack=True, # 记录调用栈 with_npu=True # 启用NPU事件记录，这会在NPU上捕获算子执行时间和内存事件 ) as prof: # 将Profiler对象赋值给prof for step in range(5): # 模拟训练循环的5步 optimizer = optim.SGD(model.parameters(), lr=0.001) # 模拟创建优化器（通常在循环外创建） optimizer.zero_grad() # 梯度清零 outputs = model(inputs) # 前向传播 loss = outputs.mean() # 模拟损失 loss.backward() # 反向传播 optimizer.step() # 参数更新 prof.step() # 通知profiler当前步完成，进入下一调度阶段 print(\"NPU Profiler分析完成，结果已保存到 ./log/npu_profiler 目录。\") # 打印完成信息 print(\"您可以使用以下命令启动TensorBoard查看分析结果:\") # 打印TensorBoard启动命令 print(\"tensorboard --logdir ./log\") # 打印TensorBoard启动命令 # 5. 可视化分析结果 (使用TensorBoard) # 运行 `tensorboard --logdir ./log` 命令，在浏览器中打开TensorBoard界面 # 在TensorBoard的Profiles标签页下，可以查看详细的Kineto Trace、Operator Breakdown、Memory Breakdown等信息。 # - Kineto Trace: 提供时间线视图，显示每个NPU内核、DMI操作、CPU操作的精确时间戳和持续时间，可以直观地发现操作之间的等待、串行化等问题。 # - Operator Breakdown: 统计每个算子的总执行时间、调用次数等，找出耗时最多的算子。 # - Memory Breakdown: 分析内存分配和释放情况，定位内存泄漏或高内存峰值。 print(\"\\n--- TensorBoard使用提示 ---\") # 打印提示信息 print(\"在TensorBoard界面中，主要关注以下几个方面：\") # 打印提示信息 print(\"1. **GPU/NPU Compute Utilization**: 查看NPU的整体利用率。\") # 提示关注NPU利用率 print(\"2. **Overview/Trace View**: 定位耗时长的算子，观察是否存在计算和数据传输的重叠不足。\") # 提示关注耗时算子和重叠不足 print(\"3. **Operator List**: 识别哪些算子是性能瓶颈。\") # 提示关注性能瓶颈算子 print(\"4. **Memory View**: 检查是否存在内存分配/释放频繁，或者内存峰值过高的问题。\") # 提示关注内存问题 # 也可以直接打印Profiler的结果摘要 # print(\"\\n--- Profiler 结果摘要 ---\") # print(prof.key_averages().table(sort_by=\"npu_time_total\", row_limit=10)) # 打印NPU总时间排名前10的算子 # print(prof.key_averages().table(sort_by=\"cpu_time_total\", row_limit=10)) # 打印CPU总时间排名前10的算子

Profiler分析的解读和调优方向：

数据加载优化：
- 如果在Profiler的时间线中发现NPU长时间等待，而CPU端DataLoader相关的操作（如dataloader iterator或__getitem__）耗时较长，说明存在数据加载瓶颈。
- 调优策略：
  - 增加DataLoader的num_workers参数（但要注意CPU核心数和内存限制）。
  - 使用pin_memory=True将数据预先固定到CPU内存，加速到NPU的传输。
  - 优化数据预处理逻辑，减少CPU端的计算量。
  - 使用CANN提供的DataSet API或预加载/缓存机制。
计算优化：
- 在Operator Breakdown中发现某个NPU算子耗时过长。
- 调优策略：
  - 混合精度训练：如前所述，转换为FP16通常能显著加速。
  - 算子融合：通过JIT Tracing或TorchScript编译，让CANN图引擎自动进行算子融合。
  - 自定义算子：对于特别的瓶颈算子，考虑开发NPU原生的高性能自定义算子。
  - 批量大小调整：过小或过大的批次大小都可能影响NPU利用率。找到最佳批次大小。
内存优化：
- Profiler显示内存分配频繁，或者内存峰值过高导致OOM（Out Of Memory）。
- 调优策略：
  - 释放不必要的张量：及时删除不再使用的中间张量。
  - 梯度累积：减少实际批次大小，从而降低单步的显存占用，但模拟大批次行为。
  - 模型剪枝/量化：减少模型参数量或精度，降低模型对显存的需求。
  - 检查共享张量：避免不必要的张量复制，合理利用share_memory_()。
通信优化（分布式训练）：
- 在DDP训练中，Profiler显示AllReduce等集体通信操作耗时过长。
- 调优策略：
  - 减小模型大小/梯度数据量：使用更小的模型，或通过梯度压缩技术减少通信量。
  - 梯度累积：减少梯度同步频率。
  - 优化网络环境：确保NPU之间的网络带宽和延迟满足要求。
  - 异步通信：高级场景下，利用dist.reduce等API进行非阻塞通信。

12.3. CANN性能工具

除了PyTorch Profiler，华为昇腾CANN本身也提供了一系列更底层的性能分析工具，例如：

Profiler (Ascend Toolkit)：CANN提供的原生Profiler，能够提供更细粒度的NPU硬件层面的性能数据，包括AI Core指令执行、DMA传输、内存访问等。这些工具通常通过命令行或特定GUI界面使用。
Log分析：CANN运行时会产生详细的日志，通过分析这些日志可以获取底层错误、警告以及性能相关的信息。

这些工具通常需要更深入的NPU开发知识才能有效利用，但它们在解决复杂性能问题时不可或缺。

13. torch_npu与生态系统工具的结合：构建完整AI解决方案

torch_npu不仅仅是一个PyTorch后端库，它是华为昇腾AI计算生态系统中的一环。要充分利用NPU的能力，通常需要将其与整个CANN软件栈以及更广泛的AI开发工具相结合。

13.1. 模型转换与部署（ONNX / MindIR）

在训练完成后，模型通常需要部署到推理环境中。尽管torch_npu可以在NPU上直接运行PyTorch模型，但为了获得最佳推理性能和跨平台兼容性，模型通常会被转换为中间表示（Intermediate Representation, IR）。

ONNX (Open Neural Network Exchange)：一种开放格式，用于表示深度学习模型。ONNX模型可以在不同的深度学习框架之间互操作。PyTorch支持将模型导出为ONNX格式。
- NPU部署流程：PyTorch模型 -> ONNX -> ONNX Runtime (支持NPU后端) 或 ATC (Ascend Tensor Compiler)。
MindIR (MindSpore Intermediate Representation)：华为自研的统一IR，由MindSpore框架使用，但CANN也支持将其编译为NPU可执行文件。
- ATC (Ascend Tensor Compiler)：CANN提供的模型转换工具。它可以将ONNX模型、Caffe模型、TensorFlow模型等转换为昇腾AI处理器上可高效执行的.om（Offline Model）文件。.om文件是经过CANN深度优化和编译的二进制文件，包含模型图、权重和执行策略。

import torch # 导入PyTorch库import torch.nn as nn # 导入神经网络模块import torch_npu # 导入torch_npu库if not torch_npu.npu.is_available(): # 检查NPU设备是否可用 print(\"NPU设备不可用，跳过模型导出示例。\") # 如果不可用，则跳过示例else: # 如果NPU可用 print(\"\\n--- NPU 模型导出到ONNX示例 ---\") # 打印分隔符 # 1. 定义一个简单的模型 class SimpleModelForExport(nn.Module): def __init__

【Python】torch_npu_torch-npu

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签

【Python】torch_npu_torch-npu

相关问题

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签