一、基本名词 张量 (Tensor):张量是多维数组的概念,是深度学习中的基本数据结构。它可以是标量(0维)、向量(1维)、矩阵(2维)或者更高维的数据结构...
Masked Loss 的核心原理是:在计算损失函数时,只考虑真实有意义的词元(token),而忽略掉为了数据对齐而填充的无意义的填充词元(padding token)。 这是...
首先情况是开始训练正常,网络也在更新,更新后网络就输出了NaN。调试过程: 1. 查看模型权重更新前后的值 print(\"更新前权重信息:\") print(f\" 权重均...