【大模型面试每日一题】Day 22:若训练中发现Loss突然剧烈波动(Spike),可能有哪些原因?如何定位和修复? 📌 题目重现 🌟🌟 面试官...
1. 定义 nn.Embedding 是 PyTorch 中的 查表式嵌入层(lookup‐table),用于将离散的整数索引(如词 ID、实体 ID、离散特征类别等)映射到一个连续的、可训...
在当今竞争激烈的科技行业,大厂算法岗的面试要求日益严苛。本文聚焦 2025 年算法岗面试,通过深入剖析大厂面试必问的 10 个关键问题,全面解析最新考察趋势...
DeepSpeed 是由微软开发的开源深度学习优化框架,专为超大规模模型训练与推理设计,通过显存优化、并行策略和通信加速等核心技术,显著提升训练效率并降低资...
目录 1.什么是图像梯度 2.常见4种算子对比 3.常见4种算子的代码示例 1.什么是图像梯度 在图像处理中,图像梯度(Image Gradient) 是描述图像中像素值变...
Ai思考过程 前言:从“零件”到“流水线”——AI学习的整体感 第一章:AI学习的“五脏庙”—— 核心循环总览 1.1 核心流程图:数据 -> 模型 -> 损失 -> 反...
Canny 边缘检测算法 是 John F. Canny 于 1986年开发出来的一个多级边缘检测算法,也被很多人认为是边缘检测的 最优算法, 最优边缘检测的三个主要评价标准是...
深度学习(鱼书)day06–神经网络的学习(后两节) 一、梯度 像这样的由全部变量的偏导数汇总而成的向量称为梯度(gradient)。 梯度实现的代码: def numer...
结合逻辑回归的核心原理、数学推导与工程实践进行系统化阐述: 逻辑回归:从线性回归到分类决策的演化 为何名为“回归”却用于分类?揭秘Sigmoid函数的桥梁...
以下内容为结合李沐老师的课程和教材补充的学习笔记,以及对课后练习的一些思考,自留回顾,也供同学之人交流参考。 本节课程地址:35 分布式训练【动手学深...