大模型算法工程师面试题，看这一篇就够了！

技术文档

NLP 经典面试题：RLHF 训练过程是怎么样的？DPO 如何解决RLHF存在问题？
在PyTorch框架中model.train() 和 model.eval()的作用是什么？
大模型经典面试题————如何解决大模型推理过程中的延迟问题？
NLP 经典面试题————Transformer中前馈层（FFN）的作用是什么？
LLMs经典面试题————为什么KV Cache没有Q-Cache？
面试官问：深度网络中loss除以10和学习率除以10等价吗
大模型面试题——大模型部署框架对比
学妹问：硕士校招生进入大模型领域工作，选预训练还是SFT？
阿里面试官：Transformers 中的 Softmax 可以并行加速么？
阿里面试官问：Self-Attention 的时间复杂度/空间复杂度是怎么计算的?
大模型算法工程师经典面试题————如何让 LLM 基于问题和 context 生成高质量的回答？
大模型算法面试题————大模型幻觉是什么，如何才能缓解这个问题？
大模型算法面试题————为什么 transformer 是 LayerNorm？
大模型算法面试题—为什么现在的主流大模型都是 decoder-only 架构？
大模型算法工程师经典面试题————Attention为什么要除以根号d？”
大模型算法工程师经典面试题————KV Cache 原理是什么？
大模型算法工程师经典面试题————Transformers 中的 Softmax 可以并行加速么？
大模型算法工程师经典面试题————Transformers 中 FFN 的作用？
大模型算法工程师经典面试题————Transformers 中的 Position Embedding 的作用？
大模型算法工程师经典面试题————如何根据模型参数量估计需要的显存？
大模型算法工程师经典面试题————为什么 Bert 的三个 Embedding 可以进行相加？
【面试题】华为-交叉熵 (cross entropy) ，KL 散度的值，到底有什么含义？
大模型面试：“分布式训练常用的通信后端都有什么？应该怎么选？”
大模型算法面试题—Prompt tuning、PET、Prefix tuning、P-tuning的原理区别与代码解析一
大模型算法面试题—Prompt tuning、PET、Prefix tuning、P-tuning的原理区别与代码解析二
大模型算法面试题————为什么LLM推理加速有KV Cache而没有Q Cache？
大模型算法面试题————LoRA 面试题汇总
大模型算法面试题————如何提升llama3训练数据质量？

-前排提示，文末有AI大模型CSDN独家资料包哦！

【面试题】阿里-Beam Search 的缺点？
大模型算法面试题————大模型幻觉是什么，如何才能缓解这个问题？
【面试题解答】解释 PPO, DPO and KTO?!
【面试题解答】问了Transformer内存优化!
【面试题解答】大模型预训练数据如何预处理？
【讨论】2024年，diffusion还有什么可做的?
【面试题解答】大模型中的响应延迟怎么解决？
如何确保检索到的数据是高质量的?[RAG相关]
RAG有哪些流程，流程里各有什么优化手段?[RAG相关]
PPT自动生成思路，有没有开源的好项目[AIPPT]
如何计算大模型推理服务的每秒请求数（QPS）？[大模型推理性能测试]
首Token延时（TTFT）与平均输入Token数量之间存在怎样的关系？[大模型推理性能测试]
首Token延时（TTFT）与平均输入Token数量之间存在怎样的关系？[大模型推理性能测试]
在实际聊天应用中，如何估算并发用户数（VU）？[大模型推理性能测试]
介绍一下 ReAct？[agent]
解释一下 Agent Reflection 模型？[agent]
如何针对比较长的文本表格进行检索?[RAG相关]
如何优化检索过程，以减少延迟和提高效率？【答案】
如何处理数据中的偏差和不一致性？【答案】
如何提高模型的泛化能力？【答案】
简答题：文章中提到了多种GPU间通信的方式，包括PCIe总线、NVLink和InfiniBand网卡。请简述这三种通信方式各自的特点以及它们通常被用于哪些场景。【答案】
填空题：在文章中，提到了Deepspeed使用的Zero优化技术可以进一步压缩训练时显存的大小，以支持更大规模的模型训练。Zero优化技术主要通过________、________和________来减少显存占用。
介绍一下 DPO 损失函数？
大模型 DPO 存在致命缺陷？
大模型训练，什么时候需要预训练？什么时候需要sft？什么时候需要 dpo?
介绍一下 Attention？
传统 Attention 存在哪些问题？
Attention 优化方向有哪些？
介绍一下 Multi-head Attention、Grouped-query Attention、FlashAttention？
有哪一些谣言检测方法推荐？
大模型输出的时候带出相关文档这个功能吗？这个是后处理还是使用大模型自己总结出来的？
什么是scaling test-time, 分别有哪些方法实现？
什么是token-wise，什么是step-wise
请描述什么是RPM, 什么是best-of-N /best-of-N-weighted/beam search RPM/LookAhead Search
如何利用大模型做聚类吗？
如何利用大模型自动生成长篇报告？
embedding模型为何普遍都用encoder-only架构
为什么现在的LLM都是Decoder only的架构
深度学习中，批量归一化有什么好处？
深度学习的batchsize必须是2的n次方吗？
advanced-RAG你知道有哪些？
self-rag有哪些insight，结合工作业务场景，设计知识库问答方案？
agent和faq结合尝试过没有这两个怎么结合啊？
Agent里的Memory是什么？
为什么需要DPO算法，DPO算法直觉与SFT算法区别，如何理论的分析？
如何评价RAG项目效果的好坏？
RAG 使用外挂知识库主要为了解决什么问题？
详细说说Deepspeed的机制？
大模型的幻觉问题、复读机问题是什么？
为什么大模型中的响应延迟怎么解决？
大模型提速有哪些比较好的策略？
在PyTorch框架中model.train() 和 model.eval()的作用是什么？
大模型推理时，显存中有那几部分数据？
介绍一下 Multi-head Attention？
为什么Transformer 需要进行 Multi-head Attention？
LSTM、CNN 相对于 Self-Attention 存在什么问题？
介绍一下 Self-Attention？
为什么 Self-Attention 中需要除以 sqrt(dk)
一列数据在不知道具体有哪些类别的情况下，如何进行分类？
现在都有哪些小于1b的中文大模型？
有大模型长文本摘要生成任务，减少露召，冗余和幻觉的办法吗？或者项目推荐？
介绍下GLU激活函数和SwiGLU激活函数？
LLaMA1/2/3的异同？
介绍下LLaMa关键技术点？
ragflow和llamaindex区别？适应性？
Attention 为什么使用 Multi Head ?
提示工程中的 Zero-shot、One-shot、Multi-shot：它们到底是什么？
【面试题解答】为什么transformer的FFN需要先升维再降维?
【面试题解答】字节-“大模型的参数量为什么设计成 7B，13B，33B，65B 等如此怪异的数字？”
【面试题解答】model.eval() 会像 torch.no_grad() 那样停止中间激活的保存么？
【面试题解答】大模型上线前为什么要做推理优化？
大模型训练如何评估数据集质量
【面试题】校招-\"为什么 Qwen 设计成 72B？
现在大模型为什么都用 left padding？”
【面试题】深度学习中如何平衡多个Loss?
RWKV、Mamba 和 Mamba-2的核心原理和创新之处是什么？
介绍一下Beam Search 最坏时间复杂度是多少

前排提示，文末有AI大模型CSDN独家资料包哦！

说说我的实习面试历程

关于我：已 get 头条、阿里、美团算法实习offer。我师兄去年拿了头条、百度、美团、阿里秋招offer。

本指南适用人群：还找招实习的同学，希望Get IT大厂算法类研发Offer的大佬们。

注意：鉴于这是一篇指导如何get BAT TMD等知名大厂offer的指南，因此对读者本身期望也较高，在普通人看来可能不易做到、不那么友好，这里提前说明，请不要说我“何不食肉糜”。换句话说，这是教70分的人如何考到95分的，如果你的期望是60分万岁（找个小企业混温饱就可以了），可能它并不适合你。

为什么想要写这么一篇指南呢？说起来，我从今年春节开始准备春招简历，到如今三月中下旬，终于拿到了想要的offer，准备去实习了，给我的半年仍多的实习季画上句号。期间有过被拒到怀疑人生，也有过被突然的机会砸得喜出望外，更是见识过身边各种大佬因为各种“莫名其妙”的原因与offer失之交臂，所以今天这个结果离不开自身努力，也离不开冥冥中的幸运。写这么一篇文章还愿自己身上的幸运“buff”，同时也想让更多和我一样在为一份offer努力着的大佬们不要因为“没经验”产生的失误，而与梦想失之交臂。

1. 什么是春招（实习生招聘）？

春季招聘（简称春招）是诸多互联网领军企业面向在校学生的实习生招募活动，通常在春节假期结束后不久便启动简历接收流程，如阿里巴巴等企业在新年伊始即展开行动；而整个春招周期可能延续至五六月份，像美团等公司在这一阶段仍可能安排面试环节。春招的核心目标在于通过获取在大型互联网企业的实习岗位，从而把握住转为正式员工的机会，或者积累宝贵的实习经验以增强秋季校园招聘时的竞争力。各企业的实习转正比例依据其内部政策和具体业务部门需求差异较大，大致区间在50%至95%之间，但值得注意的是，滴滴等个别公司的情况较为特殊，实习生成功转正的比例相对较低。

参加春招的实习生通常被期望在暑假前加入并开展实习，若能提前实习自然是加分项，理想的实习期至少应维持三个月，以满足大部分企业的基本实习期限要求，而六个月以上的长期实习则更有助于提高转正成功率。对于仅有暑假两个月时间可供实习的学生来说，可能会担忧时间限制成为障碍。尽管在应聘时明言仅能实习两个月的确可能影响录用，但实际上，如果在应聘时承诺实习三个月，而在实际实习两个月后提出离职，多数情况下企业并不会严格追究未满规定期限的问题。这一点在春招过程中至关重要，它直接影响到能否抓住这次关键的职业发展机遇。

FAQ：

q1：一定要参加春招么？错过了怎么办？

除非个人能力已达到无需实习经历就能有力佐证的程度，否则积极参加春招以获得实习机会显得尤为关键。据我师兄亲身经历为例，他在参加秋招时，相较于春招简历，唯一的显著优势就在于增添了在今日头条的实习经历，而这使得他在某BAT级别企业中的简历评价从B级跃升至A级。从实际面试过程来看，拥有了名企实习经历后，我感觉顺利通过面试的难度明显降低了约20%。普遍的观念是，既然知名公司愿意提供实习机会给你，那么你的能力应当得到了一定的认可。

假设未能把握住春招机遇，或者遗憾地在春招中未能取得实习职位，倘若自我评估认为基础知识尚欠扎实、需要通过大量习题训练来提升自己，此时完全可以静心专注于刷题与准备秋招，毕竟扎实的专业功底与应对笔试面试题目的能力才是硬实力的体现。然而，若你觉得自己的笔试面试技巧已然过关，仅是欠缺一份亮眼的实习经历来完善简历，那么在投递时不应仅仅局限在大厂，不妨广泛向各类规模的企业投递简历，敞开接受各种可能性，说不定就会找到一个与自身背景匹配度高的实习岗位。

2. 如何获得最新招聘信息？

方式一：通过已经上岸的师兄师姐直接内推，该方式的成功率相比于下面其他方式会高很多；
方式二：获取招聘信息的过程相当简便易行，只需开启您的网络浏览器，在搜索栏输入您心仪的目标互联网企业的名称+“校招”，例如“阿里巴巴校招”或“腾讯校招”。接下来，访问这些企业的官方网站，即可查阅最新的校招信息；
方式三：建议您充分利用一些专门平台和社区资源，如著名的北邮人论坛（尽管需借助在校北邮同学的帮助获取账户权限）；
方式四：牛客网的求职讨论区，这些渠道往往汇集了丰富的招聘信息。
方式五：计算机科学领域内的知乎意见领袖们也时常会在平台上分享招聘信息，甚至乐意为符合条件的候选人提供内部推荐服务。

回顾我个人的经历，在春招时期获得的面试机会主要来源于师兄师姐内推、北邮人论坛、牛客网求职评论区等招聘信息后所获得的。

3. 如何准备项目？

在某个交流群组中，我和一些同伴进行过深入交谈，其中有些伙伴透露出他们来自非顶尖学府，同时也缺乏参加专业竞赛的经验，因此他们在寻找第一份实习工作时感到格外困扰。面对这种情况，我认为尤为重要的一点就是拥有一个高质量的个人项目。一个优秀的项目能够展示出你在专业领域的实践能力和创新思维，它可以弥补学历背景或是竞赛经历上的不足，让你在众多应聘者中脱颖而出。这样的项目不仅体现了你的技术实力，还能证明你具备独立解决问题和自我驱动学习的能力，这对于许多雇主而言，是非常看重的素质。所以，即使没有名校光环或丰富的竞赛经验，只要你能精心打造并展示出一个出色的项目成果，同样有可能叩开理想实习的大门。

所以回过来：如何准备一个优秀的项目呢？

首先，你准备的项目必须要和你想投递的岗位密切相关（eg：假如你想投递NLP算法实习生，但是你简历里面写得都是一些CV项目、数据挖掘、后端开发项目，那么这些项目对于你找工作来说，并不会提供多大的帮助，相反，这些项目将会阻碍你简历面的通过率），代码量要足够，一般来说几百行的代码是没太多内容的，即便是有几千行代码，也不能改变它并不复杂的这个现实，不适合写在简历上；
你需要知道这个项目技术难点是什么，或者说这个项目相比于其他人的同类项目，亮点在哪？（eg：假如你在简历里面写了一个分类项目，然后介绍你是如何标注数据的、项目模型的，但是问题来了，这个过程的亮点在哪里？）调研和跑了很多模型不叫难点、用了一堆开源库也不叫难点、debug了3天发现变量不小心拼写错了和写了一万行 if else 更不叫难点，最起码是google上搜了2页找不到很好的解决方案的一个问题，或者是完全自己编写的一个组件/模块/trick，能够让面试官听起来感觉“嗯，是有点意思”的才叫难点；
这个项目的代码要么完全放出来让人能看到，商业项目不方便放出源码的话请放出作品地址。

4. 如何编写简历？

简历要写的内容，姓名、联系方式、投递岗位、学历、个人简介（可选）、竞赛经历（可选）、实习经历（可选）、项目经历。

联系方式：手机、邮箱（推荐gmail，鉴于有些HR的奇怪口味不推荐QQ邮箱）

学历：985 211 学校计算机相关专业请把学历写到前边，明显一点；北邮以及窝工之类有cs双一流学科的cs强校计算机相关专业，能把学历写多明显就多明显，不行就黑体加粗！成绩排名前20%的请注明成绩及排名，前5%的能写多明显就写多明显！四级没必要写了，过了六级(超过425分)可以注明分数。不符合以上几条描述的，请偷偷地把你的学历模块往后放放，字写小点，但不能不写，不写一定会被打的。

个人简介：写一下熟练使用和了解的技术，还有些套话照着招聘需求写就可以了，github和博客放一下。如果学历、竞赛、实习、项目都很不错的话，可以不写个人简介，把宝贵的简历版面留给其他更引人注目的模块。

竞赛经历：省级以上cs相关竞赛。课程设计第一名或者校三好之类的就不要写了，作为技术岗，需要技术类竞赛来说明实力，面试官并不太care你评三好或者学生会主席之类的经历。

实习经历：有好过没有，大厂好过小厂。需要把实习期间做的项目也写上，写法跟项目经历类似。

项目经历：项目背景、项目需求、团队规模、你做的工作、技术栈、难点，能够分条列举最好，2-3个项目，每个描述150字以内。

简历模板：不需要很花哨，平庸的就是好的。推荐QQ邮箱中一个隐藏的简历制作功能，需要自己打开简历模块；或者像我自己的是用markdown写的，打印成pdf格式。

简历命名：名字-岗位-学校（可选）-手机.pdf

在简历准备过程中，杨夕大佬帮我修改了4-5次简历，并从简历排版到内容都做了很多次多次的修改和审阅，才让我能顺利通过简历面，获得很多大厂的面试机会。

5. 如何进行网申？

网申这一块相比于前面环节简单很多，只要去官网留意时间不要错过就行了。

不敢需要重点提醒：如果有内推机会请走内推通道，根据个人经历而言，很多面试机会都来自于内推。

6. 如何进行面试？

根据个人经验，从零开始系统性地备战笔试可能需要大约两个月的时间，但请注意，这个时间预估基于我个人的基础状况，我并未经过专门准备便直接参加了笔试。每个人的基础知识储备和学习效率各异，故请大家根据自身实际情况灵活调整备考计划。

下面按照准备的重要程度由高至低列出笔试复习的主要内容（此处所述的所有百分比均为个人主观判断，并无具体数据支持，仅供参考）：

算法与数据结构

（估计占比30%）：这是大多数技术类笔试的重点，包括但不限于排序、查找、树、图、动态规划、贪心算法、回溯法等经典算法，以及数组、链表、栈、队列、哈希表等各种数据结构的理解与应用。
编程语言基础

（估计占比20%）：熟练掌握一门或多门主流编程语言（如Python、Java、SQL、C++等）的基本语法、面向对象设计、异常处理、并发编程等基础知识。
算法八股文

（估计占比40%）：理解机器学习、深度学习、自然语言处理、大模型等相关知识，可能涉及分布式训练、推理加速等方面的问题。
智力题与逻辑推理

（估计占比5%）：部分公司笔试会包含一些智力题或逻辑推理题目，旨在考察候选人的逻辑分析能力和快速反应能力。
公司特定技术

（估计占比5%）：针对目标公司的特定技术领域进行了解和学习，比如某些公司的笔试可能涉及大数据处理、人工智能、前端开发等地方的相关知识。

请根据目标企业的笔试风格和职位需求，有针对性地制定自己的复习策略。同时，实战练习与模拟题库的演练也是提高笔试成绩的有效途径。

7. 如何进行笔试？

技术面试一般2-3场，hr面在最后一场。就我的经历而言，算法一面挂说明离公司要求差的较远；二面可能是算法深度还不够，知其然不知其所以然；三面和HR面挂可能是大boss觉得你不够“灵性”有潜力，HC(headcount)不够，面试评价一般于是在备胎池里等跟运气关系较大的因素。

面试会问的东西，基本就分四类，方向相关的技术知识，项目/实习经历（遇到最大的一个困难是？），自然语言处理（集中在Transformer、Bert），大模型（集中在LLama系列、qwen系列、RAG、Agent），算法题（有可能要手写）。

最重要的一点，准备面试一定要上网搜面试题，照着面试题清单准备，以避免遗漏知识点，很重要！在你去看别人整理的面试题前，你是不会知道你的知识树哪里有疏漏的。也很推荐自己每次面试后记录下被问的问题，整理出知识盲区和高频考点，重点准备高频考点的内容，想办法将回答答得更详细，面试过程中一个（比别人）详尽而有深度的回答也是亮点

如何学习AI大模型？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。（全套教程文末领取哈）
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。
在这里插入图片描述

大模型算法工程师面试题，看这一篇就够了！

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（全套教程文末领取哈）

在这里插入图片描述

👉4.大模型实战项目&项目源码👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战项目来学习。（全套教程文末领取哈）
在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。（全套教程文末领取哈）
在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。（全套教程文末领取哈）
在这里插入图片描述

为什么分享这些资料?

只要你是真心想学AI大模型，我这份资料就可以无偿分享给你学习，我国在这方面的相关人才比较紧缺，大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

大模型算法工程师面试题，看这一篇就够了！