> 技术文档 > 计算机毕业设计PyHive+PySpark+大模型B站弹幕评论情感分析 视频情感分析 视频推荐系统(源码+文档+PPT+讲解)

计算机毕业设计PyHive+PySpark+大模型B站弹幕评论情感分析 视频情感分析 视频推荐系统(源码+文档+PPT+讲解)


温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片!

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片!

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片!

信息安全/网络安全 大模型、大数据、深度学习领域中科院硕士在读,所有源码均一手开发!

感兴趣的可以先收藏起来,还有大家在毕设选题,项目以及论文编写等相关问题都可以给我留言咨询,希望帮助更多的人

介绍资料

以下是一份关于《PyHive+PySpark+大模型B站弹幕评论情感分析及视频推荐系统》的任务书模板,涵盖任务目标、分解、技术要求、交付成果及验收标准等内容:


任务书

项目名称:PyHive+PySpark+大模型B站弹幕评论情感分析及视频推荐系统
项目周期:2023年10月—2024年12月
负责人:XXX
参与人员:XXX(数据采集)、XXX(模型开发)、XXX(系统测试)

一、任务目标

  1. 核心目标
    • 构建基于PyHive+PySpark的分布式弹幕数据处理管道,实现百万级弹幕的实时清洗与存储;
    • 开发轻量化大模型(如LLaMA-7B微调版)进行弹幕情感分类(积极/消极/中性),准确率≥85%;
    • 设计情感时空分布模型,生成视频情感曲线并预测波动趋势;
    • 实现融合情感数据的混合推荐系统,提升视频点击率(CTR)10%以上。
  2. 应用场景
    • 为B站创作者提供实时情感监控工具;
    • 辅助平台优化视频推荐策略,降低用户流失率。

二、任务分解与进度安排

阶段1:需求分析与数据准备(2023.10—2023.12)

  • 任务1.1:调研B站弹幕数据格式与开放API,设计系统架构图
    • 交付物:需求规格说明书、数据字典、系统架构图(Visio/Draw.io)
  • 任务1.2:开发弹幕爬虫模块,采集10万+视频弹幕数据
    • 技术要求
      • 使用Scrapy框架实现增量抓取;
      • 存储至Hive数据仓库(HDFS文件格式:ORC)。
    • 交付物:爬虫代码库、Hive表结构定义(DDL脚本)、数据样本(10GB)

阶段2:分布式数据处理与情感分析(2024.01—2024.06)

  • 任务2.1:基于PySpark构建弹幕预处理管道
    • 技术要求
      • 数据清洗:去除重复弹幕、过滤HTML标签;
      • 分词:集成Jieba+自定义弹幕词典(包含“awsl”“泪目”等网络词);
      • 特征提取:TF-IDF向量化(Spark MLlib实现)。
    • 交付物:PySpark处理脚本、预处理后数据(Parquet格式)
  • 任务2.2:大模型情感分析模块开发
    • 技术要求
      • 微调LLaMA-7B:使用LoRA技术降低显存占用,训练集为50万条标注弹幕;
      • 模型量化:通过GPTQ将模型压缩至4-bit,推理速度提升3倍;
      • 集成PySpark:使用Pandas UDF实现批量预测。
    • 交付物:微调后模型权重(.bin文件)、情感分析API接口文档
  • 任务2.3:情感时空分布建模
    • 技术要求
      • 按时间窗口(10秒)聚合情感标签,生成视频情感曲线;
      • 使用Prophet模型预测未来5分钟情感趋势。
    • 交付物:情感分析可视化报告(Jupyter Notebook)、预测模型代码

阶段3:视频推荐系统开发(2024.07—2024.09)

  • 任务3.1:混合推荐算法设计
    • 技术要求
      • 协同过滤:基于Spark ALS实现用户-视频隐语义建模;
      • 内容推荐:提取视频ASR文本的BERT嵌入向量(PyTorch实现);
      • 情感加权:消极弹幕占比>30%时降低推荐优先级(权重系数α=0.7)。
    • 交付物:推荐算法伪代码、权重计算逻辑说明
  • 任务3.2:Web平台开发与测试
    • 技术要求
      • 前端:ECharts实现情感曲线动态展示;
      • 后端:Flask框架调用PySpark任务;
      • 压力测试:使用Locust模拟1000QPS并发请求。
    • 交付物:Web平台部署包、测试报告(含响应时间、吞吐量指标)

阶段4:系统优化与验收(2024.10—2024.12)

  • 任务4.1:性能优化
    • 技术要求
      • 模型剪枝:移除LLaMA中注意力权重<0.1的神经元;
      • 数据缓存:使用Redis存储高频访问视频的情感特征。
  • 任务4.2:验收测试
    • 验收标准
      • 情感分析准确率≥85%(对比人工标注1000条数据);
      • 推荐系统CTR提升≥10%(A/B测试,对照组为传统协同过滤);
      • 系统支持日均处理弹幕量≥5000万条。
    • 交付物:验收测试报告、用户手册、系统部署文档

三、技术要求与规范

  1. 代码规范
    • Python代码需符合PEP 8标准,关键模块添加类型注解(Type Hints);
    • PySpark作业需通过spark-submit提交,配置参数(如executor.memory)记录在config.yaml
  2. 数据安全
    • 用户ID、弹幕内容等敏感数据需脱敏后存储;
    • 爬虫遵守B站Robots协议,设置抓取间隔(≥3秒)。
  3. 模型版本管理
    • 使用MLflow跟踪模型训练过程(超参数、评估指标);
    • 微调后模型需保存为ONNX格式,兼容不同推理框架。

四、交付成果清单

序号 成果名称 格式 验收方式 1 弹幕数据采集与存储方案 PDF+代码 演示爬虫运行与Hive查询 2 情感分析模型权重文件 .bin 在测试集上验证准确率 3 视频推荐系统Web平台 Docker镜像 压力测试通过(1000QPS) 4 项目总结报告 PPT+PDF 答辩评审

五、风险评估与应对措施

风险类型 描述 应对方案 数据获取受限 B站API调整导致爬虫失效 提前备份数据,开发多源采集通道 模型推理延迟 大模型在CPU上推理速度慢 使用ONNX Runtime加速,部署GPU节点 推荐效果不达标 情感权重因子设计不合理 通过网格搜索(Grid Search)调参

任务书特点

  1. 可执行性强:明确每个阶段的技术细节(如PySpark UDF、LoRA微调)和交付物格式;
  2. 量化验收:提出准确率、CTR提升等具体指标,避免主观评价;
  3. 风险可控:针对数据、模型、算法等关键环节制定预案。

可根据实际资源调整任务分工(如将模型开发与系统测试人员合并)或增加伦理审查环节(如用户隐私保护声明)。

运行截图

推荐项目

上万套Java、Python、大数据、机器学习、深度学习等高级选题(源码+lw+部署文档+讲解等)

项目案例

优势

1-项目均为博主学习开发自研,适合新手入门和学习使用

2-所有源码均一手开发,不是模版!不容易跟班里人重复!

🍅✌感兴趣的可以先收藏起来,点赞关注不迷路,想学习更多项目可以查看主页,大家在毕设选题,项目代码以及论文编写等相关问题都可以给我留言咨询,希望可以帮助同学们顺利毕业!🍅✌

源码获取方式

🍅由于篇幅限制,获取完整文章或源码、代做项目的,拉到文章底部即可看到个人联系方式。🍅

点赞、收藏、关注,不迷路,下方查看👇🏻获取联系方式👇🏻

伪原创在线工具