计算机毕业设计PyHive+PySpark+大模型B站弹幕评论情感分析视频情感分析视频推荐系统(源码+文档+PPT+讲解)

技术文档

温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！

温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！

温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！

信息安全/网络安全大模型、大数据、深度学习领域中科院硕士在读，所有源码均一手开发！

感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人

介绍资料

以下是一份关于《PyHive+PySpark+大模型B站弹幕评论情感分析及视频推荐系统》的任务书模板，涵盖任务目标、分解、技术要求、交付成果及验收标准等内容：

项目名称：PyHive+PySpark+大模型B站弹幕评论情感分析及视频推荐系统
项目周期：2023年10月—2024年12月
负责人：XXX
参与人员：XXX（数据采集）、XXX（模型开发）、XXX（系统测试）

核心目标：
- 构建基于PyHive+PySpark的分布式弹幕数据处理管道，实现百万级弹幕的实时清洗与存储；
- 开发轻量化大模型（如LLaMA-7B微调版）进行弹幕情感分类（积极/消极/中性），准确率≥85%；
- 设计情感时空分布模型，生成视频情感曲线并预测波动趋势；
- 实现融合情感数据的混合推荐系统，提升视频点击率（CTR）10%以上。
应用场景：
- 为B站创作者提供实时情感监控工具；
- 辅助平台优化视频推荐策略，降低用户流失率。

任务1.1：调研B站弹幕数据格式与开放API，设计系统架构图
- 交付物：需求规格说明书、数据字典、系统架构图（Visio/Draw.io）
任务1.2：开发弹幕爬虫模块，采集10万+视频弹幕数据
- 技术要求：
  - 使用Scrapy框架实现增量抓取；
  - 存储至Hive数据仓库（HDFS文件格式：ORC）。
- 交付物：爬虫代码库、Hive表结构定义（DDL脚本）、数据样本（10GB）

任务2.1：基于PySpark构建弹幕预处理管道
- 技术要求：
  - 数据清洗：去除重复弹幕、过滤HTML标签；
  - 分词：集成Jieba+自定义弹幕词典（包含“awsl”“泪目”等网络词）；
  - 特征提取：TF-IDF向量化（Spark MLlib实现）。
- 交付物：PySpark处理脚本、预处理后数据（Parquet格式）
任务2.2：大模型情感分析模块开发
- 技术要求：
  - 微调LLaMA-7B：使用LoRA技术降低显存占用，训练集为50万条标注弹幕；
  - 模型量化：通过GPTQ将模型压缩至4-bit，推理速度提升3倍；
  - 集成PySpark：使用Pandas UDF实现批量预测。
- 交付物：微调后模型权重（.bin文件）、情感分析API接口文档
任务2.3：情感时空分布建模
- 技术要求：
  - 按时间窗口（10秒）聚合情感标签，生成视频情感曲线；
  - 使用Prophet模型预测未来5分钟情感趋势。
- 交付物：情感分析可视化报告（Jupyter Notebook）、预测模型代码

任务3.1：混合推荐算法设计
- 技术要求：
  - 协同过滤：基于Spark ALS实现用户-视频隐语义建模；
  - 内容推荐：提取视频ASR文本的BERT嵌入向量（PyTorch实现）；
  - 情感加权：消极弹幕占比>30%时降低推荐优先级（权重系数α=0.7）。
- 交付物：推荐算法伪代码、权重计算逻辑说明
任务3.2：Web平台开发与测试
- 技术要求：
  - 前端：ECharts实现情感曲线动态展示；
  - 后端：Flask框架调用PySpark任务；
  - 压力测试：使用Locust模拟1000QPS并发请求。
- 交付物：Web平台部署包、测试报告（含响应时间、吞吐量指标）

任务4.1：性能优化
- 技术要求：
  - 模型剪枝：移除LLaMA中注意力权重<0.1的神经元；
  - 数据缓存：使用Redis存储高频访问视频的情感特征。
任务4.2：验收测试
- 验收标准：
  - 情感分析准确率≥85%（对比人工标注1000条数据）；
  - 推荐系统CTR提升≥10%（A/B测试，对照组为传统协同过滤）；
  - 系统支持日均处理弹幕量≥5000万条。
- 交付物：验收测试报告、用户手册、系统部署文档

代码规范：
- Python代码需符合PEP 8标准，关键模块添加类型注解（Type Hints）；
- PySpark作业需通过spark-submit提交，配置参数（如executor.memory）记录在config.yaml。
数据安全：
- 用户ID、弹幕内容等敏感数据需脱敏后存储；
- 爬虫遵守B站Robots协议，设置抓取间隔（≥3秒）。
模型版本管理：
- 使用MLflow跟踪模型训练过程（超参数、评估指标）；
- 微调后模型需保存为ONNX格式，兼容不同推理框架。