> 技术文档 > 【AIGC调研系列】大模型RAG知识库创建前的知识梳理与清洗方案_知识库 数据清洗

【AIGC调研系列】大模型RAG知识库创建前的知识梳理与清洗方案_知识库 数据清洗


一、数据源选择与采集规范

确定知识领域与范围

  • 明确知识库的应用场景和核心领域(如法律、医疗、企业内部知识等),定义知识覆盖的边界。例如,法律知识库需涵盖法条、案例、司法解释等。
  • 参考行业标准或企业需求,制定数据采集的优先级和权重。例如,美康医药知识库将国家监管机构发布的法规(占比40%)与基础教材(占比30%)作为核心数据源。

筛选权威数据源

  • 结构化数据:优先选择权威出版物(如《中华人民共和国药典》)、政府报告、专业数据库(如PubMed、法律条文库)。
  • 非结构化数据:包括网页、PDF文档、内部文件等,需评估来源的可信度与更新频率。例如,企业知识库应整合项目文档、客户合同等内部数据。
  • 多模态数据:若涉及图像或表格,需确保数据标注清晰且与文本关联紧密(如科技文献中的图表与正文对应)。

建立采集规范

  • 元数据标注:记录数据来源、采集时间、格式类型(如PDF/HTML)、版权信息等,便于后续追踪和更新。
  • 隐私与合规:过滤敏感信息(如个人身份数据),确保符合GDPR等法规要求。

二、数据清洗与预处理流程

去重与噪声过滤

  • 文本去重
  • 使用哈希值(如SHA256)或N-gram(如13-gram段落)识别重复内容。
  • 针对网页数据,移除常见冗余信息(如“Skip to content”“广告链接”)。
    • 噪声过滤
  • 清除HTML标签、特殊字符、乱码等非文本内容。
  • 应用正则表达式过滤低质量段落(如无意义字符串)。
    • 安全过滤
  • 使用NSFW检测模型剔除违规图像或文本。

缺失值处理与规范化

  • 缺失值填充:对关键字段(如日期、作者)缺失的数据,采用插值预测或标注“未知”。
  • 格式统一
  • 统一日期格式(如YYYY-MM-DD)、货币单位、术语表达(如“AI”与“人工智能”标准化)。
  • 将PDF/扫描件转换为UTF-8编码的纯文本,确保段落分割合理。

文本分段与信息提取

  • 智能分段:根据语义边界(如章节标题)或固定长度(如512字符)分割长文档,提升检索效率。
  • 关键信息提取
  • 使用规则模板或模型(如BiLSTM-CRF)抽取实体(如法律条文编号)、关系(如“属于某类案件”)。
  • 构建领域术语表,确保命名一致性(如“COVID-19”与“新冠肺炎”统一)。

三、质量评估与验证

  1. 准确性验证

    • 人工抽检:专家审核关键数据(如医学指南)的准确性。
    • 交叉验证:对比多来源数据的一致性(如不同数据库中的法条内容)。
  2. 完整性评估

    • 覆盖率指标:统计核心实体(如疾病名称、法律条款)的覆盖比例。
    • 关系完整性:检查实体间逻辑关系是否完整(如“药物-适应症”对应关系无缺失)。
  3. 时效性监控

    • 记录数据更新时间戳,定期评估陈旧数据比例(如超过2年未更新的内容需标记)。

四、工具链与落地方案参考

1.自动化清洗工具

         文本清洗:使用Python的BeautifulSoup清理HTML,PyPDF2提取PDF文本,正则表达式过滤噪声。

         多模态处理:科大讯飞工具链支持图像去模糊、旋转矫正,文本-图像关联标注。

          去重工具:Bloom Filter实现高效文本去重,误报率可控制在1%以内。

2.开源与商业平台

         BetterYeah AI:提供自动分段、混合检索功能,支持法律、医疗等地方知识库快速构建。

         Protégé:用于本体建模,定义领域内实体关系与约束。

3.质量评估工具

  • 知识图谱评估框架:基于OWL的本体验证工具(如Pellet)检测逻辑一致性。
  • 自动化评分系统:结合用户反馈(如评分系统)与模型检测(如异常值分析)动态优化数据质量。

关键实施要点

  • 迭代优化:数据清洗需多次循环,结合人工审核与自动化工具逐步提升质量。
  • 领域适配:不同行业需定制清洗规则(如法律文档重视条款编号,医学文献需严格术语规范)。
  • 文档化流程:记录每一步清洗规则与决策依据,便于团队协作与问题溯源。

通过上述方案,可系统化解决知识库创建前的数据质量问题,为后续向量化与检索模块提供高质量输入。

参考资料

1. DeepSeek接入个人知识库,保姆级教程来了! [2025-02-26]

2. 知识库功能与RAG技术在大模型中的应用 [2024-07-03]

3. Building Blocks of RAG with Intel

4. 全面解析:构建RAG知识库需要哪些关键数据? [2024-12-09]

5. 人工智能技术、产业和政策态势

6. RAG AI知识库优化指南:提升数据质量与系统性能 [2024-11-20]

7. 先决条件:收集要求 - Azure Databricks [2024-10-16]

8. RAG技术路线知识库搭建流程 [2025-01-07]

9. 看英特尔® 软硬件如何助力加速RAG应用落地 [2024-07-22]

10. RAG配置与应用实现 [2024-05-04]

11. 基于本地知识库的检索增强生成式大模型应用方案 [2025-01-09]

12. 探索本地RAG知识库构建:实用指南与应用场景解析 [2024-11-20]

13. 2024年中国GenAI技术栈市场报告

14. 大模型知识管理系统

15. 怎么搭建企业知识库? [2025-01-12]

16. 如何创建高质量的本地知识库增强大模型私域任务处理能力 [2024-07-02]

17. 大模型与标准文献知识库的融合应用探索

18. Amazon Bedrock 知识库现可提供完全托管的 RAG 体验 [2024-02-03]

19. 使用英特尔技术构建 RAG 模块 [2024-06-05]

20. Making LLMs Work for Enterprise: Part 2 - RAG Fine-Tuning Dataset Creation

21. Creating a Biomedical Knowledge Base

22. Benchmarking of Retrieval Augmented Generation

23. 基于阿里云ES使用RAG搭建知识库在线问答 [2024-10-25]

24. 人工智能 | 通俗讲解AI基础概念 [2024-08-01]

25. 网络大模型——第三届国家期刊奖百种重点期刊信息通信领域产学研合作特色期刊

26. 浦语学习笔记 [2024-10-27]

27. RAG与新一代图书馆资源管理的应用案例

28. 本地构建知识库的详细步骤与技术应用 [2025-02-01]

29. AI辅助测试开发端到端研发提效

30. 知识库基础原理介绍 [2024-01-01]

31. 开放存取知识库及其数据采集规范的研究

32. 北京三维天地科技股份有限公司2024年半年度报告

33. 信息技术应用创新项目运行维护服务标准

34. 科研本体知识库数据建设研究 [2013-10-09]

35. 关于四川美康医药软件研究开发股份有限公司首次公开发行股票并在创业板上市申请文件的审核问询函的回复

36. 惠州12345政务服务便民热线管理办法政策解读 [2023-09-01]

37. 知识图谱标准化白皮书

38. 秦皇岛市进一步优化政务服务便民热线实施方案 [2021-09-16]

39. 基于知识图谱问答(KBQA)|数据集提供及获取工具开源 [2025-01-01]

40. 科技大数据知识图谱构建方法及应用研究综述

41. 分布式参考咨询服务标准与规范研究与应用 [2008-01-04]

42. 知识库的建立及原则 [2022-10-13]

43. 知识图谱(一) [2022-07-28]

44. 知识图谱技术应用 [2016-01-01]

45. 电力实习计划赏析八篇 [2023-03-06]

46. 用电信息采集系统运维知识库的构建与应用

47. 关于四川美康医药软件研究开发股份有限公司首次公开发行股票并在创业板上市的补充法律意见(二)

48. Knowledge Repositories [2024-03-28]

49. ADVERTIMENT

50. 如何推动知识库化实现企业的信息高效管理与决策支持? [2024-08-10]

51. 基于知识仓库的知识管理平台设计与应用 [2010-06-01]

52. 中国音乐期刊网与新质生产力 [2024-09-08]

53. 企业知识库与行业知识库的区别与应用 [2024-09-12]

54. 基于知识仓库构建新一代知识管理平台 [2017-02-02]

55. 知识管理国家标准GB/T 23703 [2009-08]

56. 如何构建一个高效的基于知识库的问答系统? [2024-08-09]

57. WiNGPT2: 基于GPT的医疗垂直领域大模型 [2023-10-13]

58. 从个体到群体的数据循环,看为朔如何构建精准医疗知识库 [2016-07-26]

59. 知识图谱:知识图谱概述(一) [2024-09-17]

60. 科研数字化管理系统 [2009-01-01]

61. Graph RAG知识图谱构建:从数据到知识的转化 [2024-11-20]

62. 如何搭建一个知识库自动检索的功能 [2025-02-08]

63. 创建知识库 [2025-01-14]

64. 人工智能课程简介 [2025-02-10]

65. 如何搭建知识库? [2025-01-07]

66. Outlier analysis for microarray gene

67. 智能体平台 [2024-09-21]

68. SiliconFlow与RAG知识库搭建指南 [2025-02-24]

69. Bachelor of Information Technology and Management

70. 大模型RAG技术 [2024-06-27]

71. 一文彻底搞懂大模型 - RAG(检索、增强、生成) [2024-12-31]

72. 检索增强生成(RAG)系统构建指南 [2025-01-03]

73. 蓝色脑形图标设计解析

74. 这可能是讲 Coze 的知识库最通俗易懂的文章了 [2024-06-08]

75. Natural Language Processing in Medicine Using Retrieval Augmented Generation

76. : Jurnal Ilmiah Sosio Agribis (JISA)

77. DeepSeek大模型应用开发最佳实践 [2019-11-06]

78. Analytics, Data Science, & Artificial Intelligence