分享自:

基于大语言模型的电力知识库智能问答系统构建与评价

期刊:计算机科学DOI:10.11896/jsjkx.240300104

本文介绍了一项基于大语言模型(Large Language Model, LLM)的电力知识库智能问答系统——ChatPower的研究。该研究由张金营、王天堃、么长英、谢华、柴林政、刘书恺、李彤亮和李舟军等作者共同完成,分别来自国电电力发展股份有限公司、国能信控互联技术有限公司、北京航空航天大学计算机学院和北京信息科技大学计算机学院。该研究于2024年发表在《计算机科学》期刊上,得到了国家自然科学基金和软件开发环境国家重点实验室的支持。

研究背景与动机

随着信息技术的快速发展,大数据时代的到来使得专业领域知识的获取、管理和应用变得愈发复杂。特别是在电力领域,由于缺乏高质量的专业数据,构建基于大模型的智能问答系统面临较大挑战。大语言模型在自然语言处理(Natural Language Processing, NLP)领域取得了重大突破,并在金融、法律等垂直领域得到了广泛应用。然而,电力领域的特殊性使得现有的问答系统难以满足需求。因此,本研究旨在构建一个基于大语言模型的电力知识库智能问答系统,以提升电力领域知识管理的智能化水平。

研究方法与流程

ChatPower系统的构建主要包括以下几个步骤:

  1. 数据处理模块:该模块负责从电力企业的各类文档中提取电力相关知识。文档格式包括txt、word、pdf和excel等。通过版面解析技术,提取文档中的表格和文本内容,并根据文档的布局和段落信息进行切片处理,以便后续的知识库构建。

  2. 数据存储模块:该模块负责存储处理后的电力知识,并支持多轮对话记录的存储。电力知识以结构化和非结构化两种形式存储。结构化数据存储在数据库中,非结构化数据则存储在非结构化数据库中。系统采用了BM25算法、向量库检索与重排相结合的方法,以提高检索的准确性。

  3. 人机交互模块:该模块是用户与系统交互的入口。用户提出问题后,系统通过意图识别模块判断问题的类别(直接生成、非结构化查询、结构化查询、制度条例查询),并根据不同的类别选择相应的问答流程。系统结合提示工程技术,优化了规章制度类问题的回答条理性。

系统实现与实验验证

ChatPower系统的实现基于Linux环境,使用了通义千问的Qwen-14B-Int4模型作为大语言模型。系统通过构建一个大规模的电力知识库,覆盖了电力相关规章制度、安全生产管理体系以及发电设备故障知识等方面的内容。实验阶段,研究团队构建了一个电力知识问答的测试数据集,并对系统进行了测试验证。实验结果表明,ChatPower系统在非结构化问答和结构化问答任务上的准确率分别达到了79.2%和68.0%,能够有效提升电力相关知识的检索和问答准确性。

研究结论与意义

本研究提出了一种基于大语言模型的电力知识库智能问答系统ChatPower,通过语义化理解和知识库构建,显著提升了电力领域知识问答的准确性和实用性。ChatPower系统的成功构建为电力领域的智能化管理提供了有力支持,并为其他垂直领域的知识库问答系统提供了可借鉴的解决方案。该研究的创新点在于结合了BM25检索、向量库检索与重排技术,有效缓解了大语言模型的幻觉问题,并通过提示工程技术优化了规章制度类问题的回答条理性。

研究亮点

  1. 创新性:ChatPower系统首次将大语言模型应用于电力领域的知识问答系统,填补了该领域的研究空白。
  2. 技术突破:通过结合BM25检索、向量库检索与重排技术,显著提升了问答系统的检索准确性和回答质量。
  3. 应用价值:ChatPower系统为电力领域的智能化管理提供了有力支持,具有广泛的应用前景。

总结

本研究通过构建基于大语言模型的电力知识库智能问答系统ChatPower,成功解决了电力领域知识问答的难题。该系统的构建不仅提升了电力领域知识管理的智能化水平,也为其他垂直领域的知识库问答系统提供了宝贵的经验。未来,随着大语言模型技术的进一步发展,ChatPower系统有望在更多领域得到广泛应用。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com