本文是由Boci Peng(北京大学智能科学与技术学院)、Yun Zhu(浙江大学计算机科学与技术学院)、Yongchao Liu(蚂蚁集团)、Xiaohe Bo(中国人民大学高瓴人工智能学院)、Haizhou Shi(罗格斯大学)、Chuntao Hong(蚂蚁集团)、Yan Zhang(北京大学智能科学与技术学院)和Siliang Tang(浙江大学计算机科学与技术学院)共同撰写的一篇综述性论文,题为《Graph Retrieval-Augmented Generation: A Survey》,发表于2024年9月的《Journal of the ACM》(J. ACM)第37卷第4期。
随着大语言模型(LLMs)如GPT-4、Qwen2和LLaMA的快速发展,自然语言处理领域取得了显著进展。这些模型基于Transformer架构,能够理解和生成人类语言,广泛应用于医疗、金融和教育等领域。然而,LLMs在处理领域特定知识、实时更新信息和专有知识时存在局限性,可能导致“幻觉”现象,即模型生成不准确或虚构的信息。为了缓解这一问题,检索增强生成(Retrieval-Augmented Generation, RAG)应运而生。RAG通过引入外部知识库,动态查询相关事实知识,从而增强生成内容的质量和相关性。
然而,传统RAG在处理复杂实体关系时存在不足,无法有效捕捉结构化关系知识。为此,图检索增强生成(Graph Retrieval-Augmented Generation, GraphRAG)应运而生。GraphRAG利用图数据库中的结构化信息,能够更精确、全面地检索关系知识,生成更准确的上下文感知响应。鉴于GraphRAG的新颖性和潜力,本文首次系统性地综述了GraphRAG的技术现状,旨在为未来的研究提供参考和启发。
GraphRAG的工作流程主要包括三个阶段:基于图的索引(Graph-based Indexing, G-indexing)、图引导的检索(Graph-guided Retrieval, G-retrieval)和图增强的生成(Graph-enhanced Generation, G-generation)。
基于图的索引(G-indexing):这一阶段的目标是构建或选择与下游任务相关的图数据库,并为其建立索引。图数据库可以来自公开的知识图谱(如Wikidata、Freebase、DBpedia等)或基于专有数据源构建的图数据。索引过程通常包括映射节点和边的属性、建立节点间的指针以及组织数据以支持快速遍历和检索操作。
图引导的检索(G-retrieval):在索引完成后,图引导的检索阶段从图数据库中提取与用户查询相关的信息。检索的粒度可以是节点、三元组、路径或子图。为了提高检索效率,研究者提出了多种检索范式,包括一次性检索、迭代检索和多阶段检索。此外,检索增强技术如查询扩展、查询分解、知识合并和知识剪枝也被广泛应用,以优化检索结果的质量。
图增强的生成(G-generation):在生成阶段,生成器将检索到的图数据与查询结合,生成最终的响应。生成器可以是图神经网络(GNNs)、语言模型(LMs)或两者的混合模型。为了增强生成效果,研究者提出了多种生成增强技术,包括预生成增强、生成中增强和后生成增强。
本文详细介绍了GraphRAG的核心技术和方法,包括图数据的构建与索引、检索器的选择与训练、生成器的设计与优化等。
图数据的构建与索引:图数据可以来自公开的知识图谱或基于专有数据源构建的图数据。索引方法包括图索引、文本索引、向量索引和混合索引。图索引保留了图的结构信息,文本索引将图数据转换为文本描述,向量索引将图数据转换为向量表示以提高检索效率,混合索引则结合了多种索引方法的优势。
检索器的选择与训练:检索器可以分为非参数化检索器、基于语言模型的检索器和基于图神经网络的检索器。非参数化检索器基于启发式规则或传统图搜索算法,效率高但准确性较低;基于语言模型的检索器利用语言模型的强大自然语言理解能力,能够处理多样化的查询;基于图神经网络的检索器则擅长理解和利用复杂的图结构。
生成器的设计与优化:生成器可以是图神经网络、语言模型或两者的混合模型。图神经网络擅长表示图数据的结构信息,语言模型则擅长处理文本数据。混合模型通过结合两者的优势,能够生成更准确的响应。此外,生成增强技术如预生成增强、生成中增强和后生成增强也被广泛应用,以提高生成内容的质量。
GraphRAG在多个下游任务中表现出色,包括知识库问答(KBQA)、文本生成、推理任务等。本文还总结了GraphRAG在工业界的应用案例,展示了其在实际场景中的广泛应用和潜力。
尽管GraphRAG已经取得了显著进展,但仍有许多未解决的问题和挑战。未来的研究方向包括: 1. 图数据的动态更新:如何实时更新图数据以保持知识的时效性。 2. 多模态图数据:如何将文本、图像等多模态数据整合到图数据库中。 3. 生成模型的优化:如何进一步提高生成模型的准确性和效率。 4. 跨领域应用:如何将GraphRAG应用于更多领域,如医疗、法律等。
本文首次系统性地综述了GraphRAG的技术现状,详细介绍了其工作流程、核心技术和应用领域。GraphRAG通过引入图数据库中的结构化信息,显著提升了生成内容的准确性和相关性,具有广泛的应用前景。未来的研究将进一步推动GraphRAG技术的发展,为自然语言处理和知识表示领域带来更多创新。