基于效用和动态定位变换程序的三向决策方法在圆形q-rung orthopair模糊集中用于大型语言模型的排序和分级

学术背景

随着人工智能(AI)和自然语言处理(Natural Language Processing, NLP)的快速发展,大型语言模型(Large Language Models, LLMs)在学术界和工业界都取得了显著进展。然而,尽管LLMs在多个NLP任务中表现出色,但尚未有单一模型能够同时满足所有任务需求。这种多样化的任务需求和评估标准的复杂性,使得LLMs的评估成为一个多准则决策(Multi-Criteria Decision-Making, MCDM)问题。传统的MCDM方法虽然能够进行排名,但在处理不确定性、任务优先级和数据变异性等方面存在局限性,尤其是在处理二元数据时,难以有效进行分级。

为了解决这一问题,本文提出了一种基于效用和动态定位变换的三支决策(Three-Way Decision, 3WD)方法,并结合圆形q阶正交模糊集(Circular q-Rung Orthopair Fuzzy Sets, C-Q-ROFS)来对LLMs进行排名和分级。该方法不仅能够处理不确定性,还能通过动态变换程序有效处理二元数据,为LLMs的评估提供了一个更为稳健的机制。

论文来源

本文由Sarah Qahtan、Nahia Mourad、H. A. Alsattar、A. A. Zaidan、B. B. Zaidan、Dragan Pamucar、Vladimir Simic、Weiping Ding和Khaironi Yatim共同撰写,作者分别来自多个研究机构,包括University of Baghdad、University of Belgrade等。论文于2025年发表在《Cognitive Computation》期刊上,具体卷号为17,页码为77。

研究流程

1. 研究目标与方法概述

本文的主要目标是开发一种新的三支决策方法,结合C-Q-ROFS,用于LLMs的排名和分级。具体方法包括: 1. 使用C-Q-ROFS重新构建模糊加权零不一致性交互过程(FWZICBIP)方法,以优先处理任务并解决权重不确定性。 2. 通过LLMs与NLP任务的交集构建决策矩阵,并应用效用和动态定位变换程序处理二元数据。 3. 在C-Q-ROFS框架下重新构建基于意见得分的条件概率(CPOS)方法,确定每个LLM的决策阈值。

2. 研究流程详解

2.1 确定NLP任务权重

首先,作者使用C-Q-ROFS-FWZICBIP方法来确定NLP任务的权重。该方法通过以下步骤实现: 1. q阶正交模糊化:将评估值转换为基于五级李克特量表的数值,并使用q阶正交模糊集表示。 2. 圆形模糊元素构建:将每个任务的q阶正交模糊元素转换为圆形模糊元素。 3. 评分:使用评分函数计算每个任务的得分,并将其映射到[0,1]范围。 4. 权重计算:通过比较显著性均值和初始权重,最终确定每个任务的权重。

2.2 构建LLMs决策矩阵

接下来,作者通过效用和动态定位变换程序构建LLMs的决策矩阵。具体步骤包括: 1. 效用程序:决策者根据个人经验,将决策矩阵中的0和1转换为百分比值。 2. 动态定位:将百分比决策矩阵转换为五级李克特量表决策矩阵。

2.3 LLMs的排名与分级

最后,作者使用C-Q-ROFS-CPOS方法和贝叶斯决策理论对LLMs进行排名和分级。具体步骤包括: 1. 模糊化:将决策矩阵中的值替换为q阶正交模糊元素。 2. 圆形q阶正交模糊元素构建:将多个决策者的模糊元素聚合为圆形q阶正交模糊元素。 3. 评分:计算每个LLM的加权得分。 4. 条件概率计算:计算每个LLM的条件概率,并根据概率进行排名。 5. 阈值生成:基于贝叶斯决策规则生成阈值,将LLMs分为正区域(POS)、边界区域(BND)和负区域(NEG)。

3. 研究结果

3.1 NLP任务权重结果

通过C-Q-ROFS-FWZICBIP方法,作者确定了NLP任务的权重。结果显示,情感分析(Sentiment Analysis, SA)是最重要的子任务,权重为0.2324,其次是推理任务(Reasoning, REAS),权重为0.1611。总结任务(Summarization, SUMM)在自然语言生成(Natural Language Generation, NLG)中最为重要,权重为0.1178。

3.2 LLMs决策矩阵结果

通过效用和动态定位变换程序,作者构建了LLMs的决策矩阵。结果显示,LLM14在多个NLP任务中表现最为出色,而LLM22表现最差。

3.3 LLMs排名与分级结果

使用C-Q-ROFS-CPOS方法,作者对40个LLMs进行了排名和分级。结果显示,LLM14的条件概率最高(0.6528),排名第一,而LLM22的条件概率最低(0.0000),排名最后。通过贝叶斯决策规则,作者将LLMs分为POS、BND和NEG区域。结果显示,LLM14在大多数σ值下都位于POS区域,表现出色。

4. 敏感性分析与比较分析

4.1 敏感性分析

作者通过改变风险规避系数(σ)、q阶正交模糊集的q值以及NLP任务的权重系数,分析了这些参数对LLMs排名和分级结果的影响。结果显示,σ值的变化主要影响分级结果,而q值的变化则同时影响排名和分级结果。权重系数的调整对排名和分级结果有显著影响。

4.2 比较分析

作者将本文提出的方法与两个基准研究进行了比较。结果显示,本文的方法在处理二元数据和不确定性方面具有明显优势,能够更精确地进行LLMs的排名和分级。

结论与价值

本文提出了一种基于C-Q-ROFS的三支决策方法,成功解决了LLMs评估中的多准则决策问题。该方法不仅能够有效处理不确定性,还能通过动态变换程序处理二元数据,为LLMs的排名和分级提供了一个稳健的机制。研究结果表明,LLM14在多个NLP任务中表现最为出色,而LLM22表现最差。敏感性分析进一步验证了该方法的鲁棒性和稳定性。

研究亮点

  1. 新颖的方法:本文首次将C-Q-ROFS与三支决策方法结合,提出了一种新的LLMs评估框架。
  2. 处理二元数据:通过效用和动态定位变换程序,成功处理了二元数据,提高了评估的精确性。
  3. 敏感性分析:通过改变多个参数,验证了方法的鲁棒性和稳定性。
  4. 实际应用价值:该方法为LLMs的评估和选择提供了科学依据,具有重要的实际应用价值。

总结

本文通过开发一种基于C-Q-ROFS的三支决策方法,成功解决了LLMs评估中的多准则决策问题。该方法不仅能够有效处理不确定性,还能通过动态变换程序处理二元数据,为LLMs的排名和分级提供了一个稳健的机制。研究结果表明,LLM14在多个NLP任务中表现最为出色,而LLM22表现最差。敏感性分析进一步验证了该方法的鲁棒性和稳定性。本文的研究为LLMs的评估和选择提供了科学依据,具有重要的实际应用价值。