这篇文档属于类型a,是一篇关于量子电路优化的原创性研究论文。以下是对该研究的学术报告:
本研究由来自卡内基梅隆大学(Carnegie Mellon University)的Zikun Li、哥伦比亚大学(Columbia University)的Jinjun Peng、微软(Microsoft)的Sina Lin、清华大学的Yi Wu、VMware Research的Oded Padon以及卡内基梅隆大学的Zhihao Jia共同完成。论文标题为《QUARL: A Learning-Based Quantum Circuit Optimizer》,发表于2024年4月的《Proceedings of the ACM on Programming Languages》(Proc. ACM Program. Lang.)期刊,卷8,文章编号114,共28页。
量子计算作为一种新兴的计算范式,在量子模拟、整数分解和机器学习等领域展现出超越经典计算的潜力。然而,量子计算机编程面临两大挑战:量子比特(qubit)稀缺性和噪声干扰。量子程序通常以量子电路(quantum circuit)形式表示,而优化量子电路是提升其执行成功率的关键。传统优化方法分为两类:
1. 基于规则的策略(rule-based strategies):如Qiskit、T|ket⟩和Quilc等工具,通过专家设计的规则贪婪地应用电路变换。
2. 基于搜索的策略(search-based approaches):如Quartz和Queso,通过搜索功能等效的电路空间寻找优化方案。
然而,这些方法受限于平面优化地形(planar optimization landscape)和成本递增变换(cost-increasing transformations)的挑战。前者指搜索空间庞大且成本函数缺乏引导性;后者指某些变换需暂时增加成本以实现最终优化。为此,本研究提出QUARL(一种基于强化学习的量子电路优化器),旨在通过强化学习(Reinforcement Learning, RL)解决上述问题。
QUARL将量子电路优化建模为马尔可夫决策过程(Markov Decision Process, MDP):
- 状态空间:所有可能的量子电路。
- 动作空间:对当前电路应用的所有有效变换。
- 奖励函数:基于变换前后的成本差异(如门数量减少)。
主要挑战包括:
- 动作空间庞大:例如,对千门电路应用6,206种变换可能产生数百万种动作组合。
- 非均匀状态表示:电路规模和拓扑结构动态变化,难以设计固定维度的状态表示。
QUARL通过以下创新解决上述挑战:
- 分层动作空间:将动作分解为选择门(gate selection)和选择变换(transformation selection)两个子策略,分别由独立的策略网络处理。
- 图神经网络(GNN)状态表示:利用GNN生成电路中每个门的局部环境表示(如k-hop邻域),从而捕捉局部优化机会,同时通过全局微调实现整体优化。
QUARL的架构包含三个核心模块:
1. 门表示生成器:基于GNN的6层网络,生成每个门的k-hop邻域嵌入(embedding)。
2. 门选择器:通过门值预测器(MLP)评估每个门的优化潜力,并基于温度Softmax选择目标门。
3. 变换选择器:MLP网络,根据所选门的表示输出变换概率分布,通过掩码过滤无效变换。
采用分层优势估计(Hierarchical Advantage Estimation, HAE)和近端策略优化(Proximal Policy Optimization, PPO)联合训练:
- 数据收集:通过并行轨迹生成,初始电路从缓冲区动态采样以增强探索。
- 优势估计:基于1步回报和受影响的局部门(ℓ-hop influenced gates)计算优势值,确保局部性与全局优化的平衡。
- 策略更新:结合策略梯度损失、价值回归损失和熵正则项,通过分布式数据并行加速训练。
在NAM门集和IBM门集的基准测试中,QUARL显著优于现有优化器:
- NAM门集:平均减少总门数35.2%(几何均值),CNOT门数减少32.5%,而最佳基线仅减少31.0%和25.4%。
- IBM门集:总门数减少36.6%,CNOT门数减少21.3%,保真度(fidelity)最高提升4.84倍(平均1.37倍),远超基线工具的1.07倍。
QUARL通过强化学习与GNN的结合,首次实现了量子电路优化的自动化与智能化,其科学价值体现在:
1. 方法学创新:提出分层动作空间和局部-全局平衡的优化框架,为RL在复杂搜索问题中的应用提供新思路。
2. 应用价值:显著提升量子电路的执行效率和可靠性,助力NISQ(Noisy Intermediate-Scale Quantum)设备的实用化。
3. 跨领域启示:其GNN-based状态表示和HAE优势估计方法可推广至其他程序优化任务。
此报告全面涵盖了QUARL的研究背景、方法、结果与意义,为量子计算和强化学习领域的研究者提供了详实的参考。