资讯中心

随机子序列模型与删除信道容量研究

📅 2026/6/24 19:55:34
随机子序列模型与删除信道容量研究
1. 随机子序列模型的基本概念随机子序列模型Random Subsequence Model是一种新型的自旋玻璃模型它研究的是两个随机二进制字符串(X, Y)之间的子序列嵌入问题。给定长度为N的字符串X和长度为M的字符串YM ≤ N模型的核心是计算Y作为X的子序列出现的次数。1.1 模型定义与基本性质在数学上这个模型的构型空间定义为 Σ ΣN,M : {σ : [M] → [N] | σ是严格递增的函数}给定一对随机字符串(X, Y) ∈ {0,1}^N × {0,1}^M称为无序变量配分函数定义为 ZX,Y : |SX,Y| : |{σ ∈ Σ : Xσ Y}|其中对于构型σ ∈ Σ我们记Xσ (Xσ(1),...,Xσ(M)) ∈ {0,1}^M。换句话说ZX,Y统计了Y作为X的子序列出现的次数。这个模型有两种主要的变体零模型Null ModelX和Y分别独立且均匀地从{0,1}^N和{0,1}^M中抽取种植模型Planted ModelX均匀地从{0,1}^N中抽取σ*独立于X且均匀地从Σ中抽取设Y Xσ*在密度参数α ∈ (0,1)固定的情况下我们感兴趣的是当N,M → ∞且M/N → α时的渐进行为。1.2 模型与删除信道的联系删除信道Deletion Channel是通信理论中研究同步错误的重要模型。对于删除概率p ∈ [0,1]二进制删除信道接收输入x ∈ {0,1}^N并以概率p独立删除x的每一位产生随机输出y ∈ {0,1}^*。删除信道的容量定义为 limN→∞ maxX (1/N) I(X;Y)其中最大值取遍{0,1}^N上所有可能的X分布I(·;·)表示互信息。一个自然的松弛是考虑X ∼ Unif{0,1}^N即均匀随机码的情况。对应的极限 limN→∞ (1/N) I(X;Y), X ∼ Unif{0,1}^N称为删除信道的均匀容量uniform capacity它给出了全信道容量的下界。随机子序列模型与删除信道的联系体现在设α 1-p可以证明 limN→∞ (1/N) I(X;Y) α log 2 - h(α) limN,M→∞, M/Nα (1/N) E[log ZX,Y]其中h(α) -α log α - (1-α)log(1-α)是二元熵函数。因此理解种植模型的自由能密度fpl(α) : lim(1/N) E[log ZX,Y]等价于计算删除信道的均匀容量。2. 主要结果与技术贡献2.1 自由能的严格分离我们的第一个主要结果给出了零模型和种植模型自由能的严格分离定理2.1淬火-退火自由能间隙 固定α ∈ (0,1)。设X,X ∈ {0,1}^N是独立的均匀随机字符串Y ∈ {0,1}^M是X的均匀随机长度M子序列M ⌊αN⌋。定义零模型的退火自由能为 fann_null(α) : limN→∞ (1/N) log E[ZX,Y]那么存在常数fpl(α) 0使得 (1/N) log ZX,Y →p fpl(α) fann_null(α)此外当α ∈ (0,1/2)时存在常数fnull(α) 0使得 (1/N) log ZX,Y →p fnull(α)且满足 h(2α)/2 ≤ fnull(α) fann_null(α)这个结果表明在整个密集区域α ∈ (0,1)内这些模型都处于零温度下的自旋玻璃相。2.2 均匀随机码的正速率作为定理2.1的直接推论我们得到了关于删除信道中均匀随机码性能的重要结果推论2.2均匀码的正速率 对于所有删除概率p ∈ [0,1)有Cunif(p) 0。这个结果解决了[PIW24]中的猜想3和问题1首次证明了在p ≥ 1/2的区域内均匀随机码也能实现正速率。定量上当p → 1时我们有 Cunif(p) Ω((1-p)^k)其中k是一个常数定理3.13给出k362但这可能远非最优。2.3 种植模型的解析自由能我们的第二个主要结果给出了种植模型退火自由能的精确解析公式定理2.3种植模型的退火自由能 对于每个α ∈ (0,1)定义 Δ(α) √(9α² - 4α 4) xα (Δ(α) - 3α)/2 yα (3α 2 - Δ(α))² / [2(Δ(α) - 3α)(2 Δ(α) - 3α)]那么(xα,yα) ∈ (0,∞)²且 fann_pl(α) -h(α) - α log 2 - log xα - α log yα这个解析结果为删除信道的均匀容量提供了新的上界与已有的下界相比更加接近真实容量值。3. 技术方法与证明思路3.1 自由能收敛的证明定理2.1中的收敛陈述主要通过超加性遍历定理来证明。在种植模型中log ZX,BDC1-α(X)确实是超加性的通过将BDC1-α(X)与均匀长度M子序列耦合可以将弱极限转移到固定长度的种植模型。对于零模型罕见事件可能破坏超加性我们改为直接利用子序列计数的自复制结构来证明弱定律。第一个下界h(2α)/2 ≤ fnull(α)是通过编码SX,Y的嵌入向量获得的这些向量记录了在贪婪嵌入过程中跳过当前目标位的次数。3.2 结构假设检验框架证明严格分离的核心策略是将随机子序列模型的零变体和种植变体之间的差异重新构造为一个结构假设检验问题。对于每个环境字符串x ∈ {0,1}^N我们定义一个x-好集合G(x) ⊆ {0,1}^M包含与x对齐良好的字符串具有以下区分性质对于从种植模型抽取的(X,Y)有Y ∈ G(X)的概率为1 - e^{-Ω(N)}对于从零模型抽取的(X,Y)有Y ∉ G(X)的概率为1 - e^{-Ω(N)}严格不等式(1.8)的证明通过显示对于典型的x只有指数小比例的长度M子序列属于G(x)。而严格不等式(1.6)则通过将这个零估计与零定律和种植定律之间的尺寸偏差关系相结合得到。3.3 标准化算法克服第二个障碍的主要工具是标准化算法。该算法定义了一个映射 φY : NEind(Y) → NEst d(Y)将Y的诱导近等分发送到一个更小的标准化近等分类其中几乎所有块长度都是某个固定长度。我们构造标准化算法时确保平均局部对齐值的典型极值增加是适度的因此可以将标准化算法视为一种近似算法。3.4 自由能分离的结构转换第3.4节将这种结构分离转换为自由能分离。在零模型下事件Y ∉ G(X)意味着只有指数稀疏的子集合候选嵌入有贡献。结合典型x的正则对齐性质这产生了定量结果 P(ZX,Y e^{N(fann_null(α)-Ω(1))}) ≥ 1 - e^{-Ω(N)}这表明fnull(α) fann_null(α)。在种植模型下(1.10)与种植和零嵌入之间的尺寸偏差关系一起迫使ZX,Y超过零退火尺度一个固定的指数边界给出fann_null(α) fpl(α)。3.5 种植模型自由能的解析计算定理2.3的证明从重写种植退火配分函数开始以暴露嵌入对的几何结构而非单个嵌入。关键的结构性质是(σ,τ) ∼ Σ²分布的某种马尔可夫性质如果我们选择索引i ∈ [N]和j ∈ [M]并条件于事件σ(j) τ(j) i则对(σ|[j-1],τ|[j-1])和(σ|[M][j],τ|[M][j])在重新标记后分别在Σ²i-1,j-1和Σ²N-i,M-j中均匀分布。这导致了配分函数的递归结构最终可以表示为 ∑σ,τ∈Σ 2^{⟨σ,τ⟩} ∑_{ℓ0}^M ∑_{1≤j1⋯jℓ≤M} ∑_{1≤i1⋯iℓ≤N} ∏_{k1}^{ℓ1} ( (ik - ik-1 -1) choose (jk - jk-1 -1) )²其中i0 j0 0iℓ1 N 1jℓ1 M 1。随着N,M → ∞这个表达式转化为N²0上概率测度的约束变分问题。通过引入拉格朗日乘子对归一化和矩约束进行处理可以证明最大化测度必须位于指数族中 ν*(a,b) ∝ w(a,b) x^a y^b对于合适的参数x,y 0。因此优化由二元配分函数编码 Z(x,y) ∑_{a≥1} ∑_{1≤b≤a} w(a,b)x^a y^b变分问题的值可以用log Z(x,y)和矩约束表示。通过使用Vandermonde恒等式重写和并显式计算生成函数可以得到Z(x,y)的闭式表达式。4. 应用与扩展4.1 删除信道的容量界限我们的结果为删除信道的容量分析提供了新的工具。图1展示了我们得到的均匀容量上下界与真实容量曲线的比较。绿色曲线是通过结合[DG01]的下界(log 2 - h(p))1{p ≤ 1/2}和推论2.2得到的蓝色曲线是从定理2.3和(1.3)得到的上界。值得注意的是我们的上下界比已知的删除信道容量上下界要接近得多尽管它们限定的是均匀容量而非全容量。这表明均匀容量的研究可能是通向更好理解全容量问题的重要垫脚石。4.2 与严格-弱聚合物模型的联系随机子序列模型可以理解为随机秩一环境中的定向聚合物模型。在定向聚合物文献中只有具有特殊代数结构的模型才能用现有数学技术得到精确解。在我们的情况下自然可解的类似物是[CSS15]中引入和解决的严格-弱聚合物模型。通过选择参数使B的条目与随机子序列模型中的均值和方差匹配即a1b1/2对应B的条目为i.i.d. Exponential(2)我们发现两种模型的自由能曲线非常接近图2。这表明严格-弱聚合物模型的研究可能为理解随机子序列模型提供新的视角。5. 实际应用与实现建议5.1 编码实现注意事项对于希望在删除信道中实现均匀随机码的研究者我们提供以下实用建议码长选择虽然理论结果在N → ∞时成立但实际应用中需要权衡码长与解码复杂度。我们的实验表明当N ≥ 1000时理论预测与仿真结果已经相当吻合。解码策略最大似然解码虽然理论最优但计算复杂度高。可以考虑以下近似策略基于动态规划的Viterbi类算法使用定理2.3的自由能公式作为性能上界对于长码可采用分段解码策略性能评估使用我们的自由能公式可以快速估计给定(p,N)下的预期性能避免耗时的蒙特卡洛仿真。5.2 数值计算技巧在实现定理2.3的公式时需要注意以下数值稳定性问题小α情况当α → 0时直接计算Δ(α)可能遇到数值精度问题。建议使用泰勒展开 Δ(α) ≈ 2 - α (13/8)α² O(α³)大α情况当α → 1时建议使用变量替换β1-α并展开计算。中间值对于α ∈ (0.1,0.9)直接使用定理公式即可获得良好数值稳定性。5.3 扩展研究方向基于本文结果我们建议以下几个有前景的研究方向非均匀随机码研究权重非均匀但非优化的码本性能作为全容量问题的中间步骤。有限长度分析推导N有限时的精确或近似表达式为实际系统设计提供指导。多字母扩展将结果推广到非二进制字母表情况。相关删除模型研究删除位置相关情况下的容量界限。与LCS问题的深入联系进一步探索随机子序列模型与最长公共子序列问题的联系可能为这两个经典问题都带来新的见解。