<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Xpeng on 朝花夕拾</title>
        <link>https://example.org/tags/xpeng/</link>
        <description>Recent content in Xpeng on 朝花夕拾</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>en-us</language>
        <lastBuildDate>Thu, 30 Apr 2026 00:00:00 +0800</lastBuildDate><atom:link href="https://example.org/tags/xpeng/index.xml" rel="self" type="application/rss+xml" /><item>
            <title>X-Cache</title>
            <link>https://example.org/post/robotics/e2e/x-cache/</link>
            <pubDate>Thu, 30 Apr 2026 00:00:00 +0800</pubDate>
            <guid>https://example.org/post/robotics/e2e/x-cache/</guid>
            <description>&lt;h1 id=&#34;x-cache-cross-chunk-block-caching-for-few-step-autoregressive-world-models-inference&#34;&gt;X-Cache: Cross-Chunk Block Caching for Few-Step Autoregressive World Models Inference&#xA;&lt;/h1&gt;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-一句话总结&#34;&gt;🎯 一句话总结&#xA;&lt;/h2&gt;&lt;p&gt;X-Cache 发现了一个&lt;strong&gt;此前从未被利用的冗余维度&lt;/strong&gt;——跨生成片段的 block 残差复用，在生产世界模型上以&lt;strong&gt;零训练代价&lt;/strong&gt;实现了 &lt;strong&gt;2.6–2.7 倍加速&lt;/strong&gt;，71% block 跳过率，画质无感知损失。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-核心问题为什么世界模型推理太慢&#34;&gt;📌 核心问题：为什么世界模型推理太慢？&#xA;&lt;/h2&gt;&lt;p&gt;自动驾驶正越来越依赖&lt;strong&gt;世界模型&lt;/strong&gt;——一种能根据车辆动作，实时生成逼真未来场景视频的 AI 系统。它相当于给汽车造了一个&lt;strong&gt;虚拟的沙盘世界&lt;/strong&gt;，用来做强化学习训练和闭环评估。&lt;/p&gt;&#xA;&lt;p&gt;但问题来了：这些模型推理&lt;strong&gt;太慢了&lt;/strong&gt;！不够实时，就没法真正投入使用。&lt;/p&gt;&#xA;&lt;h3 id=&#34;为什么旧方法不管用&#34;&gt;为什么旧方法不管用？&#xA;&lt;/h3&gt;&lt;p&gt;已有的扩散加速方法（如 DeepCache、FlowCache、SCOPE）都是利用&lt;strong&gt;同一个视频片段、相邻去噪步骤之间&lt;/strong&gt;的特征冗余来跳过计算。但小鹏的世界模型已经被蒸馏成&amp;quot;少步模型&amp;quot;（仅 &lt;strong&gt;4 步去噪&lt;/strong&gt;），每一步都在做&lt;strong&gt;实质性的结构更新&lt;/strong&gt;，几乎没有可复用的冗余，强行复用只会破坏画质。&lt;/p&gt;&#xA;&lt;p&gt;此外，交互式场景还有两个额外的拦路虎：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;驾驶动作不连续&lt;/strong&gt;：刹车、转向在每个片段边界可能突变，破坏了&amp;quot;特征平滑&amp;quot;假设&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;无法并行&lt;/strong&gt;：必须先生成当前帧、等决策系统给出下一步动作，才能生成下一帧&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;-x-cache-的顿悟时刻&#34;&gt;💡 X-Cache 的顿悟时刻&#xA;&lt;/h3&gt;&lt;p&gt;研究者发现了一个新的冗余维度：&lt;strong&gt;真实世界的场景在相邻片段之间变化是缓慢而平滑的！&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;汽车从一帧到下一帧，路面、建筑、天空基本没变。因此，DiT（扩散变换器）中每个模块在&amp;quot;相同去噪步骤、相同模块编号&amp;quot;位置的输入，相邻片段之间&lt;strong&gt;高度相似&lt;/strong&gt;。&lt;/p&gt;&#xA;&lt;p&gt;这种&amp;quot;跨片段冗余&amp;quot;来自&lt;strong&gt;物理世界的连续性&lt;/strong&gt;，而不是去噪过程，因此完全&lt;strong&gt;不受少步蒸馏影响&lt;/strong&gt;——是个全新的可利用轴！&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-方法详解x-cache-是怎么工作的&#34;&gt;🔧 方法详解：X-Cache 是怎么工作的？&#xA;&lt;/h2&gt;&lt;h3 id=&#34;基础设定三个下标刻画每次计算&#34;&gt;基础设定：三个下标刻画每次计算&#xA;&lt;/h3&gt;&lt;p&gt;模型用三个下标刻画每次计算：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;n&lt;/strong&gt;：当前在生成第几个 chunk（视频片段）&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;t&lt;/strong&gt;：当前在第几步去噪&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;b&lt;/strong&gt;：当前在处理 DiT 的第几个 block&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;每个 block 做的事情是：&lt;code&gt;新输出 = 旧输入 + block计算出的残差&lt;/code&gt;。X-Cache 的核心就是：&lt;strong&gt;把这个&amp;quot;残差&amp;quot;缓存下来，下次能用就直接复用，不用重算。&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h3 id=&#34;21-跨片段残差缓存核心灵魂&#34;&gt;2.1 跨片段残差缓存（核心灵魂）&#xA;&lt;/h3&gt;&lt;p&gt;思路极其简洁：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;当第 n 个片段的 (t, b) 位置计算完，把残差 &lt;code&gt;r&lt;/code&gt; 存入缓存&lt;/li&gt;&#xA;&lt;li&gt;到第 n+1 个片段的同一位置，如果判断&amp;quot;输入和上一次差不多&amp;quot;，就直接用缓存残差，跳过整个 block 的计算&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;第一个片段（n=0）是**&amp;ldquo;热身阶段&amp;rdquo;**，所有 block 都老老实实完整计算，把缓存填满，为后续复用打下基础。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h3 id=&#34;22-双指标门控机制聪明地决定跳不跳&#34;&gt;2.2 双指标门控机制：聪明地决定&amp;quot;跳不跳&amp;quot;&#xA;&lt;/h3&gt;&lt;p&gt;不能无脑跳，得先判断当前输入和上一次是不是真的&amp;quot;差不多&amp;quot;。X-Cache 设计了一套**紧凑指纹（fingerprint）**来快速评估。&lt;/p&gt;&#xA;&lt;h4 id=&#34;指纹怎么提取&#34;&gt;指纹怎么提取？&#xA;&lt;/h4&gt;&lt;p&gt;block 的输入是一个巨大的张量（帧数 × 高 × 宽 × 通道），全比太贵。于是按三维空间网格&lt;strong&gt;均匀采样 32 个 token&lt;/strong&gt;，在帧、高、宽三个维度上按比例分配。&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;&lt;strong&gt;关键设计&lt;/strong&gt;：不是沿着扁平 token 序列均匀采样，而是在三维空间里分别均匀采样！&lt;/p&gt;&#xA;&lt;p&gt;为什么要这样？因为 1D 均匀采样对三个维度是&amp;quot;盲目的&amp;quot;——步长和维度大小的数值关系决定了采样会系统性地偏向某些坐标值。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;一个灾难性例子&lt;/strong&gt;：假设 F=2帧，H=4高，W=16宽，采样 K=8 个点。1D 均匀采样步长是 128÷8 = 16，恰好等于 W。结果所有采样点的 w 值&lt;strong&gt;全是 0&lt;/strong&gt;——永远落在最左边一列，w=1 到 w=15 完全没被采样到！&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;p&gt;正确的做法是按照三个维度的比例分别分配采样数量：&lt;/p&gt;&#xA;&lt;p&gt;$$k_F : k_H : k_W \approx F : H : W, \quad k_F \cdot k_H \cdot k_W \approx K$$&lt;/p&gt;&#xA;&lt;p&gt;这样每个维度都有&lt;strong&gt;保证的覆盖&lt;/strong&gt;，不会因为数字巧合而整体偏向某一侧。&lt;/p&gt;&#xA;&lt;h4 id=&#34;两个辅助频道&#34;&gt;两个辅助频道&#xA;&lt;/h4&gt;&lt;p&gt;指纹还拼接两个&amp;quot;辅助频道&amp;quot;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;全局均值频道&lt;/strong&gt;：整个输入的均值，用来捕捉整体漂移&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;动作条件频道&lt;/strong&gt;：把当前驾驶动作向量（油门、转向等）也放进指纹，让系统能直接感知&amp;quot;这次动作和上次有没有变&amp;quot;——这很关键，因为动作是通过 adaLN-Zero 注入每个 block 的，光看输入张量察觉不到&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h4 id=&#34;两个指标联合判断&#34;&gt;两个指标联合判断&#xA;&lt;/h4&gt;&lt;p&gt;有了指纹，再用&lt;strong&gt;两个指标&lt;/strong&gt;联合判断是否跳过：&lt;/p&gt;&#xA;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;指标&lt;/th&gt;&#xA;          &lt;th&gt;计算方式&lt;/th&gt;&#xA;          &lt;th&gt;捕捉什么变化&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;余弦相似度&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;取所有视角中的&lt;strong&gt;最小值&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;整体方向的漂移&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;最大 token 偏差&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;取所有视角的&lt;strong&gt;最大值&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;局部突变的异常点&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;p&gt;只有当&lt;strong&gt;两个指标都通过&lt;/strong&gt;，才允许跳过这个 block。这是一种&amp;quot;保守聚合&amp;quot;的安全设计。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h3 id=&#34;-余弦相似度为什么取最小值&#34;&gt;📐 余弦相似度：为什么取最小值？&#xA;&lt;/h3&gt;&lt;h4 id=&#34;什么是余弦相似度&#34;&gt;什么是余弦相似度？&#xA;&lt;/h4&gt;&lt;p&gt;余弦相似度的本质，是衡量两个向量&lt;strong&gt;方向有多一致&lt;/strong&gt;，而不是它们有多&amp;quot;大&amp;quot;。&lt;/p&gt;&#xA;&lt;p&gt;公式：&#xA;$$s = \frac{\vec{A} \cdot \vec{B}}{|\vec{A}| \cdot |\vec{B}|}$$&lt;/p&gt;&#xA;&lt;p&gt;分子是点积，分母是模长相乘——这个操作恰好等于两个向量夹角的余弦值。&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;方向完全相同 → 值为 1&lt;/li&gt;&#xA;&lt;li&gt;方向垂直 → 值为 0&lt;/li&gt;&#xA;&lt;li&gt;方向相反 → 值为 -1&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;strong&gt;为什么不用欧氏距离？&lt;/strong&gt; 一个经典例子：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;A = [1, 2]，B = [100, 200]，C = [2, 1]&lt;/li&gt;&#xA;&lt;li&gt;A 和 B 的欧氏距离很远（差了 100 倍），但余弦相似度 = 1，因为方向完全相同&lt;/li&gt;&#xA;&lt;li&gt;A 和 C 的欧氏距离很近，但余弦相似度 &amp;lt; 1，因为方向有偏差&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;在神经网络的特征空间里，&lt;strong&gt;特征的&amp;quot;意义&amp;quot;更多藏在方向里，而不是幅度里&lt;/strong&gt;。&lt;/p&gt;&#xA;&lt;h4 id=&#34;为什么取最小值&#34;&gt;为什么取最小值？&#xA;&lt;/h4&gt;&lt;p&gt;场景还原：X-Cache 的世界是 &lt;strong&gt;7 个摄像头&lt;/strong&gt;，分成 3 个视角组，每个视角组独立计算一个余弦相似度值。&lt;/p&gt;&#xA;&lt;p&gt;假设 7 个摄像头里，6 个的余弦相似度都是 0.999，但有 1 个（比如左后摄像头）突然出现了一辆加速超车的摩托车，相似度掉到了 0.80。&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;取平均&lt;/strong&gt;：≈ 0.97，可能还是超过阈值，系统认为&amp;quot;没问题，跳过吧&amp;quot;——但实际上左后视角已经发生了显著变化&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;取最小值&lt;/strong&gt;：直接拿到 0.80，远低于阈值，系统正确地判断&amp;quot;不能跳，必须重算&amp;quot;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;本质逻辑：这个 block 的计算是针对&lt;strong&gt;所有摄像头一起做的&lt;/strong&gt;，它们共享同一个 (t, b) 位置的计算。如果&lt;strong&gt;任何一个视角&lt;/strong&gt;发生了显著变化，整个 block 的输出都会受影响——因为网络内部的注意力机制会跨摄像头交互信息。&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;&lt;strong&gt;生活类比&lt;/strong&gt;：检查家里所有门窗是否都锁好了，判断标准不是&amp;quot;平均锁好程度&amp;quot;，而是&amp;quot;有没有一扇是开的&amp;quot;——只要有一扇没锁，整体就不安全。&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;hr&gt;&#xA;&lt;h3 id=&#34;-最大-token-偏差捕捉局部突变&#34;&gt;📊 最大 Token 偏差：捕捉局部突变&#xA;&lt;/h3&gt;&lt;p&gt;公式：&#xA;$$d_{\max} = \frac{\max\left|\phi(\mathbf{x}^{(n)}) - \phi(\mathbf{x}^{(n-1)})\right|}{\text{mean}\left|\phi(\mathbf{x}^{(n-1)})\right| + \epsilon}$$&lt;/p&gt;&#xA;&lt;p&gt;计算流程：&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;对 32 个采样位置，每个位置算当前片段和上一片段的&lt;strong&gt;特征差值&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;找出差值&lt;strong&gt;最大的那一个位置&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;用上一片段特征的均值做归一化，得到相对偏差&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;h4 id=&#34;为什么要关注最大的那个位置&#34;&gt;为什么要关注&amp;quot;最大&amp;quot;的那个位置？&#xA;&lt;/h4&gt;&lt;p&gt;一个典型场景：画面大部分区域（背景道路、天空）几乎没变，但某个局部位置（比如前方突然出现一辆急刹的卡车）发生了剧烈变化。&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;余弦相似度&lt;/strong&gt;：因为大多数位置都很稳定，整体方向差异不大，可能不会触发报警&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;最大 token 偏差&lt;/strong&gt;：那个&amp;quot;卡车突然出现&amp;quot;的位置偏差极大，直接把最大值拉高，触发强制重算&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;所以两个指标是&lt;strong&gt;互补的&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;余弦相似度防的是&amp;quot;温水煮青蛙式的整体漂移&amp;quot;&lt;/li&gt;&#xA;&lt;li&gt;最大 token 偏差防的是&amp;quot;局部突然爆炸式的异常变化&amp;quot;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h3 id=&#34;23-自适应阈值会自我调节的松紧度&#34;&gt;2.3 自适应阈值：会自我调节的&amp;quot;松紧度&amp;quot;&#xA;&lt;/h3&gt;&lt;p&gt;固定一个全局阈值太粗暴——有些 block 天生就变化小（可以激进地跳），有些天生变化大（要保守）。&lt;/p&gt;&#xA;&lt;p&gt;X-Cache 为每个 (t, b) 位置单独维护一个&lt;strong&gt;指数移动平均（EMA）&lt;/strong&gt;，记录这个位置历史上的余弦相似度，然后把阈值设为略低于 EMA 的值（差一个边距 m=0.02）。&lt;/p&gt;&#xA;&lt;p&gt;效果是：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;跨片段几乎不变的模块 → 阈值越来越高，越来越激进地跳&lt;/li&gt;&#xA;&lt;li&gt;变化较大的模块 → 阈值会自动保守&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;同时设定一个硬性安全底线（τ_floor=0.97），不管 EMA 多高，阈值都不会低于这个值。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h3 id=&#34;24-四重安全机制强制重算的边界条件&#34;&gt;2.4 四重安全机制：强制重算的边界条件&#xA;&lt;/h3&gt;&lt;p&gt;即使指纹通过了测试，也有几种特殊情况必须&amp;quot;强制重算&amp;quot;：&lt;/p&gt;&#xA;&lt;h4 id=&#34;-去噪步骤-t0-保护可选&#34;&gt;① 去噪步骤 t=0 保护（可选）&#xA;&lt;/h4&gt;&lt;p&gt;第 0 步的输入充满高斯噪声，条件信号（动作、文本等）对输出的影响最大，而且每次更新 KV 缓存时噪声都会重采样，导致相邻片段的 t=0 余弦相似度天然偏低。默认关闭跳过，确保条件信号能被充分吸收。&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;消融实验表明：开启保护后跳过率从 71.3% 降到 53.5%，但画质&lt;strong&gt;毫无变化&lt;/strong&gt;。自适应阈值已经能自己判断好 t=0 的情况。但研究者保留了这个开关，作为夜间、暴雨或极端轨迹变化下的额外安全边际。&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;h4 id=&#34;-锚块anchor-blocks保护&#34;&gt;② 锚块（Anchor Blocks）保护&#xA;&lt;/h4&gt;&lt;p&gt;默认让第 0 个 block（前锚）永远不跳过。它的输出变化会像多米诺骨牌一样级联到后续 block，天然地迫使后续 block 重新计算它们自己的指纹——这是个优雅的级联保护机制。&lt;/p&gt;&#xA;&lt;h4 id=&#34;-kv-更新帧保护最重要&#34;&gt;③ KV 更新帧保护（最重要！）&#xA;&lt;/h4&gt;&lt;p&gt;自回归生成时，每隔一段时间会有一个&amp;quot;KV 更新帧&amp;quot;，把当前生成的干净帧写入持久 KV 缓存，供未来所有片段的 cross-attention 使用。&lt;/p&gt;&#xA;&lt;p&gt;如果这次写入的 KV 带有缓存误差，未来&lt;strong&gt;所有&lt;/strong&gt;帧都会受到污染，错误会永久传播！&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;消融实验证明：关掉 KV 更新帧保护，PSNR 从 53.4 dB &lt;strong&gt;崩塌到 21.5 dB&lt;/strong&gt;，LPIPS 暴涨 3 个数量级——图像完全崩了！这是&lt;strong&gt;唯一不可妥协的硬性安全要求&lt;/strong&gt;。&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;h4 id=&#34;-最大过期次数&#34;&gt;④ 最大过期次数&#xA;&lt;/h4&gt;&lt;p&gt;如果某个 (t, b) 位置连续跳过次数超过阈值 M，强制重算一次，防止缓存太陈旧。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-实验结果在真实赛道上跑一跑&#34;&gt;🧪 实验结果：在真实赛道上跑一跑&#xA;&lt;/h2&gt;&lt;h3 id=&#34;实验设置&#34;&gt;实验设置&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;项目&lt;/th&gt;&#xA;          &lt;th&gt;详情&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;硬件&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;阿里 T-Head 真武（Zhenwu）810E AI 加速器，96GB HBM2e，BF16 精度&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;模型&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;小鹏自研 X-World（基于 WAN 2.2），7 个摄像头，12 帧/秒，4 步去噪&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;数据集&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;城市道路（7条）、高速公路（3条）、城市掉头（3条）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;视频长度&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;每条 264 帧（约 22 秒）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;核心结果&#34;&gt;核心结果&#xA;&lt;/h3&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;场景&lt;/th&gt;&#xA;          &lt;th&gt;PSNR&lt;/th&gt;&#xA;          &lt;th&gt;SSIM&lt;/th&gt;&#xA;          &lt;th&gt;LPIPS&lt;/th&gt;&#xA;          &lt;th&gt;跳过率&lt;/th&gt;&#xA;          &lt;th&gt;加速比&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;城市道路&lt;/td&gt;&#xA;          &lt;td&gt;51.37 dB&lt;/td&gt;&#xA;          &lt;td&gt;0.9990&lt;/td&gt;&#xA;          &lt;td&gt;3.3e-4&lt;/td&gt;&#xA;          &lt;td&gt;71.4%&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;2.65×&lt;/strong&gt;&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;高速&lt;/td&gt;&#xA;          &lt;td&gt;54.67 dB&lt;/td&gt;&#xA;          &lt;td&gt;0.9991&lt;/td&gt;&#xA;          &lt;td&gt;1.9e-4&lt;/td&gt;&#xA;          &lt;td&gt;71.6%&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;2.66×&lt;/strong&gt;&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;掉头&lt;/td&gt;&#xA;          &lt;td&gt;52.04 dB&lt;/td&gt;&#xA;          &lt;td&gt;0.9990&lt;/td&gt;&#xA;          &lt;td&gt;3.1e-4&lt;/td&gt;&#xA;          &lt;td&gt;71.3%&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;2.70×&lt;/strong&gt;&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;p&gt;&lt;strong&gt;加速效果稳如磐石&lt;/strong&gt;：三种场景的跳过率只差 0.3 个百分点，推理时间只差 30ms——加速是由 DiT 的结构（block 位置）决定的，不是场景决定的。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;掉头反而比城市道路画质更好？&lt;/strong&gt; 看似反直觉，但有合理解释：掉头片段中大部分时间其实在直行；转弯时摄像头里物体本来就有运动模糊，高频纹理本来就少，缓存误差更难在像素上显现。&lt;/p&gt;&#xA;&lt;h3 id=&#34;误差分布分析&#34;&gt;误差分布分析&#xA;&lt;/h3&gt;&lt;p&gt;所有场景下：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;Blocks 1-19 的跨片段余弦相似度都在 &lt;strong&gt;0.95 以上&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;Blocks 20-26 降到约 &lt;strong&gt;0.90&lt;/strong&gt;（这个模式完全由模型结构决定，与场景无关）&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;跳过率对应地：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;Blocks 1-19 稳定在约 0.75（1 个热身 chunk 对应的 4 个 chunk 复用窗口）&lt;/li&gt;&#xA;&lt;li&gt;Blocks 20-26 降到约 0.69&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-消融实验拆开零件逐个测&#34;&gt;🔬 消融实验：拆开零件逐个测&#xA;&lt;/h2&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;实验&lt;/th&gt;&#xA;          &lt;th&gt;效果&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;t=0 保护开启&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;跳过率 71.3% → 53.5%，加速 2.59× → 1.84×，画质不变（自适应阈值已能自行判断）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;KV 更新帧保护关闭&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;PSNR 53.4 dB → &lt;strong&gt;21.5 dB&lt;/strong&gt;（崩塌！），LPIPS 暴涨 3 个数量级&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;前锚块 Fn=0（关闭）&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;跳过率多 1.9%，每 chunk 省 70ms，画质几乎不变（但保留为安全边际）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;τ_floor 从 0.90 → 0.96&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;所有指标&lt;strong&gt;完全不变&lt;/strong&gt;（当前数据集中几乎没有 token 落在这个区间）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-技术细节问答&#34;&gt;❓ 技术细节问答&#xA;&lt;/h2&gt;&lt;h3 id=&#34;q1余弦相似度中位数和-75-分位数都是-10这合理吗&#34;&gt;Q1：余弦相似度中位数和 75 分位数都是 1.0，这合理吗？&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;完全合理！&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;物理世界连续性决定了：车辆以正常速度行驶时，相邻两个 chunk 之间可能只过了零点几秒：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;远处的建筑、天空、道路线几乎&lt;strong&gt;纹丝不动&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;前方车辆可能只移动了几厘米&lt;/li&gt;&#xA;&lt;li&gt;大量摄像头画面的大部分区域&lt;strong&gt;像素级别上都几乎一样&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;神经网络的特征是从像素里提取的——如果输入像素都没怎么变，特征自然也不会变。&lt;/p&gt;&#xA;&lt;p&gt;测试集的高速公路和城市直行占了绝大多数时间，&amp;ldquo;场景几乎静止&amp;quot;的 chunk 占了绝大多数，对应的余弦相似度自然集中在 1.0。&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;这个现象反过来印证了 X-Cache 的核心前提：驾驶世界模型的跨 chunk 冗余极高，不是&amp;quot;大概差不多&amp;rdquo;，而是&amp;quot;大多数情况下特征根本就没变&amp;quot;。&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;h3 id=&#34;q2chunk-是什么&#34;&gt;Q2：Chunk 是什么？&#xA;&lt;/h3&gt;&lt;p&gt;Chunk 就是&lt;strong&gt;世界模型每次生成的一小段视频片段&lt;/strong&gt;。&lt;/p&gt;&#xA;&lt;p&gt;世界模型不是一口气把整段视频全生成出来的，而是像说话一样&lt;strong&gt;一段一段往外&amp;quot;吐&amp;quot;&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;chunk 1 → chunk 2 → chunk 3 → chunk 4 → ...&#xA;&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;每个 chunk 包含若干帧画面，生成完后交给决策模块，决策模块根据画面决定下一步动作（转向、油门），再把动作传回来，生成下一个 chunk。&lt;/p&gt;&#xA;&lt;p&gt;这就是&lt;strong&gt;闭环交互&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;生成 chunk n → 决策系统观察 → 发出动作 → 生成 chunk n+1 → ...&#xA;&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;每个 chunk 内部还有去噪过程：&lt;/p&gt;&#xA;&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;噪声 →[t=0]→[t=1]→[t=2]→[t=3]→ 清晰画面&#xA;&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;所以论文里有两个嵌套的循环：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;外层&lt;/strong&gt;：chunk n → chunk n+1 → &amp;hellip;（自回归生成）← X-Cache 利用这个轴的冗余&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;内层&lt;/strong&gt;：去噪步骤 t=0 → t=1 → t=2 → t=3（扩散去噪）← 旧方法盯着这个轴，但 4 步去噪里几乎没有冗余&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-局限性诚实的声明&#34;&gt;🚧 局限性：诚实的声明&#xA;&lt;/h2&gt;&lt;p&gt;论文非常诚实地列出了边界条件：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;所有测试只在 22 秒以内的片段、X-World 训练分布内的场景上做过——夜间、暴雨、激进驾驶、长时间高速巡航等场景&lt;strong&gt;尚未验证&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;超参数是针对单个 held-out 片段调的，选择的是&amp;quot;安全而非激进&amp;quot;的配置，当前 PSNR 约 53 dB、SSIM&amp;gt;0.999 实际上有相当余量&lt;/li&gt;&#xA;&lt;li&gt;Pareto 前沿尚未探索，降低 τ_floor、放松 τ_dev、减少前锚等操作&lt;strong&gt;可以换取更高跳过率&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;-结论与思考&#34;&gt;📝 结论与思考&#xA;&lt;/h2&gt;&lt;p&gt;X-Cache 的创新点在于找到了一个&lt;strong&gt;与现有方法正交、互补&lt;/strong&gt;的冗余维度：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;现有方法：跨去噪步骤缓存（适用于多步扩散）&lt;/li&gt;&#xA;&lt;li&gt;X-Cache：跨生成片段缓存（适用于少步蒸馏后的模型）&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;两个轴可以叠加使用，而不是竞争关系。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;关键启示&lt;/strong&gt;：&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;工程优化要从数据本身的特性出发——物理世界连续性是真正可靠的冗余来源&lt;/li&gt;&#xA;&lt;li&gt;安全机制要分层设计——KV 更新帧保护是硬性要求，其他是软性安全边际&lt;/li&gt;&#xA;&lt;li&gt;自适应机制让系统在不同场景下自动调节行为，减少人工调参负担&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;p&gt;这是一篇来自工业界、非常接地气的系统优化工作：&lt;strong&gt;发现了一个被学术界忽略的新冗余维度，用一套精心设计的安全机制把它安全地用起来，在真实生产系统上拿到了 2.6 倍的加速&lt;/strong&gt;。&lt;/p&gt;&#xA;</description>
        </item></channel>
</rss>
