看着一张构图局促的照片,边缘被硬生生切断,谁心里不觉得遗憾?苹果即将在iOS 27里塞进的那个“Extend”功能,说白了就是要把这堵墙给推倒。不过,比起单纯感慨“AI真牛”,咱们更该扒开表象看看:这凭空多出来的几十像素,到底是怎么从无到有冒出来的?
潜空间里的“像素炼金术”
扩图(Outpainting)的底层引擎,依然是当下统治视觉生成领域的扩散模型(Diffusion Models)。但和从纯噪声起步的全量生成不同,扩图是个戴着镣铐跳舞的活儿。模型拿到原图后,会先把它编码压缩到潜空间(Latent Space)——一个比像素维度低得多、只保留核心特征的数学矩阵。扩图区域在潜空间里初始全是随机噪声,去噪过程必须严格受原图潜特征的约束。这就像让模型照着半截画卷,把剩下的部分补齐,笔触和墨色绝不能跑偏。
上下文感知:不止是拼图游戏
如果只是把边缘纹理往外涂抹,那出来的只是一堆毫无意义的色块重复。真正的难点在于语义连贯性(Semantic Coherence)。当前主流架构极度依赖自注意力机制(Self-Attention)。当模型计算扩图区域的每个像素时,它的目光必须时刻锚定在原图已知区域上。原图边缘是一只伸出的手,注意力机制就会强制扩图区域去寻找“手臂”或“袖口”的特征向量,而不是凭空画个垃圾桶。给一张只有半截咖啡杯的照片,AI能顺着杯沿的弧度,补齐下半截,甚至凭空在桌面上渲染出散落的咖啡豆和光影。
边界处的暗战
其实,最容易翻车的地方恰恰是新老像素的交界处。色差、结构断裂、甚至突然冒出个半截鬼影,都是边界融合没处理好。为了抹平这种缝隙,技术端通常会引入掩码渐变(Mask Gradient衰减)策略,让已知区域的约束力向未知区域平滑过渡,而不是一刀切。同时,像CLIP这样的视觉-语言模型会从旁督战,确保扩出来的内容在宏观逻辑上不违背常识——你不可能在海滩照片边缘扩出一座雪山。
从被裁切的遗憾,到边界的无限延伸,生成式扩图把摄影的定格瞬间重新变成了开放的画布。下次当你一键把那张局促的合影拉宽时,背后潜空间里那场关于噪声与特征的激烈博弈,早就悄无声息地打完了。
