ViWANT

DJI悄悄发了款“糖果色”麦克风，便宜到哭

4500美元起！华硕双屏“巨兽”ROG Zephyrus Duo回归

一键扩背景、改构图，iOS 27的AI修图功能大曝光

NVIDIA笔记本5070突然多了12GB版！但先别急着冲……

2025年美国人因社交被骗21亿美元！Meta被指“帮凶”

摩托罗拉刚出折叠屏，苹果就来砸场子了？

这个耳环能测血流、换电池！全球最小的可穿戴设备

天花板直接变成显示屏？这款灯把我看傻了

比Mini香、比Flip野！大疆Lito评测：最值的入门无人机，没有之一

中国超跑反向输出？比亚迪千匹敞篷猛兽，不先卖国内，直捣欧洲！

三星智能眼镜真机泄露！代号“Jinju”，起步价不到2800元？

狂飙221mph！福特电动野马6.87秒炸完四分之一英里，刚破纪录却传来尴尬消息……

10200mAh巨无霸+装甲抗摔！vivo Y600 Pro发布：这续航够狠

无风扇静音神机来了！Intel Wildcat Lake 轻薄本首曝，直挑 MacBook Neo

PS5又涨价了！索尼官宣5月1日起港台地区全面调价，玩家钱包瑟瑟发抖

20亿美金买不来AI主权！Meta吞下Manus的美梦彻底破碎

从钛到铝是升级还是降级？iPhone 17 Pro Max 强度引担忧

MOVA全球首创技术获批国家专利！16cm极致外扩超级机械臂重构清洁边界

2026北京车展：魏牌V9X首发 1700km续航+6C超充+四排大屏

2026北京车展惊现“变形金刚”！广汽全新品牌MONTX放大招

2026北京车展：长安杀入无人物流！凯程Robovan首秀

奔驰开大！纯电GLC长轴全球首发，S级中期改款中国亮相

特斯拉Cybercab终于投产！马斯克却泼冷水：别急，产量“龟速”起步

《最终幻想14》上Switch 2了？想随身玩，得掏两份月卡

明年是iPhone手机20周年新任CEO到底如何设计？

进化·跨界·出海——2026中国Ai机器人产业领袖峰会暨第六届清洁电器产业升级与评测峰会圆满落幕

舒适、健康、省电全是行业标杆！海尔空调大理首发6大新品

海信大薄荷509 E5S冰箱亮相陈靖可解锁世界杯看球新搭档

纯电跑90公里，漂移还能上大屏？2027款RS5的快乐，老车主根本想象不到

等了这么久，森海塞尔终于把HD 480 Pro端出来了！

29 4 月 2026, 周三

生成式AI扩图技术原理揭秘

4 月 29, 2026

看着一张构图局促的照片，边缘被硬生生切断，谁心里不觉得遗憾？苹果即将在iOS 27里塞进的那个“Extend”功能，说白了就是要把这堵墙给推倒。不过，比起单纯感慨“AI真牛”，咱们更该扒开表象看看：这凭空多出来的几十像素，到底是怎么从无到有冒出来的？

潜空间里的“像素炼金术”

扩图（Outpainting）的底层引擎，依然是当下统治视觉生成领域的扩散模型（Diffusion Models）。但和从纯噪声起步的全量生成不同，扩图是个戴着镣铐跳舞的活儿。模型拿到原图后，会先把它编码压缩到潜空间（Latent Space）——一个比像素维度低得多、只保留核心特征的数学矩阵。扩图区域在潜空间里初始全是随机噪声，去噪过程必须严格受原图潜特征的约束。这就像让模型照着半截画卷，把剩下的部分补齐，笔触和墨色绝不能跑偏。

上下文感知：不止是拼图游戏

如果只是把边缘纹理往外涂抹，那出来的只是一堆毫无意义的色块重复。真正的难点在于语义连贯性（Semantic Coherence）。当前主流架构极度依赖自注意力机制（Self-Attention）。当模型计算扩图区域的每个像素时，它的目光必须时刻锚定在原图已知区域上。原图边缘是一只伸出的手，注意力机制就会强制扩图区域去寻找“手臂”或“袖口”的特征向量，而不是凭空画个垃圾桶。给一张只有半截咖啡杯的照片，AI能顺着杯沿的弧度，补齐下半截，甚至凭空在桌面上渲染出散落的咖啡豆和光影。

边界处的暗战

其实，最容易翻车的地方恰恰是新老像素的交界处。色差、结构断裂、甚至突然冒出个半截鬼影，都是边界融合没处理好。为了抹平这种缝隙，技术端通常会引入掩码渐变（Mask Gradient衰减）策略，让已知区域的约束力向未知区域平滑过渡，而不是一刀切。同时，像CLIP这样的视觉-语言模型会从旁督战，确保扩出来的内容在宏观逻辑上不违背常识——你不可能在海滩照片边缘扩出一座雪山。

从被裁切的遗憾，到边界的无限延伸，生成式扩图把摄影的定格瞬间重新变成了开放的画布。下次当你一键把那张局促的合影拉宽时，背后潜空间里那场关于噪声与特征的激烈博弈，早就悄无声息地打完了。