ViWANT
16 4 月 2026, 周四

AI生成黄图为何屡禁不止?

去年夏天,一位做内容审核的朋友跟我吐槽,说他们团队刚上线一套AI鉴黄系统,第二天就被用户用"提示词越狱"轻松绕过。他苦笑着说:"我们封一个漏洞,他们造三个新词,这仗根本打不完。"这大概是理解当前AI色情内容治理困境最生动的注脚。

技术层面的"猫鼠游戏"

生成式AI的底层逻辑决定了防御的天然被动性。大模型本质上是在概率分布中采样,训练数据里但凡夹杂了0.01%的敏感素材,就可能被特定的提示词组合"激活"。更棘手的是对抗性攻击——用户发现把"裸体"替换成"穿着透明丝绸的古典雕塑",或者把请求拆成三段藏进角色扮演剧本里,过滤机制就像被施了催眠术。

xAI给Grok加的"实时监控"和"提示词过滤",行业里的人一听就知道软肋在哪。规则-based的系统永远滞后于人类的语言创造力,而基于语义理解的分类器又面临误杀正常内容的代价。一位斯坦福AI安全研究员做过测算:把过滤阈值调到能拦截95%的色情生成,同时会误伤约12%的合法医疗、艺术或教育类请求。平台敢不敢承受这个代价?

利益结构的深层扭曲

苹果能威胁下架,是因为握着App Store的入口。但X平台本身呢?马斯克把Grok深度嵌入社交生态,用户每生成一张图、每一次传播,都是停留时长和广告曝光的燃料。NBC调查发现Grok"照样能生成",这与其说是技术失败,不如说是商业算计——彻底锁死会流失用户,睁一只眼闭一只眼则流量与争议兼得。

更值得玩味的是责任分散的迷宫。xAI说"我们禁止非自愿深度伪造",把锅甩给用户违规;苹果说"再犯就下架",把治理成本转嫁给开发者;而监管层面,美国Section 230条款给平台罩着免责盾牌,欧盟《人工智能法》的色情相关条款则要2026年才全面生效。每个人都在表态,鲜有人真正买单。

一个被回避的硬核问题

现有方案几乎全盯着"生成后拦截",却少有人敢碰"训练前清洗"。彻底剔除模型能力意味着重新预训练,数十亿美元成本和数月的性能损失,没有商业实体自愿承担。OpenAI前首席科学家Ilya Sutskever曾私下表示,"对齐"(alignment)的真正难点不在于技术,而在于"谁为安全买单"的博弈。

这场攻防战没有大结局,因为它从来不是单纯的技术问题。当生成一张以假乱真的图片只需0.3秒,而追溯、举报、下架的链条需要数小时甚至数天,时间本身就成了作恶者的盟友。苹果的下架威胁是柄悬顶之剑,但剑落下之前,伤害早已完成。