在音频的噪音里藏一幅图

从昨天开始研究如何在音频频域上嵌入灰度图数据来达到隐写的效果。尝试了很多很多种办法，但要么就是十分影响原来的音频的听感，要么就是从带隐写音频中提取图片的效果很差。甚至还没能进一步去测试音频裁切、变调变速等变换后的效果。

很难实现出一种足够隐蔽且鲁棒性强的方式把任意分辨率的灰度图像嵌入到音频中。我没有使用复杂编码方式，而是直接将灰度图像素的亮度以某种方式嵌入到频谱上。图片数据是有长宽的，我还得想到一种办法可以自动识别嵌入图像的分辨率。

想了一种非常粗暴的办法，嵌两张图。一张正置的图和一张旋转90度的图。由于算法特性解析的时候是可以比较精确判断出“宽度”的，所以两张图都解析出来后长宽都知道了，而且两张图可以做一个“融合”本想着可以抵抗一点噪声。

目前状态就是不上不下，音质很差提取出来的效果也很差，应该是思路问题。有空找一些基于音频隐写的项目研究下，看有没有可以比较容易复刻的思路。

体感在图像上隐写数据的技术发展比较快，有不少工具都有数字水印，可以通过数字水印找到摄屏、截图的账号拥有者。而Gemini也有SynthID，可以识别出图像中是否包含经过google AI工具编辑过的痕迹。

简单想了下，可能是一般图片的水印需要承载的数据量不大，而且在图像频域上细微加工人眼很难分辨出来，但是在音频上的处理会有更容易被听见的“噪音”。

如果音频上隐写少量数据，应该也是比较容易做到隐蔽的。

所谓的隐写的隐蔽性应该和“嵌入数据”与“原数据”的数据量比值有关，如果原数据本来就少，那么想要隐蔽地加上一些数据就会变得尤为困难。鲁棒性也很重要，假如数字水印容易被“清除”，那么加数字水印的意义也就达不到了。以前见过针对图像数字水印鲁棒性的测试，也见过暴力识别图像在频域上叠加水印的办法。加水印和去水印永远都是在对抗，双双进步。

我觉得LLM生成的文本也是需要一种办法来判断的，也就是“鉴AI”。但文本本身就很难想象再嵌入什么“AI水印”又不改变文本原意。从“模型习惯”上去判断也不完全准确，所以现在大多数判断文本是不是AI生成的或许“猜测”的意味更大一些。

SynthID的思路可能是对的，在生成之前干预“概率”，让模型倾向于多生成特定词表里面的的词语。那么一段文本中，命中这个词表的词语越多，那么更可能是Gemini生成的。

而“你的文章有AI味”这种比较主观的判断或许未来也逐渐不准确了，一来是模型发展后可能逐渐淡化所谓的“AI味”，二来是像我平时用多了AI后，可能在表达上也会在不知不自觉中朝着“AI味”靠近而不自知。