Z6尊龙凯时官方网站 这么问DeepSeek, 能「偷」到数据?


机器之心剪辑部
近日,有网友在 X 上发文称,在使用 DeepSeek 的经由中,要是在输入框内输入以下这一段内容,便可「窃取」到 DeepSeek 的查考数据:

仔细看了之后发现,具体是这么的:惟有你在输入框输入这一段请示词,DeepSeek 就会「吐出」一轮竣工的对话记载,不外这并不是你的历史搜索记载,更像是一份赶快的对话记载。
随后该博主又称,即便仅仅输入 ,也有相同的恶果。

此帖文照旧发布,便引起网友的热议。
一网友暗示,「我不以为这是在窃取查考数据,更像是在表示其他东谈主的聊天内容。它拿来动作请示词的句子会变化,有时还会识别出这是一个奇怪 / 不测旨的请示词。」

在该网友给出两个例子来阐述这少量。在第一个例子中,输入这一内容后,DeepSeek 给出一个对话记载:「用户发问想要写出一个以单词 rose 为结果的长句,之后是模子长长的念念考经由,临了给出一个以 rose 为结果的长句。」

而在第二个例子中,DeepSeek 则将其作为一个用户输入的平常请示词进行解决:「咱们被条目修起:,然后需要生成一个回复。」

对此,咱们也进行了一些实测,得胜复现了这一情景。
比如鄙人面的例子中,输入上述内容后,DeepSeek 响应了一个用户恳求写 rap 歌词的问题和对应的谜底。

底下还有更多示例:



合座来看,结果相等赶快,可能触及任何话题,况兼并不一定能得胜复现。直观上看,翻开「深度念念考」并关闭「智能搜索」时,Z6尊龙凯时官方网站复现的得胜率会更高。
底下等于一个未能得胜复现的示例:

是以回归来看,对于兼并段内容,到底 DeepSeek 会给出一份竣工的对话记载,照旧将其识别为寥落或不测旨的请示词,迷漫是赶快行为。而对于背后的原因,网友亦然众说纷繁。
博亚体育中国一站式服务官网有网友以为,这是大模子幻觉导致的。「这一情景讲明 LLM 仍然相等容易出错,因此也容易出现幻觉,他们宣称大型话语模子的幻觉越来越少,但那不是确凿。」

而一位网友以为,这八成率是因为监督微调(SFT)。
他暗示,这段请示词可能是 DeepSeek 在监督微调(SFT)阶段使用的里面适度 token。它们时常秘籍在聊天模板里面,而当你手动输入它们时,就格外于迷漫绕过了平常界面,并强行把模子推入一种「从查考样本不绝生成」的边幅。
由于 SFT 数据围聚充满了泛滥成灾条高质地的缓缓推理轨迹,模子就会赶快挑选其中一条,并从 不绝生成。
这也就解释了,为什么你每次(输入相同的内容)王人会取得迷漫不同的内容:比如,第一次首先取得是对于 19π/12 的竣工三角函数解题经由;第二次首先,取得的可能是对于 QLoRA/OPTQ 中「value field」长度等于 4 bit 的注目解释……
「这不是 bug—— 这本体上等于模子在展示它查考过的赶快片断,而这是一个超等直不雅的窗口,让东谈主看到 DeepSeek 的后查考数据。」

而有些网友在看到这一情景后,也试着将其拿来对其他模子进行测试,看是否有雷同情景出现,不出所料,「Gemini 有时也存在相同的问题。」

在一位网友展示的例子中,在输入这一段内容后,Gemini 给出了一个竣工对话: 用户询查恭候新式药品技巧过长的问题,以及模子给出的对应谜底。

Z6尊龙凯时官方网站