论文笔记--DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature

1. 文章简介2. 文章概括3 文章重点技术3.1 Perturbation Discrepancy Gap(PDG) Hypothesis3.2 DetectGPT

4. 文章亮点5. 原文传送门6. References

1. 文章简介

标题:DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature作者:Eric Mitchell, Yoonho Lee, Alexander Khazatsky, Christopher D. Manning, Chelsea Finn日期:2023期刊:arxiv preprint

2. 文章概括

  文章提出了一种检测语料是否为LLM生成的无监督方法“DetectGPT”,该方法属于一种基于LLM的log-proba进行分析的白盒方法,无需提供额外标注数据、无需重新训练模型,就可以得出结论。   文章整体框架如下

3 文章重点技术

3.1 Perturbation Discrepancy Gap(PDG) Hypothesis

  DetectGPT基于PDG假设,通俗来说就是:给定一条模型生成的文本段,对该文本进行轻微的扰动(尽量不改变语义且保持文本的通顺度),模型对加了干扰的文本倾向于给出更高的分数,即模型生成的文本呈负曲率曲线(下图左);另一方面,给定一条人类自己写的文本段,对该文本作轻微的扰动之后,模型对干扰后的文本和原文本的打分无明显倾向,即干扰后的文本可能得到更高分或更低分(下图右)。

3.2 DetectGPT

  基于上述假设,文章给出了一种判定文本是否为LLM生成的方法。给定文本段

x

x

x,对它进行轻微的扰动

q

(

x

)

q(\cdot|x)

q(⋅∣x)得到

x

~

i

,

i

=

1

,

,

k

\tilde{x}_i, i=1, \dots, k

x~i​,i=1,…,k(可以人工修改也可以通过基于掩码的模型自动生成扰动),定义扰动差异(perturbation discrepancy,PD)如下:

d

(

x

,

p

θ

,

q

)

:

=

log

p

θ

(

x

)

E

x

~

q

(

x

)

log

p

θ

(

x

~

)

d(x, p_{\theta}, q) := \log p_{\theta} (x) - \mathbb{E}_{\tilde{x} \sim q(\cdot|x)} \log p_\theta (\tilde{x})

d(x,pθ​,q):=logpθ​(x)−Ex~∼q(⋅∣x)​logpθ​(x~).基于上述PDG假设,模型对机器生成的文本扰动更敏感,即机器生成的

x

x

x的PD更大,人类手写的

x

x

x的PD更小。从而我们可以通过设置PD的阈值来区分文本是否由机器产生。   具体实验如下:

人类生成的数据:文章采用500条XSum的新闻作为真实的人类生产的数据模型生成的数据:文章采用上述新闻每条前30个token作为prompt,输入LLM中得到模型生成的文本段。扰动生成:为了批量生成扰动,文章选择采用基于掩码的T5模型[1]来生成扰动,即随机替换原是文本中的token为[MASK],然后用T5模型预测掩码位置的token。基于该方法对上述人类、机器生成的每条数据分别增加

k

=

100

k=100

k=100个扰动。   按照上述方法,文章得到两组数据的PD分布如下,可以明显看到,人类生成数据的PD值更小,机器生成的PD值更大。二者可通过选择PD阈值

0.1

0.1

0.1进行区分。

4. 文章亮点

  文章提出了DetectGPT,无需重新训练模型,只需提供待检测模型的log-proba,即可预测文本是否为该模型产生。

5. 原文传送门

DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature

6. References

[1] 论文笔记–Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

好文链接

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: