出处:Information Processing and Management 58 (2021) 102681 —— SCI 1区

标题:

Fine-grained depression analysis based on Chinese micro-blog reviews

基于中文微博评论的细粒度抑郁分析

摘要:

抑郁症是现代社会一个普遍而棘手的问题,它可能导致自杀的想法和行为。近年来,以Twitter或Reddit等社交媒体的帖子为基础,分析抑郁症或自杀的研究取得了很大进展。然而,大多数研究都集中在英语社交媒体上,且抑郁预测通常被形式化为存在或不存在。在本文中,我们构建了一个基于中文微博评论的人工标注数据集,该数据集包含6100条人工标注的微博。我们的数据集包括两个细粒度的任务,即抑郁程度预测和抑郁原因预测。前一项任务的目标是根据微博帖子的抑郁程度从5个类别中选择一个类别,后一项任务的目标是从预定义的7个类别中选择一个或多个导致抑郁的原因。为了建立一个基准,我们设计了一个联合预测抑郁程度和抑郁原因的神经模型,并与TextCNN、BiLSTM和BERT等几种广泛使用的神经模型进行了比较。我们的模型优于基线,在抑郁程度预测上最多达到65+% F1,在抑郁原因预测上最多达到70+% F1和90+% AUC,这表明神经模型取得了令人满意的结果,但仍有改进的空间。我们的工作可以扩展基于社交媒体的抑郁症分析领域,我们的标记数据和代码也可以促进相关研究。

1. 引言:

抑郁症是现代社会普遍存在的一种常见的精神障碍。在全球范围内,超过2.64亿各年龄段的人患有抑郁症(James et al, 2018)。众所周知,抑郁症可能导致自杀,每年导致近80万人死亡。根据世界卫生组织的报告,自杀成为15至29岁人群的第二大死亡原因。因此,抑郁症检测可以识别出已经或将要产生自杀想法的人,从而及时预防自杀。

Saravia, Chang, De Lorenzo, and Chen(2016)提到患有抑郁症的人通常在主观上或客观上是孤独的,因此他们经常利用社交媒体作为平台来分享他们的感受和发泄他们的情绪。因此,社交媒体成为研究者研究抑郁症的热点资源(Hawton, 1987;Joiner Jr, Walker, Rudd, & Jobes, 1999),自然语言处理(NLP)成为基于社交媒体的抑郁症研究的重要技术。

目前已经提出了几种基于社交媒体的抑郁症分析NLP方法,包括传统的机器学习方法和深度学习方法。然而,之前的大多数工作只将抑郁分析任务视为双向分类问题 (例如,抑郁和非抑郁)。相比之下,我们的工作对抑郁症进行了更细致的分析。此外,之前的大部分工作都集中在使用英语社交媒体文本(如Twitter, Reddit或Facebook)进行抑郁分析,而我们的工作利用了新浪微博,这些微博是用中文写的。

具体来说,我们使用了新浪微博上的“树洞”评论,很多不开心或者抑郁的人会在“树洞”里发表评论,表达自己的感受和想法。在本文中,我们引入了一个人工注释的中文微博数据集,该数据集由6100条微博评论组成,这些评论由心理学和医学专业的研究生和教授注释。在我们的数据集中,抑郁分析被形式化为两个细粒度的任务,即抑郁程度预测和抑郁原因预测。抑郁程度预测是一种五向分类任务,将微博评论分为以下五类:无、轻微、中度、严重或非常严重。对于抑郁原因预测,我们将其视为一个多标签分类任务(Fei, Ji, Zhang and Ren, 2020;Fei, Zhang, Ren and Ji, 2020),从生理、工作与学习、爱情、家庭、人际关系、其他和无中选择一个或多个原因标签(抑郁程度和抑郁原因预测的类别定义细节请参见3.1节)。为了给我们的数据建立一个基准,我们设计了一个联合预测抑郁程度和抑郁原因的可解释模型。首先,使用BERT (Devlin, Chang, Lee, & Toutanova, 2019)来生成单词表示。然后采用标签感知注意力层(Mullenbach, Wiegreffe, Duke, Sun, & Eisenstein, 2018),通过识别输入的哪一部分对预测贡献更大,使我们的模型具有可解释性。最后,在输出层使用多任务学习(Caruana, 1997)来联合训练我们的抑郁程度和原因预测模型。

实验评估表明,我们的模型优于TextCNN (Kim, 2014)、BiLSTM (Liu, Qiu, & Huang, 2016)和BERT (Devlin et al ., 2019)等几种广泛使用的神经模型,在抑郁程度预测上达到65+% F1,在抑郁原因预测上达到70+% F1和90+% AUC。进一步的统计分析表明,抑郁程度与抑郁原因标签之间存在很强的相关性,并且我们的模型的一些预测是可以解释的。

目标:

我们的研究目标主要包括以下两个方面。首先,我们旨在研究基于中国社交媒体的细粒度抑郁分析。对于抑郁分析,以往的工作主要集中在英语社交媒体数据上,并进行二元抑郁检测(Coppersmith et al ., 2015;Resnik et al, 2015;Wolohan et al, 2018)。随着近年来对抑郁分析任务研究的不断深入,细粒度的抑郁分析任务越来越受到研究者的关注(Shing et al ., 2018;Zirikly等人,2019)。与检测是否抑郁症的简单二分法不同,抑郁症被分为多种程度,如无、低、中、高。不同的是,我们的抑郁分析工作包括两个细粒度的任务。一是细粒度抑郁程度分级,二是抑郁原因分析。抑郁程度分类是一个五类分类任务,其中抑郁程度又细分为无、轻度、中度、重度和极重度。抑郁原因分析是一个多标签分类任务,对于给定的评论有一个或多个抑郁原因。据我们所知,我们的工作是第一个对抑郁程度和抑郁原因进行细致分析的研究。

其次,我们的目标是为那些使用计算机技术分析抑郁症的人提供资源和方法。随着机器学习和深度学习模型的发展,越来越多优秀的深度学习模型在抑郁分析任务中表现出色,如CNN和RNN。众所周知,BERT预训练模型(Devlin等人,2019)在广泛的NLP任务中取得了最先进的结果,但BERT预训练模型在抑郁分析任务中的应用很少。因此,我们构建了一个相关的专家标注数据集,并提出了一个基于BERT预训练模型的基准模型。

贡献:

综上所述,本文的贡献如下:

我们引入了一个基于中文社交媒体的人工标记数据集,用于细粒度抑郁分析,这与以往主要关注二元抑郁程度预测和英语社交媒体的相关研究不同。我们的数据集对社会学和卫生保健具有现实意义。我们提出了一种新的抑郁程度和抑郁原因联合预测模型,该模型优于几种强基线,同时具有一定的可解释性。我们对我们的数据集进行了详细的分析,包括抑郁程度与抑郁原因之间的标签相关性、标签分布等。这些发现可以促进抑郁症早期检测技术的发展。我们的代码公开供研究之用,这项工作中的数据可应要求提供。

2. 相关工作

众所周知,社交媒体的使用有助于检测抑郁症。基于社交媒体上的用户活动,研究人员可以获取抑郁症患者的行动、行为和思维信息(Aldarwish & Ahmad, 2017)。社交媒体具有人口覆盖率大、调查成本低、信息更新实时等优势(Braithwaite, Giraud-Carrier, West, Barnes, & Hanson, 2016)。例如,Jashinsky et al(2014)提出了一种搜索与抑郁和自杀风险因素相关的术语和短语的方法,以找到潜在的与自杀相关的Twitter用户。在他们的工作中,可以观察到Twitter衍生的自杀数据与实际自杀数据之间存在很强的相关性,这表明Twitter可能是实时监控自杀倾向的可行来源。

NLP技术在许多领域都取得了成功,并且越来越多地用于健康和医疗领域的数据驱动研究。为了研究识别Twitter上患有抑郁症和创伤后应激障碍(PTSD)的用户的NLP方法,计算语言学和临床心理学研讨会(CLPsych)引入了一项共享任务(Coppersmith等人,2015年),参与者在大约1800名Twitter用户上评估了他们的方法。Resnik等人(2015)在语言信号分析中探索了监督话题模型,用于检测抑郁和非抑郁个体。Wolohan等人(2018)将两个支持向量机(svm)与TF-IDF和其他语言特征结合起来,为那些对公众污名敏感的Reddit用户检测抑郁症。Aragón等人(2019)提出了一种称为亚情绪袋(BoSE)的方法,该方法通过一组细粒度的情绪来表示社交媒体文本,他们使用SVM进行二元文本分类,用于抑郁症检测。据我们所知,上述研究仅将抑郁检测作为抑郁与非抑郁的分类问题,没有考虑到细粒度的抑郁程度。据我们所知,上述研究仅将抑郁检测视为抑郁与非抑郁的二分类问题,没有考虑到细粒度的抑郁程度。

随着深度学习的发展,越来越多的深度神经网络模型被应用于抑郁症分析或自杀风险评估。一项共享任务(Zirikly et al , 2019)引入了自杀风险的多层次评估,将自杀风险分为无风险、低风险、中等风险和严重风险4个级别。卷积神经网络(CNNs)等一些神经模型已被用于抑郁或自杀风险检测(Shing等人,2018;Yates et al, 2017)。Matero等人(2019)使用递归神经网络(RNNs)和预训练语言模型(如BERT) (Devlin等人,2019),提取情境化嵌入特征和其他用户相关特征,如人格,用于自杀风险评估任务。他们的研究侧重于用户层面的分析,而我们的工作侧重于博文层面的分析。与Cao等人 (2019)和Matero等人(2019)类似,他们也采用了RNN对文本进行编码,但他们专注于使用中国微博评论进行自杀风险预测。具体来说,他们使用树洞评论来预训练面向自杀的词嵌入,并将其应用于非树洞评论的二元自杀风险分类。相反,我们直接利用树洞评论,通过细粒度分析检测抑郁症。

据我们所知,与抑郁症病因分析相关的研究很少。Yusof、Lin和Guerin (2017)声称,他们是第一个使用自然语言处理技术自动识别抑郁症病因的人。然而,他们专注于发现特定人群(如学生或家庭主妇)患抑郁症的潜在原因。相比之下,我们的工作重点是分析个人抑郁的原因。此外,以前的大多数工作都将抑郁预测视为双向或多向分类,没有研究探讨联合预测抑郁程度和抑郁原因的问题。我们的研究是第一个使用中文微博帖子,不仅可以预测抑郁程度,还能分析抑郁原因的工作。

从方法论的角度来看,我们的工作涉及三条技术线。首先,我们利用情境化的词嵌入,从预先训练的深度语言模型(如BERT)中对我们的数据进行微调,这在许多NLP应用中都被证明是成功的。其次,我们还使用了标签感知注意机制来提高我们模型的可解释性,以便更好地分析文本中抑郁程度和原因预测的证据。第三,我们通过多任务学习技术,在抑郁程度和抑郁原因预测任务上联合训练我们的模型。通过分析抑郁程度和抑郁原因的黄金注释,我们发现这两项任务之间存在很强的相关性。因此,我们认为利用多任务学习有利于提高性能,这在我们的实验中得到了验证。具体而言,我们利用广泛使用的共享-私有架构进行神经多任务学习和文本分类。

3. 数据集构建

2012年3月17日,一名网名为“走饭”的中国学生在新浪微博上留下了最后一条微博,然后自杀了。这一事件引起了公众的广泛关注,许多人来到这个帖子并评论它。这条帖子已经成为新浪微博上最大的树洞,到目前为止,新浪微博上的相关评论总数已经超过160万条,每天都有2000多条新评论。这意味着每天大约有500-600人评论这篇文章,其中许多人表达了抑郁、自杀意念甚至自杀准备。在心理学研究中,学者们把这样的帖子称为“树洞”,人们在这里释放自己的情绪,交流自己的想法。通过对树洞大量微博评论的研究,我们可以分析微博用户的抑郁程度和抑郁原因,从而为有自杀倾向或有自杀计划的特定人群提供人道主义援助。在本节中,我们详细介绍了用于抑郁症分析的中文微博数据集,包括任务定义,数据收集,注释,伦理考虑,数据分析等。

3.1 任务定义

基于树洞评论,我们从抑郁程度和抑郁原因两个方面分析了用户的抑郁情绪。抑郁程度分析任务可以形式化为单类别的分类任务。该任务的输入是树洞评论,输出是代表抑郁程度的5个类别之一,即无、轻度、中度、重度、非常严重,分别代表非抑郁、轻度抑郁并有短期心理痛苦、抑郁并有长期心理痛苦但没有自杀意念、抑郁且有自杀意念、抑郁症和有自杀计划。具体情况如表1所示。

表1:抑郁程度的定义。抑郁症的诊断标准参考《精神障碍诊断与统计手册》(Association, 2013)(见附录A),不同抑郁程度的例子见附录B。

对于抑郁原因预测任务,我们设计了5个类别,如表2所示,涵盖常见的抑郁原因,包括生理、工作与学习、爱情、家庭、人际关系以及2个特殊类别“其他”和“无"。“其他”代表抑郁原因不属于5类或评论中未提及。“无”表示评论中没有抑郁原因,因为用户没有表达任何抑郁。由于用户的评论可能有多种抑郁原因,因此抑郁原因预测任务可以被视为多标签分类任务。

表2:抑郁症病因的定义。我们参考了Durand和Barlow (Barlow & Durand, 2012)提出的标准来设计抑郁症病因。IR的意思是人际关系。要查看与每个原因相关的示例,请参见附录B。

3.2 数据收集

从2012年3月19日到2019年6月9日,我们爬取了“走饭”的1414505条评论。除了评论的文本,每个数据实例还包括用户的帐户信息、评论的日期等。对于数据清理,我们执行以下步骤来删除评论中不需要的信息。在数据清理之后,我们获得了1,360,256条人工注释的评论。图1显示了数据收集和标注的整体过程。

图1:数据收集和注释过程

3.2.1 用户账号信息

虽然用户的账号信息和评论日期有助于有效的网络监控和准确的救援,但是我们在抑郁分析阶段不需要这些信息。因此,我们删除了这些信息,只保留了评论文本。

3.2.2 图片和表情符号

虽然图片和表情符号已被证明对情感分析有用(Lou, Zhang, Li, Qian, & Ji, 2020),但在当前阶段,我们只使用文本,将多模态抑郁分析留给未来的工作。因此,所有的图片和表情符号都被删除了。

3.2.3 其他语言字符

由于我们的目的是分析中文的树洞评论,我们删除了评论中的非中文字符,只保留中文评论。

3.2.4 标点符号,空白字符和停止词

我们删除了标点和空白字符,如空格、换行、制表符等。此外,我们内部停止词列表中列出的单词也被删除。请参阅附录C,以了解我们的停止词列表的详细信息。

3.3 标注

在标注方面,由2名心理学专家和6名心理学研究生组成注释小组。其中,6名学生作为注释者对每条微博评论进行标注,两名专家担任组长,设计注释指南,并对学生的注释进行审核。

我们的注释组根据抑郁症的权威诊断标准(Association, 2013)和抑郁原因(Barlow & Durand, 2012)设计了注释指南。他们考虑了文本类型、抑郁症状和许多其他因素,进而得出抑郁程度和抑郁原因的标签。

为了保证较高的一致性,采用背靠背标注方法。具体来说,这6名学生被分为3组。每条评语应由两名学生同时批注。对于标注标签不一致的评语,注释组将进行讨论,由两名心理专家做出最终决定。对于两位专家也有不同意见的评论,我们不予考虑。学生完成工作后,心理专家会对所有标注的数据进行审核,修改错误,并对数据进行统计分析。在注释过程中,我们一共注释了8000条注释。丢弃有争议的评论后,还剩下6100条评论。因此,注释者之间的一致性得分可以认为是100%。

3.4 伦理考虑

虽然这些数据在新浪微博上是公开的,但我们仍然将其视为敏感数据,可能包含个人信息泄露的风险。因此,我们执行以下步骤来消除这种风险。

(1)我们的研究已经通过了武汉大学机构审查委员会(IRB)的审查,并确定了豁免地位。(2)我们删除用户帐户信息,只保留匿名评论信息。(3)继Zirikly等人(2019)之后,我们使用斯坦福命名实体识别器(Manning,Surdeanu,Bauer,Finkel,Bethard,&McClosky,2014)自动识别和删除潜在的个人身份信息,如个人姓名和组织。(4)我们使用正则表达式来匹配和删除评论中存在的URL和电子邮件地址。(5)根据Benton、Coppersmith和Dredze (2017),我们重写了原始信息以保留其含义,但模糊了作者信息,并且我们不参与跟其他数据集的关联。(6)在注释过程中,只向注释者提供匿名帖子,并同意不尝试恢复用户信息或与用户联系。

为了评估去身份化的质量,我们随机选择了500个帖子进行人工检查,没有发现任何包含个人身份信息的例子。

3.5 数据分析

经过数据标注,我们得到6100条标注评论,其中4080条作为训练集,1020条作为开发集,1000条作为测试集。表3和表4列出了数据集统计信息的详细信息。如图所示,评论的平均长度约为30个令牌。一条评论中最多有四种抑郁原因共存,大多数评论有一个或两个抑郁症原因标签。

表3:标签分布(单位为%)。Phy, W&S, Fam, IR分别代表生理,工作与学习,家庭和人际关系。

数据集的统计信息。“# Causes”表示评论有#条抑郁症原因标签。

 从表3中可以看出,超过60%的评论包含了抑郁情绪的表达,约14%的评论甚至包含用户的自杀想法或计划。在抑郁原因标签的分布方面,None标签的比例与抑郁程度预测中None标签的比例相同。这是因为我们的注释指南隐含地限制了如果评论中没有抑郁表达,那么抑郁原因和抑郁程度都应该是None。在我们的注释指南中,我们定义了五种主要的抑郁原因。对于未提及抑郁原因的评论,分配Other标签,约占总评论数的45%。

我们还从两个角度分析了抑郁程度与原因标签的相关性,如图2所示。图2(a)显示了每种原因的不同抑郁程度的比例。正如我们所看到的,由工作或学习引起的抑郁更容易使人自杀,而由爱情引起的抑郁通常使人遭受短期的心理痛苦。图2(b)显示了每个程度不同抑郁原因的比例。可以看出,Other标签所占比例最高,且抑郁程度越高,Other标签所占比例越高。人际关系在五种预定义的抑郁原因中所占比例最高。此外,与其他4种原因相比,“爱情”在轻微程度中所占比例最高,但在“严重”和“特别严重”中所占比例较低。

图2:抑郁程度与原因标签的相关性。(a)中百分比按列进行归一化,(b)中按行进行归一化。

除了抑郁程度和原因之间的相关性外,我们还统计了训练集和测试集共享的重叠用户数量,并计算了每个标签在测试集上的重叠率。如图3所示,所有的重叠率都在7%以下。特别是,“非常严重”和“家庭”标签上没有重叠的用户。因此,用户信息对测试集的影响可以忽略不计。

图3:每个标签上的训练集和测试集之间的用户级重叠率。Phy、W&S、Fam、IR分别代表生理、工作与学习、家庭和人际关系。

4. 抑郁程度和病因预测的可解释模型

该模型的体系结构如图4所示。我们使用BERT (Devlinetal.,2019)对微博评论进行编码,并使用两个分类器来确定评论的抑郁程度和抑郁原因。此外,我们建立了一个可解释模块(Mullenbachetal,2018),使我们的模型能够为每个单词提供关于特定抑郁程度或抑郁原因的置信度。我们利用多任务学习的共享私有框架(Chen和Cardie,2018;刘等人,2017)来联合训练该模型。在下面的部分中,我们将从下到上介绍我们的模型的细节。

图4:我们的抑郁程度和抑郁原因联合预测可解释模型的整体架构。

4.1 词表示层

给定一条由词序列푤={푤1,푤2,…,푤푛}组成的微博评论,其中푛表示词序列长度,我们利用BERT (Devlin et al ., 2019)对微博评论进行编码。BERT的输出可以表示为一个向量序列푯={풉1,풉2,…,풉푛},其中풉푛对应第푛个词的向量表示。푯的形状可以表示为,其中푑= 768,因为我们使用的是BERT的基本版本【Bert将每个单词表示为一个768维的向量,因此含有n个词的微博评论对应n×768维的向量】。为了捕获抑郁程度预测任务和抑郁原因预测任务之间的相互作用,两个任务共用词表示层。

4.2. 标签感知注意力层

为了使我们的模型对其预测具有可解释性,我们采用标签感知注意力机制(Mullenbach et al, 2018),在BERT之上构建一个可解释性模块。以抑郁程度预测为例,可解释模块可形式化为:

这里的푼1∈为标签感知注意力层参数,푙为特定任务的标签数,如抑郁程度预测任务有5类标签,即푙=5。푨1∈表示注意力权重矩阵,푽1∈表示标签感知注意力层的输出。

类似地,我们通过相同的标签感知注意力机制,为抑郁原因预测任务构建了另一个可解释模块,其中푼2∈作为参数矩阵,输出푨2∈和푽2∈作为注意力权重和输出。

4.3. 可解释性

如上所述,可解释模块使每个标签关注输入序列的不同部分,因此,我们能够识别文本中哪些词对标签预测贡献更大。具体来说,在注意力权值矩阵푨1∈中,任意元素都可以作为置信度,表示单词 푖 对标签 푗 的预测贡献。因此,通过查找置信度top-K的单词,我们可以找出微博评论中哪个单词与特定标签的预测更相关。

4.4 输出层

在标签感知注意力层之上,我们使用两个分类器来预测抑郁程度和原因标签。在用于抑郁程度预测的分类器中,先进行线性变换,然后做sum-pooling操作,将标签感知注意力层的输出푽1转换为所有标签的得分向量∈,形式化为:

式中풀1∈是分类器的权值矩阵,的第푖个元素表示该条微博评论属于第푖类标签的概率,由以下公式计算:。然后,抑郁程度预测标签的概率分布由softmax计算得到:。【W1是什么?】

对于抑郁症原因预测的分类器,我们同样使用线性变换和sum-pooling得到所有标签的得分向量   ∈。然而,由于抑郁原因预测是一个多标签分类任务,我们使用一个sigmoid函数将得分进行归一化,以适应训练期间的二元交叉熵损失,形式化为:。

4.5 联合训练

对于训练,我们采用分类交叉熵损失函数进行抑郁程度预测任务,采用二元交叉熵损失函数进行抑郁原因预测任务。每个训练实例的损失函数可以形式化为:

其中和分别是풚1和풚2的第푖个元素的金标签向量,如果第푖个标签是该条评论的真实标签,则金标签为1,否则为0。和为模型预测的概率分布。푙1为抑郁程度预测标签集,푙2为抑郁原因预测标签集。表示第푖个抑郁程度标签的损失权重, 和 分别表示第푖个抑郁原因的正、负标签的损失权重。损失权重可由以下公式计算:

其中为训练集中第푖个抑郁程度的样本数。, 分别表示训练集中第푖个抑郁原因的正样本数和负样本数。푆为训练集中的总样本数。每个标签的权重值与它们的样本数量成反比,即该标签在数据集中所占比例越大,给它分配的权重值越小,通过权重值来达到平衡每个标签的目的,防止样本量大的标签对模型的影响较大,模型对样本量小的标签的预测学习能力不好。

为了在两个任务之间联合训练我们的模型,我们采用了多任务学习(Caruana, 1997;Liu et al, 2017)。我们最终的训练目标可以形式化为:

其中,超参数α用于控制如何混合两个任务的损失。我们使用AdamW算法(Loshchilov & Hutter, 2017)来训练我们的模型。为了避免在微调过程中删除BERT中的现有知识,我们采用倾斜三角形学习率(Howard & Ruder, 2018)。

5. 实验设置

5.1. 训练细节和超参数

在训练中,我们采用AdamW (Loshchilov & Hutter, 2017)作为优化器,其中푒푝푠= 1e−8,훽1 = 0.9,훽2 = 0.999。我们还使用倾斜三角形学习率(STLR) (Howard & Ruder, 2018),其中初始学习率为2e -5,warm-up比例为0.1。此外,我们使用批量大小为8的mini-batch并行训练我们的模型。遵循BERT,使用dropout机制(率= 0.1)来避免过拟合。

我们根据开发集调整超参数。对于微博评论的最大长度푛,我们将其设置为64。对于单词表示维度푑,我们将其设置为768,因为我们使用的是BERT的基本版本。对于标签种类푙,我们将抑郁程度预测任务的标签大小设置为5,抑郁原因预测任务的标签大小设置为7。此外,多任务学习的权值设置为0.4。我们使用在中文文本上预训练的BERT基础版本,并在我们的抑郁症数据集上进一步微调。在多标签抑郁原因预测任务中,我们通过考虑验证集上的F1得分,找到每个标签的最佳阈值(范围从0.01到1.0)。然后我们使用它们作为测试集评估的阈值。我们的模型是用PyTorch.3实现的。

5.2 评估指标

在抑郁程度预测或抑郁原因预测任务中,我们使用所有类别的微观和宏观F1平均值进行评估。对于抑郁原因预测的任务,我们也使用曲线下面积(AUC)。我们在开发集上调整框架的所有其他超参数,这些超参数将在相应的测试集上采用。所有性能均经过显著性检验(푝≤0.05)。

5.3 基线

我们采用了几种常用的神经网络模型作为基准,与我们提出的模型进行比较。

•TextCNN。Kim(2014)提出了一种用于句子级分类任务的卷积神经网络,该网络由多个不同大小的卷积过滤器组成,用于提取句子中可变的词袋特征。

•BiLSTM。Liu et al .(2016)提出了一种双向LSTM模型用于提取句子上下文信息,该模型可以更好地捕获长距离依赖关系。

•RCNN。Lai, Xu, Liu, and Zhao(2015)用最大池化层扩展了双向LSTM模型。此外,使用较低维向量作为文本分类的最终特征。

•AttLSTM。Zhou等(2016)将神经注意机制纳入双向LSTM网络,以捕获最重要的语义信息。

•FastText。Joulin, Grave, Bojanowski和Mikolov(2017)提出了一个具有秩约束和快速损失近似的简单但强监督的模型。一般来说,FastText可以获得与深度学习模型相同的精度,但计算时间要比深度学习模型少得多。

•DPCNN。Johnson和Zhang(2017)提出了深度金字塔卷积神经网络(Deep Pyramid Convolutional Neural Network, DPCNN),这是第一个用于文本分类的单词级深度卷积神经网络。它可以有效地表示文本中的远距离关联。

•BERT。Devlin等人(2019)提出了基于Transformers的双向编码器表示(BERT),这是一种通用的预训练语言模型,只需一个额外的输出层就可以进行微调,从而在广泛的任务中都实现了最先进的结果。对于文本分类任务,BERT将第一个标记的最终隐藏状态[CLS]作为整个序列的表示,并在BERT之上添加一个简单的全连接层来预测每个标签的概率。在我们的实践中,我们使用中文基础版BERT模型。

6. 结果分析

6.1 与基线的比较

我们对基线和模型进行比较。结果如表5所示。请注意,对于每个基线,我们分别使用两个具有相同架构的独立模型来预测抑郁程度和抑郁原因。如表5所示,我们可以看到BERT的表现远远好于其他任何基线,特别是在抑郁程度预测任务的微观和宏观F1和抑郁原因预测任务的宏观F1上。与所有基线相比,我们提出的模型在所有测量值上都取得了最佳性能,抑郁程度预测的微观F1为65.7%,宏观F1为61.7%,抑郁原因预测的微观F1为71.9%,宏观F1为63.3%,AUC为90.6%。与基于bert的基线相比,我们的模型也更好,抑郁程度预测的微观和宏观F1s分别提高了0.2%和1.6%,抑郁原因预测的微观F1、宏观F1和AUC分别提高了0.4%、0.9%和0.3%。

表5:基线和模型的实验结果。푚푖-微观,푚푎-宏观。

6.2 联合训练的效果

从图2的相关矩阵可以看出,抑郁程度与抑郁原因预测任务之间存在一定的相关性。这表明,通过多任务学习对两个任务的模型进行联合训练可能是有帮助的。为了证明这种直觉,我们比较了联合训练和非联合训练的方法,即分别训练两个任务的两个模型。如表6所示,结果验证了我们的猜想,即联合训练始终优于非联合训练方法。抑郁程度预测任务的微观F1和宏观F1分别提高了1.3%和2.8%,抑郁原因预测任务的微观F1、宏观F1和AUC分别提高了2.5%、2.0%和0.9%。

表6:联合训练与非联合训练的比较。

6.3 各个标签的结果分析

为了了解不同标签的性能差异,我们计算了每个单一标签的F1值和每个抑郁原因标签的AUC值,结果如表7和表8所示。对于抑郁程度的预测,“无“标签的结果比其他标签的结果要好得多,因为非抑郁和抑郁评论之间的区别可能是明确的。对于抑郁原因预测,None和Other的F1s更好,因为这两个标签在数据集中所占的比例比任何其他标签都大得多。相比之下,”人际关系“标签的F1和AUC都是最差的,这可能是因为人际相关特征不如其他类别的特征明显。此外,尽管None和Other标签的比例都很高,但它们的AUC值并不高于其他五个原因标签,这表明事实上None和other并不比其他五个类别更容易分类。在表7和表8中,我们还通过移除联合训练和标签感知注意力层进行了消融研究。如图所示,在去除联合训练和标签感知注意力层后,通常大多数标签的结果会显著下降,这证明了这些模块的有效性。

表7:JT和LAAL模块的消融实验中各抑郁程度的F1。JT——联合训练,LAAL——标签感知注意层。

表8:JT和LAAL模块消融实验中各抑郁原因标签的F1。Phy、W&S、Fam、IR分别代表生理、工作与学习、家庭和人际关系。JT表示联合训练,LAAL表示标签感知注意层。

6.4. 可解释性案例研究

为了证明我们的模型具有一定的可解释性,我们从测试集中选择了一个抑郁原因是“工作与学习“和”家庭“的例子。我们将抑郁原因预测子模型的标签感知注意力层中的注意矩阵进行可视化,如图5所示。我们可以看到,在Work&Study标签中,“Today wages are paid”的权重更高,而在Family标签中,“I cannot support myself”和“Life”的权重更高。基于注意力权重,标签与其相关单词具有合理的相关性。然而,也可能存在一些差异。例如,“人际关系”这个标签非常关注“I cannot support myself”。

图5:使用特定案例,将标签感知注意力层的注意力权重A2进行可视化.。“今天发工资了”、“连自己都养活不起”和“生活”这三个词权重较高,这与本案的抑郁诱因“Work&Study”和“Family”是一致的。

6.5 抑郁程度预测的误差分析

如图6所示,我们绘制了抑郁程度预测的混淆矩阵,其中行为金标签,列为预测标签。我们可以看到:(1)大多数标签为“无”的错误分类示例被错误地预测为“轻微”。(2) 标签为“轻微”的错误分类样例大多被预测为中度。(3)对于中度、重度和极重度,大多数错误分类的例子分别被错误地预测为轻度、中度和重度。因此,大多数错误分类的标签被预测到它们相邻的标签,这是合理的,因为它们更难区分。

图6:抑郁程度预测的混淆矩阵

7. 讨论

7.1 主要发现

通过对实验结果的研究和分析,我们发现了一些有趣的见解。首先,可解释模块对我们的模型很有用,特别是对抑郁原因的多标签分类任务。可解释模块允许在给定的句子中找到与每个标签最相关的单词。我们预定义的不同抑郁原因标签可以意识到属于不同主题的词,并且它们之间的界限是明确的。因此,如表8所示,可解释注意模块的加入可以大大提高抑郁原因预测的性能。对于抑郁程度分类任务,可解释模块也提高了F1值。但其改善效果不如抑郁原因任务的改善效果大。这可能是因为不同抑郁原因标签所注意的单词之间的界限比抑郁程度标签更清晰。

其次,抑郁程度与抑郁原因存在相关性。如表6所示,通过联合训练,两项任务的性能得到了很大的提高。此外,我们使用参数“alpha”来混合联合训练中的两个任务损失,其中数据分割等实验设置与表4中相同。如表9所示,我们发现当alpha值在0.4左右时,两个任务的性能更好,即当两个任务的权重接近时,多任务学习的性能会更好。当alpha约为0.2或0.9时,即一个任务权重较大,另一个任务权重较小,两个任务的表现都较差。这表明训练不应该被任何一项任务所主导,这两项任务同等重要。这一现象进一步说明了两个任务之间的相互作用,也证实了抑郁水平与抑郁原因之间存在一定的相关性。

表9:α值对两个任务预测性能的影响。

7.2. 理论和实践意义

我们的研究具有两方面的理论和实践意义。抑郁症是情绪障碍的主要类型之一。显著且持续的情绪低落是抑郁症患者的主要临床特征(Association,2013)。抑郁症的发病机制涉及生物学、心理学和社会环境等多方面因素。

抑郁症的理论含义有两个方面,包括研究任务和模型。对于这项研究任务,我们的工作首次从抑郁程度和抑郁原因两个方面对抑郁进行了分析。以往基于社交媒体的抑郁分析工作大多只考虑抑郁程度,没有探索多维的语义信息。抑郁程度和抑郁原因在抑郁分析或自杀风险评估中都很重要。然而,现有的基于社交媒体的抑郁症自动分析工作并没有完全捕捉到这部分信息,尤其是抑郁症病因的信息。此外,目前还没有包含抑郁症病因标签的可用数据集。因此,在我们的研究中,我们构建了一个专家注释数据集,该数据集包含抑郁程度标签和抑郁原因标签。现有的专家注释数据集有可能促成许多相关的研究工作,这些研究工作可能会促进基于社交媒体的抑郁症分析。

抑郁症被美国精神疾病预防医学委员会(the Institute of Medicine Committee on Prevention of Mental Disorders)认定为最容易预防的疾病[1]。早期识别和治疗可以有效预防抑郁症[2,3]。因此,早期发现抑郁症是治愈抑郁症的关键,有利于早期干预,减少对公众健康的影响[4]。早期发现抑郁症也是eRisk的一项主要任务[5],并对抑郁症的风险水平进行了文本分析。在他们提供的数据集中,抑郁症检测的最高F1约为65%,仍有很大的改进空间。在我们的工作中,我们可以通过联合训练来提高抑郁程度预测和抑郁原因预测的性能。发现抑郁程度与抑郁原因之间的相关性,可能为抑郁症的早期发现提供新的研究思路,促进抑郁症早期发现的发展。

在模型方面,我们使用功能强大的BERT预训练模型(Devlin et al, 2019)预测抑郁程度和原因,并将其与其他深度学习模型(如CNN和RNN)进行比较,证实了BERT在抑郁分析任务中的优越性。此外,我们还使用了一个可解释的模块,直观地分析了句子中每个标签对每个单词的注意力权重,这证实了不同的标签可以注意到句子中与自己最相关的单词,这有助于模型更好地分类。最后,对于抑郁程度预测和抑郁原因预测这两个任务,我们从标签相关矩阵中发现它们具有一定的相关性。联合训练使两项任务的表现有所提高,证实了抑郁程度与抑郁原因之间存在一定的相关性。这种相关性将为研究者提供一个新的研究方向。

这项研究也具有实际意义。近年来,抑郁症的发病率越来越高,严重抑郁症患者可能会有自杀倾向,给社会带来各种负担。而且,绝大多数抑郁症患者不愿意或不知道寻求医生的帮助,这对抑郁症的研究和援助造成了一定的障碍。我们的工作可以促进基于社交媒体的自杀智能实时监测的发展。这不仅有利于识别自杀高危人群,也有利于识别抑郁人群,为他们提供心理咨询和心理健康援助。这是一项对社会和人类都有意义的工作。事实上,抑郁症救济团体已经存在,其中最著名的是赵、林和黄(2018)发起的“树洞救援”。从2018年8月到2019年6月,黄的团队进行了1400多次救援,有效挽救了662名自杀者。在他们的工作中,抑郁症被分为10级。对于那些实时抓取的社交媒体帖子,他们只使用基于规则的方法进行预测,而没有尝试更先进的深度学习方法。而我们的工作应用了最先进的深度学习方法,可以使救援队的技术更加成熟和准确。目前,我们的团队已经与我们的抑郁症分析模型相结合,构建了一个心理监测平台。未来,我们期待与相关救援团队和心理学家合作,为那些患有抑郁症或自杀高危人群提供及时的心理咨询和帮助。

7.3 局限性和未来建议

与以往的工作相比,我们的工作主要有以下几个局限性。首先,标注数据集的大小是有限的。

其次,我们关注的是基于评论的抑郁分析,而没有考虑基于用户的抑郁分析。第三,没有考虑多模态信息的建模。我们的模型只考虑用户评论中的文字信息,没有考虑用户评论中的其他模态信息,如表情符号和图片。

对于上述限制,我们未来的工作将有以下改进计划。首先,对于数据集规模有限的问题,一方面,我们将扩大对数据集的标注。另一方面,考虑到手动标记相对昂贵,并且我们仍有100万个未标记的数据,我们将探索半监督方法来提高我们的抑郁症分析模型的性能。其次,我们的目标是帮助救援队监测树洞对抑郁症或自杀相关微博话题的评论和帖子,我们专注于基于评论的抑郁症分析,而不是基于用户的抑郁症分析。因为基于评论的抑郁分析更实时。对于实时抓取的每条评论,该模型会自动预测其抑郁程度。对于“严重”、“非常严重”等预测抑郁程度较高的评价,系统会进行早期预警,相关救援团队可以及时进行分析并提供人道主义援助。对于用户级抑郁分析,它的优点是能够更全面地分析特定用户,因此我们将在未来的工作中考虑将用户级抑郁模型与我们的模型相结合。第三,多模态模型已在许多工作中被验证是有效的(Caoetal.,2019;Ni等人,2021)。在未来的工作中,我们将考虑整合多模态信息,以探索整合表情符号和图片等其他模态信息是否可以进一步提高抑郁分析的性能。

8. 结论

本文构建了一个树洞数据集,用于细粒度抑郁分析,包括抑郁程度预测和抑郁原因预测。我们还建立了一个新的抑郁程度和抑郁原因联合预测模型,可以作为模型比较的基准。我们发现这两个任务之间存在一定的相关性,这表明它们是密切相关的,联合模型对于这些任务是必要的。此外,我们发现我们的模型能够提供一些可解释的预测,这表明利用计算方法来促进实际的抑郁症分析是可能的。由于目前还有100多万条微博评论没有被标注,我们将在未来对更多的数据进行标注,同时研究半监督学习和数据增强技术。

参考链接

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: