作为一个大语言模型在领域专门化方面的综述,这篇文章首先提出了一个系统的分类法,根据对LLMs的可访问性,对LLM领域专门化技术进行了分类。并且总结了所有子类的框架以及它们之间的联系和区别。

其次,提出了一个关键应用领域的广泛分类,可以从专门的LLMs中显著获益,并讨论了它们的实际意义和开放性挑战。

最后,对该领域的研究现状和未来趋势提出了见解。

一、简介

在理解大语言模型之前,首先需要了解的概念是预训练语言模型(PLM),它们能够以无监督的方式从大规模数据中学习通用的语言表示,这可以用于许多下游的NLP任务,同时避免从头开始训练新的模型。

在过去的几年中,随着大型语料库和硬件容量的快速增长,模型和训练数据的缩放可以不断提高其容量,这自然衍生出了大型语言模型( Large Language Models,LLMs ) ,如GPT - 3 ,PaLM和LLaMA。

LLM在提取信息和理解文本方面有显著的优势,但通用的大语言模型在专门的领域显然有些不够看,并且容易造成歧义,也就是我们说的下游任务中的幻觉现象。

以这个图为例,MAC显然在不同的语义环境中有不同的解释。不同领域、不同角色、不同任务的会话和语言风格存在显著差异。这种能力和经验的获得甚至需要人类多年的训练。那么,为了更好的利用大语言模型的理解发现能力,训练专门领域的LLM就显得很有必要。更重要的是,领域知识对专业水平的要求,也不是通用的LLM能够实现的。甚至在某些领域,知识资源是组织的专有资产和核心竞争力,永远不能泄露给通用的LLMs。

这里作者总结了目前为止,领域专门化LLM面临的三大挑战:

1、保持最新知识的LLM的困难。LLMs的强大功能主要归功于其庞大的训练语料。然而,这也表明LLMs往往具有知识边界,缺乏足够的机会获得最新的信息、事件或发现。在许多专业领域,新的发现、法规和最佳实践不断涌现,使得LLM难以与时俱进。在这些动态领域中,需要定期的重新训练或持续的学习机制来保持LLMs的相关性和准确性。

2、学习不同领域的所有专门知识的困难。特定领域的任务往往涉及复杂的概念、专门的术语以及实体之间错综复杂的关系。如果没有适当的指导,LLMs可能会对类似的查询(即, LLM的幻觉)或稍微改写的问题产生合理但不一致的答案,也就是通用LLM中出现概率更高的答案。因为我们知道,语言模型旨在根据输入预测最有可能的词序列,也就是概率最高的回答,而并非根据结构化的知识库提供确定的答案。

3、下游任务学习所需的密集模型和计算复杂度。为了更好地适应特定的领域应用,下游任务学习是历史上专门针对语言模型的一种常用做法。然而,与传统的语言模型不同,LLM适应下游任务需要海量的高质量、特定任务的数据。LLMs的复杂性使得确定最合适的下游任务学习策略具有挑战性,因为超参数、学习率和训练时间的选择会显著影响模型的性能。

二、领域专门化技术的分类

根据可访问的级别,本文将专门化的LLM分为三类,即无访问(黑盒)、部分访问(灰盒)和完全访问(白盒)。黑箱代表只能访问模型API (例如, ChatGPT),而不知道任何信息,只知道生成的输出;灰箱代表拥有有限的信息(例如, GPT-3 API中生成令牌的概率),这些信息可以指导我们设计和微调一个合适的方案,更好地引出领域知识;而白盒假设表示完全可以访问LLM (例如, LLaMA及其变体),包括参数设置,训练数据和模型架构。

本文讨论了为特定领域任务定制LLM的不同方法:( a )使用在通用语料库上训练的LLM而不做修改;( b )通过检索相关外部知识来提高LLM的性能;( c )使用特定领域和任务相关的指令来提高LLM的能力;( d )使用特定领域的文本和任务来更新LLM的内部知识。

同样为LLMs的领域专门化提供了一个基于黑箱、灰箱和白箱方法的通用框架,该框架由定义、增强、优化和评估四个核心阶段组成。

定义即清楚地了解我们所专注的领域。这也有助于识别与该领域相关的具体数据、知识和资源。

增强:这一阶段涉及将特定领域的知识纳入模型,或其输入/输出。在白盒方法中,这可能涉及使用特定领域的数据对模型进行微调。对于灰盒方法,它可能涉及使用梯度或损失值来设计提示,使模型转向特定领域的响应。在黑盒方法中,它可能涉及使用外部工具或资源来修改输入提示或生成的输出,以使其更具特异性

三、面向领域专门化的外部增强

即通过从外部来源检索相关信息来增强局部线性模型,而不需要对模型参数进行微调。主要有两类:( 1 )领域知识增强,即从外部知识源为LLM提供特定领域的上下文;( 2 )领域工具增强,即通过API将LLM与外部系统或工具集成。

领域知识增强通过外部信息补充模型的响应,提高了特定领域内的深度和准确性。

而领域工具增强则拓展了模型对无法执行的任务的能力,允许模型执行超出其固有能力的任务。

具体的讨论以及他们的优缺点如下所示:

领域知识

定义

领域知识是对某一特定领域或学科领域的综合认识。它包括特定领域所特有的概念、原则、事实和模式。知识可以以多种形式表示,包括一组文档、特定领域的知识图谱或包含参数化领域知识的神经网络。

这里的领域知识也存在两种形式:显性知识是指以可直接理解和利用的方式定义清晰、易于表达和结构化的知识;隐性知识是指不直接陈述或不容易表达,而是嵌入在数据或系统内部的知识,往往以潜在的、非显而易见的形式存在

显性知识:

将语言模型定制到特定领域任务的常规方法是从外部上下文中检索特定领域的信息。存在包含领域特定信息的显性知识源时,如果数据源中包含与模型记忆知识相矛盾的细节,LLMs对上下文的优先排序至关重要。目前的技术通常使用神经检索器从大型语料库或知识库]中获取与任务相关的信息。具体来说,在给定特定任务查询的情况下,设计了神经检索器,将查询和外部知识源中的所有信息向量化,以基于潜在空间中的各种相似性度量来搜索相关信息。然后可以将搜索到的信息与下游任务的查询进行连接。

目前的目标是使用LLMs来替代基于神经网络的检索器。

隐形知识:

机器学习中的隐含领域知识是指嵌入在数据或系统中的潜在的、非显而易见的信息,通常表现为向量化的知识或在预训练过程中学习到的嵌入。使用注意力机制使PLMs能够从这种内隐知识中检索与任务相关的信息。

利用隐含知识对传统神经网络进行增强,允许模型在推理过程中获取相关的当前信息。

领域工具

参考阅读

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: