人工智能语音识别搭建AI智能语音外呼系统智能语音外呼机器人

随着人工智能技术的发展，近半年来涌现了大量基于人工智能的呼叫中心业务服务商和集成商。仅电销机器人这一个方向就至少有近百家公司正在推广运营，包括百度、讯飞、智齿、硅基、百应、箭鱼、容联等。商务上的需求非常强烈，整个市场都飞快地热闹起来。

一套可提供saas服务的智能外呼系统，看起来功能并不复杂。一个网站可注册、充值缴费开票，登录后在后台页面选择或者定制外呼话术脚本，新建外呼任务并导入外呼号码列表，明确外呼策略（时间段、重呼次数），设置外呼机器人数量（同时拨出几个号码），点击开始。然后就可以看着进度条走完，外呼机器人按照列表一个个打电话出去。任务完成后，可以查看外呼结果列表。

那么如何从零开始搭建一套对外可以提供saas服务的智能外呼系统呢？

我们先列出，搭建这样一整套系统需要哪些技术和资源：

简单关系示意图如下：

上图中四个主要模块，其中一些难以自研，只能选择供应商：

明确了涉及到的技术和资源之后，再明确一下建设步骤。由于各个厂商都有各自的资源和能力，建设方式也各不相同，简单来说可以分成以下几类：

作为初学者，为了自行从零开始搭建一套对外可以提供saas服务的智能外呼系统，身份必然是第四种，啥都没有，啥都要干。

以上这四部分，核心角色是呼叫中心。AI只是插上了想象力的翅膀，但是没这翅膀，呼叫中心还是呼叫中心，但是AI就只是空中楼阁了。业务明确可落地的呼叫中心才是想象力的基石，这一点与CV和安防的关系很像。

目前对呼叫中心比较普遍接受的定义是：呼叫中心是以计算机电话集成（CTI）技术系统为基础，将计算机的信息处理功能、数字程控交换机的电话接入和智能分配、自动语音处理技术、 Internet技术、网络通信技术、商业智能技术与业务系统紧密结合在一起，将公司的通信系统、计算机处理系统、人工业务代表、信息等资源整合成统一、高效的服务工作平台。

最新一代呼叫中心架构NGCC（Next Generation Call Center）如下图所示：

具体如何理解呢？

先从最简单的说起：个人A给个人B打了个电话。

然后来个复杂点的：个人A给呼叫中心400xxxxxxxx打了个电话，拨通后先听到了录音，“您好，找B类接线员说话请按0号键”。按了0，然后听到录音，“排队中，请稍后”。几分钟后接通，B0026号接线员接了电话。

流程：A→PSTN→PBX→IVR→ACD→B

解释：PBX是Private Branch Exchange，用户级交换机，这是企业内部的局端用户级交换机，整个呼叫中心的出入口设备。

PSTN到PBX之间是中继（分成模拟中继、数字中继、IP中继），这是将通讯公司的局端交换机与企业内部的用户级交换机（PBX）相连的通讯线路。

IVR是Interactive Voice Response，互动/交互式语音应答，我们把它叫语音导航。实现的是类似拨打10086后听到录音说，xx业务请按x，这个环节。主要用途是根据业务分流来电，进入对应的排队机。

ACD是Automatic Call Distribution，自动电话分配，也叫排队机。

再来个复杂点的：个人A给呼叫中心400xxxxxxxx打了个电话，拨通后先听到了录音，“您好，您想找哪类接线员？”

个人A说，“B~~”。

然后很快接通，“您好，这是B0026号机器人，有什么可以帮您？”

个人A说，“我不想跟机器人说话，泥奏凯~”

然后听到录音，“为您转接很贵的真人客服，排队中，请稍后”。

几分钟后接通，B1026号真人接线员接了电话。

流程：A→PSTN→PBX→IVR（→ASR→NLU）→ACD（→ASR→NLU→DM→NLG→TTS）→ACD→B

解释：现在智能的部分，也就是我们说的语音机器人的部分，分别在IVR和虚拟坐席处体现。

IVR部分，不再需要提示按键，而是直接问来电方需要办理什么业务，然后识别语音、理解意图后，进入对应的业务队列排队。排队后可以等待真人客服接待，也可以由机器人先行接待。

机器人（实际是服务器资源）资源空闲时，直接接待，进行语音对话，对话过程就是语音识别、语义理解、语音合成的多次调用，部分业务涉及业务数据接口对接调用，比如查询话费、积分。并可以根据需求自动或者选择转人工，再次进入排队，等候真人客服接待。

其中IVR部分示意图如下：

上面提到的全部流程中，PBX、IVR、ACD等部分基本都是由我们说的呼叫中心设备商提供，产品有三种类型:板卡式、交换机式、VoIP形式。

交换机式比较适合大型职场，例如三五百人以上，硬件价格五位数。交换机领域，主要有：avaya、genesys、cisco、华为、中兴，其中最常用的两家对比下来，avaya比genesys便宜（参见文章）。

板卡式适合中小型职场，比如几十人到两三百人，硬件价格四位数。基于板卡建设呼叫中心的步骤，可以参考使用三汇板卡的这几篇（主要前4篇讲原理）。

选择板卡之前，先要确定选用哪种中继线路，比如：使用常规的数字中继，那么就需要选择数字板卡，这个找板卡的供应商问就行了。通常来说呼叫中心要购买的一条E1数字中继报价五位数/年，由用户级交换机将局端的光信号转换为30路模拟信号，也就是支持30个人同时接打电话，通话费会另外按照实际呼出分钟数收取。

近期一个实际落地项目是选择了数字中继+Asterisk（开源VoIP PBX纯软方案），（可参考：安装配置，调试）示意图如下：

具体的软件业务细节，比如：常规客服中心需要的管理模块、配置模块、工单服务、坐席服务、报表模块、CRM，还有比如：坐席班长监听、通话插入、质检，录音文件管理等整套软件细节，不做详述。

在具体落地中，这个领域的常规参与者通常具备呼叫中心能力或者AI能力其中一种，而主要的对接点也就在于AI能力与呼叫中心设备去对接，而ASR/TTS与呼叫中心设备对接的常规协议主要是mrcp/sip。

媒体资源控制协议（Media Resource Control Protocol, MRCP）是一种通讯协议，用于语音服务器向客户端提供各种语音服务(如语音识别和语音合成)。有两个版本的MRCP协议，版本2使用SIP作为控制协议，版本1使用RTSP。

实际对接的时候，会遇到不少技术问题，有的呼叫中心厂商会要求ASR/TTS引擎做私有云部署，这样避免了内外网穿透时防火墙的诸多设置和语音流的时延。这对基于语义起家（并购买语音能力）的公司是一个小小的难题。

现有技术中实现一次性语音识别典型的流程时序，具体包括一下步骤：

电话渠道的语音流采样率一般是8k 16bit，这种语音识别的准确率远远低于app等渠道采集音频的识别率。再加上人在打电话时说话方式相对随意，导致语音识别部分成为了影响电话机器人能力和效果的重要瓶颈。

实现语音合成典型的流程时序，具体包括一下部分：

现在主流厂商为了使通话效果尽可能模拟真人外呼，除了涉及业务接口调用的数据查询使用了TTS，基本采取整句录音的方式。

准确来说，一个简单的对话机器人系统框图，包括语音识别（ASR）、语音合成（TTS）、自然语言理解（NLU）、对话管理（DM）、自然语言生成（NLG）几个模块组成。而这一部分就是智能外呼系统的主流玩家——NLU类（智能客服）厂商的强项了。

对于呼叫中心从业者来说，ASR/TTS/NLU如同黑盒一般，只暴露出接口。而国内语音能力的供应商，要么很土豪，少量QPS不要钱，要么就是非常标准的报价五位数一条线路/年，实在也没有太多可以选择的余地。

对于只有NLU能力的厂商来说局面也是一样，除了需要接入ASR/TTS的能力，还需要去寻找可以合作的呼叫中心，并且想办法拿到尽可能低的话费报价。

金钥匙

人工智能语音识别搭建AI智能语音外呼系统智能语音外呼机器人

语音识别机器学习算法时域连续信号及时域离散信号的表述

人工智能 AI 看唇语，在嘈杂场景的语音识别准确率高达75%

发表评论取消回复

金钥匙

人工智能 语音识别 搭建AI智能语音外呼系统 智能语音外呼机器人

语音识别 机器学习 算法 时域连续信号及时域离散信号的表述

人工智能 AI 看唇语，在嘈杂场景的语音识别准确率高达75%

相关文章

发表评论取消回复

人工智能语音识别搭建AI智能语音外呼系统智能语音外呼机器人

语音识别机器学习算法时域连续信号及时域离散信号的表述