网站首页 > 人工智能 > 正文

语音识别 c# 经验分享【API解析】微软edge浏览器大声朗读功能（read aloud）调用步骤

认证人员职业资格证书人工智能 2024-02-08 16 2

【API解析】微软edge浏览器大声朗读功能（read aloud）调用步骤

1. 来源

github: MsEdgeTTS, edge-TTS-record吾爱破解：微软语音助手免费版，支持多种功能，全网首发

2. 准备工作

功能来源：edge浏览器抓包工具：fiddler模拟请求：postman

3. 主要分析步骤

第一步：确定edge浏览器read aloud功能用js如何调用，fiddler上没有捕捉到

const voices = speechSynthesis.getVoices()

function speakbyvoice(text, voice) {

var utter = new SpeechSynthesisUtterance(text)

for (let v of voices) {

if (v.name.includes(voice)) {

utter.voice = v

break

}

speechSynthesis.speak(utter)

return utter

}

speakbyvoice("hello world", "Xiaoxiao")

第二步：试着对edge-TTS-record抓包，抓到了一个http请求和websocket连接。对照MsEdgeTTS的代码可知：

* postman中模拟成功

* 获取可用语音包选项，等价于speechSynthesis.getVoices()

* http url: https://speech.platform.bing.com/consumer/speech/synthesize/readaloud/voices/list?trustedclienttoken=6A5AA1D4EAFF4E9FB37E23D68491D6F4

* method: GET

{

uri: "https://speech.platform.bing.com/consumer/speech/synthesize/readaloud/voices/list",

query: {

trustedclienttoken: "6A5AA1D4EAFF4E9FB37E23D68491D6F4"

}

method: "GET"

}

* postman中模拟成功

* 发送wss连接，传输文本和语音数据，等价于speechSynthesis.speak(utter)

* wss url: wss://speech.platform.bing.com/consumer/speech/synthesize/readaloud/edge/v1?TrustedClientToken=

* send: 发送两次数据，第一次是需要的音频格式，第二次是ssml标记文本（需要随机生成一个requestid，替换掉guid的分隔符“-”即可）

* receive: 接收到的webm音频字节包含在相同requestid的正文部分，用Path=audio\r\n定位正文索引

* 存在的问题: 1、第一次发送的音频格式文本中，只有在webm-24khz-16bit-mono-opus格式下才能成功连接，其他格式尝试后直接断开；

* 2、第二次发送的ssml文本不支持mstts命名空间的解析，是Auzure语音服务的阉割版，例如不能出现xmlns:mstts="****"、、

、~~等语言标记~~

{

~~uri: "https://speech.platform.bing.com/consumer/speech/synthesize/readaloud/voices/list",~~

~~query: {~~

~~trustedclienttoken: "6A5AA1D4EAFF4E9FB37E23D68491D6F4"~~

~~sendmessage: {~~

~~audioformat: `~~

~~X-Timestamp:Mon Jul 11 2022 17:50:42 GMT+0800 (中国标准时间)~~

~~Content-Type:application/json; charset=utf-8~~

~~Path:speech.config~~

~~{"context":{"synthesis":{"audio":{"metadataoptions":{"sentenceBoundaryEnabled":"false","wordBoundaryEnabled":"true"},"outputFormat":"webm-24khz-16bit-mono-opus"}}}}`,~~

~~ssml: `~~

~~X-RequestId:7e956ecf481439a86eb1beec26b4db5a~~

~~Content-Type:application/ssml+xml~~

~~X-Timestamp:Mon Jul 11 2022 17:50:42 GMT+0800 (中国标准时间)Z~~

~~Path:ssml~~

~~hello world`~~

}

~~4. 编写代码~~

~~websocket库：WebSocketSharp。最新版安装失败的可以降版本安装，此文发布的时候最新预览版是1.0.3-rc11~~

~~using System;~~

~~using System.Collections.Generic;~~

~~using System.Linq;~~

~~using System.Text.RegularExpressions;~~

~~using WebSocketSharp; // nuget包：WebSocketSharp（作者：sta，此文安装版本：1.0.3-rc10）~~

~~namespace ConsoleTest~~

{

~~internal class Program~~

{

~~static string ConvertToAudioFormatWebSocketString(string outputformat)~~

{

return "Content-Type:application/json; charset=utf-8\r\nPath:speech.config\r\n\r\n{\"context\":{\"synthesis\":{\"audio\":{\"metadataoptions\":{\"sentenceBoundaryEnabled\":\"false\",\"wordBoundaryEnabled\":\"false\"},\"outputFormat\":\"" + outputformat + "\"}}}}";

}

~~static string ConvertToSsmlText(string lang, string voice, string text)~~

{

~~return $"{text}";~~

}

~~static string ConvertToSsmlWebSocketString(string requestId, string lang, string voice, string msg)~~

{

~~return $"X-RequestId:{requestId}\r\nContent-Type:application/ssml+xml\r\nPath:ssml\r\n\r\n{ConvertToSsmlText(lang, voice, msg)}";~~

}

~~static void Main(string[] args)~~

{

~~var url = "wss://speech.platform.bing.com/consumer/speech/synthesize/readaloud/edge/v1?trustedclienttoken=6A5AA1D4EAFF4E9FB37E23D68491D6F4";~~

~~var Language = "en-US";~~

~~var Voice = "Microsoft Server Speech Text to Speech Voice (zh-CN, XiaoxiaoNeural)";~~

~~var audioOutputFormat = "webm-24khz-16bit-mono-opus";~~

~~var binary_delim = "Path:audio\r\n";~~

~~var msg = "Hello world";~~

~~var sendRequestId = Guid.NewGuid().ToString().Replace("-", "");~~

~~var dataBuffers = new Dictionary>();~~

~~var webSocket = new WebSocket(url);~~

~~webSocket.SslConfiguration.ServerCertificateValidationCallback = (sender, certificate, chain, sslPolicyErrors) => true;~~

~~webSocket.OnOpen += (sender, e) => Console.WriteLine("[Log] WebSocket Open");~~

~~webSocket.OnClose += (sender, e) => Console.WriteLine("[Log] WebSocket Close");~~

~~webSocket.OnError += (sender, e) => Console.WriteLine("[Error] error message: " + e.Message);~~

~~webSocket.OnMessage += (sender, e) =>~~

{

~~if (e.IsText)~~

{

~~var data = e.Data;~~

~~var requestId = Regex.Match(data, @"X-RequestId:(?.*?)\r\n").Groups["requestId"].Value;~~

~~if (data.Contains("Path:turn.start"))~~

{

~~// start of turn, ignore. 开始信号，不用处理~~

}

~~else if (data.Contains("Path:turn.end"))~~

{

~~// end of turn, close stream. 结束信号，可主动关闭socket~~

~~// dataBuffers[requestId] = null;~~

~~// 不要跟着MsEdgeTTS中用上面那句，音频发送完毕后，最后还会收到一个表示音频结束的文本信息~~

~~webSocket.Close();~~

}

~~else if (data.Contains("Path:response"))~~

{

~~// context response, ignore. 响应信号，无需处理~~

}

~~else~~

{

~~Console.WriteLine("unknow message: " + data); // 未知错误，通常不会发生~~

}

~~else if (e.IsBinary)~~

{

~~var data = e.RawData;~~

~~var requestId = Regex.Match(e.Data, @"X-RequestId:(?.*?)\r\n").Groups["requestId"].Value;~~

~~if (!dataBuffers.ContainsKey(requestId))~~

~~dataBuffers[requestId] = new List();~~

~~if (data[0] == 0x00 && data[1] == 0x67 && data[2] == 0x58)~~

{

~~// Last (empty) audio fragment. 空音频片段，代表音频发送结束~~

}

~~else~~

{

~~var index = e.Data.IndexOf(binary_delim) + binary_delim.Length;~~

~~dataBuffers[requestId].AddRange(data.Skip(index));~~

}

};

~~webSocket.Connect();~~

~~var audioconfig = ConvertToAudioFormatWebSocketString(audioOutputFormat);~~

~~webSocket.Send(audioconfig);~~

~~webSocket.Send(ConvertToSsmlWebSocketString(sendRequestId, Language, Voice, msg));~~

~~while (webSocket.IsAlive) { }~~

~~Console.WriteLine("接收到的音频字节长度：" + dataBuffers[sendRequestId].Count);~~

~~Console.ReadKey(true);~~

}

~~5. 结语~~

模拟websocket请求成功，缺陷是postman模拟结果显示音频outputformat参数只能是webm-24khz-16bit-mono-opus，也就是说还需要再用ffmpeg之类的库转换格式。暂时也没找到比较好用的库，先记录到这

~~相关文章~~

~~评论可见，请评论后查看内容，谢谢！！！~~

~~您阅读本篇文章共花了：~~

大家都在找：
edge：edge浏览器登录不了微软账户
语音识别：语音识别的原理是什么
c#：c#连接access数据库
经验分享：经验分享开场白和结束语

大家都在看：

c# 语音识别经验分享【API解析】微软文本转语音(text-to-speech)官方Demo调用步骤

【API解析】微软文本转语音(text-to-speech)官方Demo调用步骤 1. 来源 github: MsEdgeTTS吾爱破解：微软语音助手免费版，支持多种功能，全网首发微软Demo: 文本...

柚子快报邀请码778899分享：网络微软Edge浏览器全解析

微软Edge浏览器全解析引言微软Edge浏览器是微软公司开发的一款现代化网页浏览器。自从其首次发布以来，Edge浏览器不断发展，并在许多方面提供了显著的改进。本文将深入解析微软Edge浏览器，包括其历...

语音识别人工智能经验分享网络 windows 5个免费、免注册且无时长限制在线语音转换文本网站分享（收藏）

达芬奇前几期同大家分享了几个在线文字转语音网站及线下语音转文字方法，满足了一些同学的需求；有些同学想要更简单方便的线上语音转文字方法，今天继续同大家分享几个免费的在线语音转换文字网站，有需要用到的同学...

python 经验分享 oneapi 笔记国家行政区数据获取三种方式：爬虫、调用API、私有化部署

国家行政区数据获取三种方式：爬虫、调用API、私有化部署背景现实情况，在信息系统开发、电子商务平台、app等等相关软件开发，都会设计到行政区数据联动，但是如何获取最新、准确的数据呢？在这里给各...

语音识别人工智能经验分享汽车车载VPA形象发展史：谁是第一个吃螃蟹的人？

今天我们来聊一聊汽车上的虚拟个人助理它有个洋气的英文名VPA话说汽车VPA发展到现在大致可以分为三种类型嵌入式VPA 、第三方VPA 和  OEM VPA 嵌入式VPA可以直接集成到车辆中不需要...

python 源代码管理学习经验分享【源码解析】深入Pandas的心脏DataFrame 含十大功能、源码实现与编程知识点

作者介绍：10年大厂数据\经营分析经验，现任大厂数据部门负责人。会一些的技术：数据分析、算法、SQL、大数据相关、python 欢迎加入社区：码上找工作作者专栏每日更新： LeetCode解锁10...

语音识别人工智能经验分享如何将文字转语音？这4个文字转语音方法简直宝藏

近年来，文字转语音技术的发展，让我们的生活更加便利，特别是在语音技术不断普及的今天，文字转语音技术更是被广泛应用于各种场合。那你知道如何将文字转语音吗？本文将介绍四款文字转语音软件：迅捷文字转语音、...

人工智能笔记经验分享 python agi 【AI大模型应用开发】0.1 百度文心一言 API接入详细步骤和简单应用

大家好，我是【同学小张】。持续学习，持续干货输出，关注我，跟我一起学AI大模型技能。最近我的OpenAI的API key由于调用次数太多被封了… 不知道下个月能不能解封。而为了尽可能地不花钱，先来看下...

柚子快报激活码778899分享：微软Edge浏览器指南

微软Edge浏览器是微软公司开发的一款功能强大、性能优越的网页浏览器。它不仅继承了传统IE浏览器的许多优点，还添加了许多现代浏览器的新特性和增强功能。以下是使用微软Edge浏览器的一份详细指南，涵盖了...

人工智能笔记经验分享 python agi AI-native 【AI大模型应用开发】0.2 智谱AI API接入详细步骤和简单应用

大家好，我是【同学小张】。持续学习，持续干货输出，关注我，跟我一起学AI大模型技能。最近我的OpenAI的API key由于调用次数太多被封了… 不知道下个月能不能解封。而为了尽可能地不花钱，先来看下...

android 语音识别人工智能安卓机调用 audio.play()时报错:API can only be initiated by a user gesture

需求与bug解决        做 H5开发的一个需求：页面内有一个按钮点击可以播放语音，产品提供的素材是多段语音，并配有对应文字；bug1: 切换到后台时，语音还在播放，解决方法：增加 visibi...

产品运营经验分享程序员创富创业创新 6个步骤解析“用户运营”

   在快速变化的互联网时代，用户运营不仅关乎用户和企业的关系，也关系着用户投入的成本，良好的产品运营策略能够有效地提升用户活跃度、留存率和转化率。以下将为你揭示用户运营的两大核心：运营主题的3步...

开发语言目标检测经验分享数据分类分级数据识别-excel分类分级模版文件导入、解析

前面讲了数据分类分级数据识别-实现部分敏感数据识别，本次针对模版导入展开，excel导入采用的是easyexcel目录easyexcel介绍easyexcel实战添加依赖读取数据监听器的实现数据读取...

音视频语音识别经验分享今日干货｜给视频添加字幕的软件有哪些？

之前一直在聊视频剪辑，今天来聊聊视频制作的另一个要件，字幕。大家如果有喜欢看国外视频作品生肉的应该会发现，国外尤其是欧美地区，很少在视频作品中添加字幕；但是国内大多数视频观看者对于字幕的依赖程度是相当...

node.js javascript 人工智能语音识别基于Web Speech API给AI语言模型加上语音功能，距离MOSS又近了一步

edge 语音识别 c#经验分享

本文由用户于 2024-02-08 发布在金钥匙，如有疑问，请联系我们。
本文链接：https://www.51969.com/post/18508421.html

0赞

上一篇
语音识别人工智能智能音箱里小度、小爱、天猫精灵哪个更加好？（上）

下一篇
数据库【Sql Server】新手一分钟看懂在已有表基础上修改字段默认值和数据类型

相关文章

游戏引擎 UnityWebGL使用sherpa-ncnn实时语音识别

学习 nginx 数据库服务器 c# Vim如何清空文件

.netcore asp.net c# MongoDB从入门到实战之.NET Core使用MongoDB开发ToDoList系统（8）-Ant Design Blazor前端框架搭建

vue.js 前端 vue对接讯飞语音识别，websocket语音识别连续流式输出

web安全职场和发展【网络安全面经】2024届网络安全岗春招面试题及面试经验分享

经验分享 ai绘画生成器怎么用？教你三个快速绘画的小技巧

经验分享语音翻译有声翻译实时效果怎么样？揭示语音识别的可行性

[手把手教学]实现STM32控制的语音识别的智能家居控制系统

发表评论取消回复

16人参与，2条评论
海豚湾的邂逅
2024-07-20 22:58:47回复
根据您提供的信息，我了解到您想要了解如何调用微软Edge浏览器的大声朗读功能(read aloud)，您已经找到了一些资源和代码示例，但是还有一些问题需要解决。
您提到在模拟Postman请求时，音频格式参数只能是webm-24khz-16bit-mono-opus，这意味着您需要使用其他库(如ffmpeg)来转换音频格式。
您提供的代码示例中存在一些问题，例如在处理WebSocket消息时，您需要根据不同的消息类型进行相应的处理，您还需要在发送语音数据时，将数据添加到正确的请求正文中。
为了解决这些问题，您可以参考以下步骤：
1. 使用合适的库(如ffmpeg)将文本转换为所需的音频格式(如webm-24khz-16bit-mono-opus)。
2. 根据Postman模拟的结果，修改代码以正确设置音频格式参数。
3. 在处理WebSocket消息时，根据不同的消息类型进行相应的处理，当收到包含Path:response的消息时，表示响应已收到，无需进一步处理；当收到包含Path:turn.end的消息时，表示当前会话结束，可以关闭WebSocket连接；当收到包含Path:response的消息时，表示需要发送语音数据。
4. 在发送语音数据时，将数据添加到正确的请求正文中，您可以使用`ConvertToSsmlWebSocketString`函数将文本转换为SSML格式的语音数据，并将其添加到请求正文中。
希望这些建议对您有所帮助，如果您还有其他问题，请随时提问。
彩虹之上约
2024-07-08 20:58:25回复
在使用微软Edge浏览器的大声朗读功能时，如何通过WebSocket协议获取音频格式？

0赞 微信新浪微博QQ空间QQ

TA的新帖
排序算法算法随机化快速排序（Java 实例代码）
2024-07-20
【免费题库】华为OD机试 - 螺旋数字矩阵（Java & JS & Python & C & C++）
2024-07-20
lua 测试工具 Postman获取接口返回值设置为变量，提供给后续接口使用
2024-07-18
java windows jvm 多个JDK版本可以吗：JDK17、JDK19、JDK1.8轻松切换（无坑版）小白也可以看懂
2024-07-15
内容运营产品运营从入门到变现｜全面解析视频号运营规则，看完少走3天弯路！
2024-07-13
软件测试软件测试工程师接口自动化测试史上最强，Jmeter接口测试-dubbo接口实战（超级详细）
2024-07-13
搜索

最新评论
根据您提供的信息，我了解到您想要了解如何调用微软Edge浏览器的大声朗读功能(read aloud)，您已经找到了一些资源和代码示例，但是还有一些问题需要解决。您提到在模拟Postman请求时，音频格式参数只能是webm-24khz-16bit-mono-opus，这意味着您需要使用其他库(如ffmpeg)来转换音频格式。您提供的代码示例中存在一些问题，例如在处理WebSocket消息时，您需要根据不同的消息类型进行相应的处理，您还需要在发送语音数据时，将数据添加到正确的请求正文中。为了解决这些问题，您可以参考以下步骤：1. 使用合适的库(如ffmpeg)将文本转换为所需的音频格式(如webm-24khz-16bit-mono-opus)。2. 根据Postman模拟的结果，修改代码以正确设置音频格式参数。3. 在处理WebSocket消息时，根据不同的消息类型进行相应的处理，当收到包含Path:response的消息时，表示响应已收到，无需进一步处理；当收到包含Path:turn.end的消息时，表示当前会话结束，可以关闭WebSocket连接；当收到包含Path:response的消息时，表示需要发送语音数据。4. 在发送语音数据时，将数据添加到正确的请求正文中，您可以使用`ConvertToSsmlWebSocketString`函数将文本转换为SSML格式的语音数据，并将其添加到请求正文中。希望这些建议对您有所帮助，如果您还有其他问题，请随时提问。
2024-07-20
在sakila.sql文件中，是否存在重复的表定义？如果存在，请列举出具体的表名。
2024-07-20
在测试电脑上无法使用Array.prototype.at()方法，而在自己电脑上可以正常运行，这是因为测试电脑上的浏览器版本较低，不支持该方法，为了解决这个问题，你可以采取以下方法之一：1. 全局捕捉错误并提示用户更新浏览器，这种方法虽然不友好，但可以确保用户能够使用最新的方法。2. 将整个项目中的Array.prototype.at()方法替换为array[array.length - 1]的写法，这种方法需要修改多处代码，可能会带来一定的麻烦。3. 在数组原型上手动实现Array.prototype.at()方法，以便在低版本浏览器中也能够使用该方法，这种方法需要自己编写代码，但可以在项目中广泛使用。以上是针对这个问题提出的三种解决方案，你可以根据实际情况选择其中一种来解决问题。
2024-07-20
自动化测试的目的是解放手工测试，提高测试效率和质量，选择合适的自动化测试方式包括探索式手工测试、依赖脚本的手工测试、生成脚本的测试工具和代码方式，Jmeter是一个市场占有率较高的测试工具，适合用于接口测试、网页测试和性能测试等多方位的测试，编程能力在自动化测试中既重要又不重要，关键在于灵活运用现有框架和技术解决实际问题，Selenium作为自动化辅助工具，可以结合其他测试工具使用，但无法提高测试水平和快速定位bug，没有最好的技术，只有适合的场景和工具。
2024-07-20
在创建面要素时，如何设置面的填充颜色和透明度？
2024-07-20
在使用Flash和Ajax技术时，如何权衡它们的优缺点以满足项目需求？
2024-07-20
域服务 (1)
vivao (1)
spring boot 3 (1)
mobx-state-tree (1)
票务系统 (1)
任务队列 (1)
AI 2.0 时代 (1)
国际学术交流 (1)
aggs (1)
setLayout (1)
SQLite Expert (1)
assimp (1)
手部关节点检测 (1)
供应链 (1)
长三角数学建模‘ (1)
Bug管理工具 (1)
neo4j增删改查操作 (1)
QWidget层级控制 (1)
发展 (1)
jijia2 (1)
Vuforia AR (1)
文件压缩 (1)
体感 (1)
比较火的 Web前端库 (1)
python爬虫案例 (1)

金钥匙

语音识别 c# 经验分享 【API解析】微软edge浏览器大声朗读功能（read aloud）调用步骤

语音识别 人工智能 智能音箱里小度、小爱、天猫精灵哪个更加好？（上）

数据库 【Sql Server】新手一分钟看懂在已有表基础上修改字段默认值和数据类型

相关文章

发表评论取消回复

语音识别 c# 经验分享【API解析】微软edge浏览器大声朗读功能（read aloud）调用步骤

语音识别人工智能智能音箱里小度、小爱、天猫精灵哪个更加好？（上）

数据库【Sql Server】新手一分钟看懂在已有表基础上修改字段默认值和数据类型