Golang 基于chrome浏览器语音识别web演示系统WebHTK开发之 HTML5 录音篇(网络,golang,教程,人工智能,编程语言)

学院与科大讯飞合作“厦门大学-科大讯飞闽南语语音与语言联合实验室”，第一阶段的语音识别演示系统，可能只是简单的闽南语孤立词识别。现成的演示系统有去年写的android演示程序。打算再写个PC端的演示系统，基本的引擎已经搭建好，后续界面和数据库方面再调整优化。再来，最近学习Golang，怎么可以不用上呢？web版演示系统，golang（Beego框架）（后端） + HTML5（前端） + MongoDB（数据库）。

本节，主要讲解web前端的录音工作，以及通过HTML5 websocket传输音频流数据到后端并保存。

来看下代码：

record.html:

这段代码关键在于navigator.getUserMedia来获得客户端的媒体资源。进入该页面，将向chrome浏览器客户端请求媒体资源。请求成功后：

开始录音，执行rec.record()，看下recorder.js：

this.node.onaudioprocess，从录音缓冲去录音samples数据，注意：

buffer将从录音设备获取两个声道的数据。

recorderWorker.js

目前,只能录制48000Hz 16Bit 数据。我调整了录制参数，所需目标格式为8000Hz 16Bit Mono语音数据，但是失败了，录制出的数据仍然是48000Hz 16Bit。由于对前端javascript代码完全不了解，后续再来研究怎么解决这个录音格式的问题。

补：录制单声道的话，在recorder.js中修改this.context.createJavaScriptNode(bufferLen, 1, 1)，在recorderWorker.js中把右声道的数据都砍掉就ok了。

再回头看record.html中：

每次刷新登入该页面，客户端就会向服务器发送websocket握手请求，握手成功后，js代码中录好音之后将ws.send(数据)对应到button上，点击按钮就可发送数据了。

golang beego框架后端怎么来处理数据呢？在页面对应的controllers上的代码上定义controller的join方法，代码较为简陋，初步实现功能，后续加上channel等来完善：

在路由设置上：

补：

注意到在record.html中：

setInterval函数中function里ws.send(blob)每过3秒就往服务器发送blob数据，在 recorderWorker.js中的encordWAV函数中，往裸语音数据数据加44位wav头数据，而数据的长度一直是本周期内所录语音数据的长度，这就会出现，最后在服务器保存了3秒以上的数据，但是读到的wav头中关于数据长度的值则只有3秒或3秒以内。并且，每次都往数据wav头也是不对的，44位wav并不是有效的语音数据。所以在recorderWorker.js中应修改encordWAV代码：

这样就直接往服务器传输裸语音数据流，在record.html上点击发送按钮的事件函数里，添加

服务器就能收到收到数据的samplerate采样率，channels声道数。相应的在golang服务器代码join方法中，添加写44位wav头的代码，把这数据头写在裸语音数据缓存的最前端并保存wav文件即可：

如果需要去除语音的静音部分，参考我的github：github.com/liuxp0827/waveIO。最新的waveIO包没来得及上传，对delSilence函数做下修改即可。

完整代码，请浏览附件：http://down.51cto.com/data/1092540。

这样，从前端录音，到websocket传输数据，再到beego后端读写数据到服务器本地就可实现了