当前位置：移动技术网 > IT编程>开发语言>JavaScript > 30分钟快速实现小程序语音识别功能

30分钟快速实现小程序语音识别功能

2018年12月05日 | 移动技术网IT编程 | 我要评论

前言

为了参加某个作秀活动，研究了一波如何结合小程序、科大讯飞实现语音录入、识别的实现。科大讯飞开发文档中只给出 python 的 demo，并没有给出 node.js 的 sdk，但问题不大。本文将从小程序相关代码到最后对接科大讯飞 api 过程，一步步介绍，半个小时，搭建完成小程序语音识别功能！不能再多了！

当然，前提是最好掌握有一点点小程序、node.js 甚至是音频相关的知识。下面话不多说了，来一起看看详细的介绍吧

架构先行

架构比较简单，大伙儿可以先看下图。除了小程序，需要提供 3 个服务，文件上传、音频编码及对接科大讯飞的服务。
node.js 对接科大讯飞的 api，npm 上已经有同学提供了 sdk，有兴趣的同学可以去搜索了解一下，笔者这里是直接调用了科大讯飞的 api 接口。

撸起袖子加油干

1、创建小程序

鹅厂的小程序文档非常详细，在这里笔者就不对如何创建一个小程序的步骤进行详细阐述了。有需要的同学可以查看鹅厂的。

1.1 相关代码

我们摘取小程序里面，语音录入和语音上传部分的代码。

// 根据wx提供的api创建录音管理对象
const recordermanager = wx.getrecordermanager();

// 监听语音识别结束后的行为
recordermanager.onstop(recorderresponse => {
 // tempfilepath 是录制的音频文件
 const { tempfilepath } = recorderresponse;

 // 上传音频文件，完成语音识别翻译
 wx.uploadfile({
 url: 'http://127.0.0.1:7001/voice', // 该服务在后面搭建。另外，小程序发布时要求后台服务提供https服务！这里的地址仅为开发环境配置。
 filepath: tempfilepath,
 name: 'file',
 complete: res => {
  console.log(res); // 我们期待res，就是翻译后的内容
 }
 });
});

// 开始录音，触发条件可以是按钮或其他，由你自己决定
recordermanager.start({
 duration: 5000 // 最长录制时间
 // 其他参数可以默认，更多参数可以查看https://developers.weixin.qq.com/miniprogram/dev/api/media/recorder/recordermanager.start.html
});

2、搭建文件服务器

步骤 1 代码中提到了一个 url 地址大家应该都还记得。

http://127.0.0.1:7001/voice

小程序本身还并没有提供语音识别的功能，所以在这里我们需要借助于“后端”服务的能力，完成我们语音识别翻译的功能。

2.1 egg.js 服务初始化

我们使用 egg.js 的 cli 快速初始化一个工程，当然你也可以使用 express、koa、kraken 等等框架，框架的选型在此不是重点我们就不做展开阐述了。对 egg.js 不熟悉的同学可以查看。

npm i egg-init -g
egg-init voice-server --type=simple
cd voice-server
npm i

安装完成后，执行以下代码

npm run dev

随后访问浏览器http://127.0.0.1:7001应该可以看到一个hi, egg 的页面。至此我们的服务初始化完成。

2.2 文件上传接口

a) 修改 egg.js 的文件上传配置

打开 config/config.default.js，添加以下两项配置

module.exports = appinfo => {
 ...
 config.multipart = {
 filesize: '2gb', // 限制文件大小
 whitelist: [ '.aac', '.m4a', '.mp3' ], // 支持上传的文件后缀名
 };

 config.security = {
 csrf: {
  enable: false // 关闭csrf
 }
 };
 ...
}

b) 添加 voicecontroller

打开 app/controller 文件夹，新建文件 voice.js。编写 voicecontroller 使其继承于 egg.js 的 controller。具体代码如下：

const controller = require('egg').controller;
const fs = require('fs');
const path = require('path');
const pump = require('mz-modules/pump');
const uuidv1 = require('uuid/v1'); // 依赖于uuid库，用于生成唯一文件名，使用npm i uuid安装即可

// 音频文件上传后存储的路径
const targetpath = path.resolve(__dirname, '..', '..', 'uploads');

class voicecontroller extends controller {
 constructor(params) {
 super(params);
 if (!fs.existssync(targetpath)) {
  fs.mkdirsync(targetpath);
 }
 }

 async translate() {
 const parts = this.ctx.multipart({ autofields: true });
 let stream;
 const voicepath = path.join(targetpath, uuidv1());
 while (!isempty((stream = await parts()))) {
  await pump(stream, fs.createwritestream(voicepath));
 }
 // 到这里就完成了文件上传。如果你不需要文件落地，也可以在后续的操作中，直接使用stream操作文件流

 ...
 // 音频编码
 // 科大讯飞语音识别
 ...
 }
}

c) 最后一步，新增路由规则

写完 controller 之后，我们依据 egg.js 的规则，在 router.js 里面新增一个路由。

module.exports = app => {
 const { router, controller } = app;
 router.get('/', controller.home.index);
 router.get('/voice', controller.voice.translate);
};

ok，至此你可以测试一下从小程序录音，录音完成后上传到后台文件服务器的完整流程。如果没问题，那恭喜你你已经完成了 80%的工作了！

3、音频编码服务

在上文中，小程序录音的方法 recordermanager.start 的时候我们提及到了“更多参数”。其中有一个参数是 format，支持 aac 和 mp3 两种（默认是 aac）。然后我们查阅了科大讯飞的 api 文档，音频编码支持“未压缩的 pcm 或 wav 格式”。

什么 aac、pcm、wav？emmm.. ok，我们只是前端，既然格式不对等，那只需要完成 aac -> pcm 转化即可，ffmpeg 立即浮现在笔者的脑海里。一番搜索，命令大概是这样子的：

ffmpeg -i uploads/a3f588d0-edf8-11e8-b6f5-2929aef1b7f8.aac -f s16le -ar 8000 -ac 2 -y decoded.pcm

# -i 后面带的是源文件
# -f s16le 指的是编码格式
# -ar 8000 编码码率
# -ac 2 通道

接下来我们使用 node.js 来实现上述命令。

3.1 引入相关依赖包

npm i ffmpeg-static
npm i fluent-ffmpeg

3.2 创建一个编码服务

在 app/service 文件夹中，创建 ffmpeg.js 文件。新建 ffmpegservice 继承于 egg.js 的 service

const { service } = require('egg');
const ffmpeg = require('fluent-ffmpeg');
const ffmpegstatic = require('ffmpeg-static');
const path = require('path');
const fs = require('fs');

ffmpeg.setffmpegpath(ffmpegstatic.path);

class ffmpegservice extends service {
 async aac2pcm(voicepath) {
  const command = ffmpeg(voicepath);

  // 方便测试，我们将转码后文件落地到磁盘
  const targetdir = path.join(path.dirname(voicepath), 'pcm');
  if (!fs.existssync(targetdir)) {
   fs.mkdirsync(targetdir);
  }

  const target = path.join(targetdir, path.basename(voicepath)) + '.pcm';
  return new promise((resolve, reject) => {
   command
    .audiocodec('pcm_s16le')
    .audiochannels(2)
    .audiobitrate(8000)
    .output(target)
    .on('error', error => {
     reject(error);
    })
    .on('end', () => {
     resolve(target);
    })
    .run();
  });
 }
}

module.exports = ffmpegservice;

3.3 调用 ffmpegservice，获得 pcm 文件

回到 app/controller/voice.js 文件中，我们在文件上传完成后，调用 ffmpegservice 提供的 aac2pcm 方法，获取到 pcm 文件的路径。

// app/controller/voice.js
...
async translate() {
 ...
 ...
 const pcmpath = await this.ctx.service.ffmpeg.aac2pcm(voicepath);
 ...
}
...

4、对接科大讯飞 api

首先，需要到科大讯飞开放平台注册并新增应用、开通应用的语音听写服务。

我们再写一个服务，在 app/service 文件夹下创建 xfyun.js 文件，实现 xfyunservice 继承于 egg.js 的 service。

4.1 引入相关依赖

npm i axios // 网络请求库
npm i md5 // 科大讯飞接口中需要md5计算
npm i form-urlencoded // 接口中需要对部分内容进行urlencoded

4.2 xfyunservice 实现

const { service } = require('egg');
const fs = require('fs');
const formurlencoded = require('form-urlencoded').default;
const axios = require('axios');
const md5 = require('md5');
const api_key = 'xxxx'; // 在科大讯飞控制台上可以查到服务的apikey
const api_id = 'xxxxx'; // 同样可以在控制台查到

class xfyunservice extends service {
 async voicetranslate(voicepath) {
  // 继上文，暴力的读取文件
  let data = fs.readfilesync(voicepath);
  // 将内容进行base64编码
  data = new buffer(data).tostring('base64');
  // 进行url encode
  data = formurlencoded({ audio: data });
  const params = {
   engine_type: 'sms16k',
   aue: 'raw'
  };
  const x_curtime = math.floor(new date().gettime() / 1000) + '',
   x_param = new buffer(json.stringify(params)).tostring('base64');
  return axios({
   url: 'http://api.xfyun.cn/v1/service/v1/iat',
   method: 'post',
   data,
   headers: {
    'x-appid': api_id,
    'x-curtime': x_curtime,
    'x-param': x_param,
    'x-checksum': md5(api_key + x_curtime + x_param)
   }
  }).then(res => {
   // 查询成功后，返回response的data
   return res.data || {};
  });
 }
}

module.exports = xfyunservice;

4.3 调用 xfyunservice，完成语音识别

再次回到 app/controller/voice.js 文件中，我们在 ffmpeg 转码完成后，调用 xfyunservice 提供的 voicetranslate 方法，完成语音识别。

// app/controller/voice.js
...
async translate() {
 ...
 ...
 const result = await this.ctx.service.xfyun.voicetranslate(pcmpath);
 this.ctx.body = result;
 if (+result.code !== 0) {
  this.ctx.status = 500;
 }
}
...

至此我们完成语音识别的代码编写。主要流程其实很简单，通过小程序录入语音文件，上传到文件服务器之后，通过 ffmpeg 获取到 pcm 文件，最后再转发到科大讯飞的 api 接口进行识别。

以上，如有错漏，欢迎指正！

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，如果有疑问大家可以留言交流，谢谢大家对移动技术网的支持。

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

06.字典、集合和序列

1.字典练习练习题：字典基本操作字典内容如下:dic = {‘python’: 95,‘java’: 99,‘c... [阅读全文]
多线程爬取狗妈表情包

通过多线程爬取狗妈表情包import requestsimport jsonfrom jsonpath impo... [阅读全文]
Python：数据导出到Excel（使用xlwt）

写在前面：前端ajax调用导出方法，ajax无法导出问题原因：ajax是无法直接导出excel的，因为ajax的... [阅读全文]
selenium + ajax抓取英雄联盟全部英雄的详细信息及多线程保存全部皮肤图片到本地

爬虫代码如下：运行需要本地开启mongo服务器端，安装有谷歌浏览器及selenium对应版本的驱动文件#codi... [阅读全文]
MongoDB基础操作

一、概述在MongoDB数据库里是存在有数据库的概念，但是没有模式（所有的信息都是按照文档保存的），保存数据的结... [阅读全文]
nodejs中mysql的用法

1、建立数据库连接：createConnection(Object)方法该方法接受一个对象作为参数，该对象有四个... [阅读全文]
Node.js 连接 MySQL

导言在我们学习后端（node）的过程中，要时常和数据库打交道，所以说我们打通node、MySQLJavaScri... [阅读全文]
Mysql trace命令介绍

trace作用：对SQL的跟踪，可以知道SQL是如何执行的，比EXPLAIN还要强大。注意点：开启trace工具... [阅读全文]
详解JavaScript作用域闭包

javascript闭包，是js开发工程师必须深入了解的知识。3月份自己曾撰写博客《javascript闭包》，博客中只是简单阐述了闭包的工作过程和列举了几个示... [阅读全文]
深入了解JavaScript词法作用域

javascript并不是传统的块级作用域，而是函数作用域！一、作用域 javascript引擎在代码执行前会对其进行编译，在这个过程中，像var a = 2... [阅读全文]

网友评论


验证码：

30分钟快速实现小程序语音识别功能

2018年12月05日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论