Esp32S3通过文心一言大模型实现智能语音对话
随着物联网(IoT)技术的飞速发展,智能家居设备已成为现代生活的重要组成部分。本文介绍如何结合ESP32-S3微控制器、INMP441数字麦克风、MAX98357音频放大器以及物理按键,利用百度的人工智能技术(特别是文心一言大模型和语音识别/语音合成API),构建一个功能丰富的在线语音助手。这一系统不仅能够实现高质量的语音采集与播放,还能通过智能问答提升用户的交互体验。
前言
效果展示
效果展示录制
一、开发环境介绍
1、arduino开发平台;
2、所需设备:Esp32s3、inmp441、max98357、按键,杜邦线(接线);
3、大模型:百度的文心一言大模型;
4、语音识别(STT)和语音合成(TTS):使用百度语音识别和语音合成;
5、使用语言:C/C++;
二、拓扑图
三、设备购买链接
1、esp32s3:
2、inmp441:
3、max98357:
4、按键:
5、扬声器:
6、杜邦线:
四、接线
1、INMP441与Esp32S3接线
1.1、inmp44介绍
INMP441是一款高性能,低功耗,数字输出,带底部端口的全向MEMS麦克风。该完整的INMP441解决方案由一个MEMS传感器,信号组成调节,模数转换器,抗混叠滤波器,电源管理和行业标准的24位I²S接口。I²S接口允许INMP441直接连接到数字处理器,如DSP和微控制器,无需使用用于系统中的音频编解码器。INMP441具有高信噪比,是一款出色的选择近场应用。 INMP441具有扁平宽带频率响应,导致自然声音高清晰度。
1.2、inmp441接口定义
SCK:I²S接口的串行数据时钟。
WS:用于I²S接口的串行数据字选择。
L/R:左/右声道选择。设置为低电平时,麦克风在I²S帧的左声道输出信号。设置为高电平时,麦克风在右声道输出信号。
SD:I²S接口的串行数据输出。
VDD:输入电源,1.8V至3.3V。
GND:电源地。
1.3、实物图
1.4、接线
Esp32S3 | INMP441 |
GPIO 4引脚 | WS |
GPIO 5引脚 | SCK |
GPIO 6引脚 | SD |
GND引脚 | L/R和GND |
3.3V引脚 | VDD |
2、MAX98357与Esp32S3接线
1、max98357介绍
这是一个采用标准的I2S作为数字音频输入,内置解码器,可将数字音频信号解码为模拟信号,并拥有内置放大器,可以直接驱动扬声器的D类放大器。因其工作效率高,可以以2.7V~5.5V的直流电压运行,因此非常适合便携式及电池供电的音频播放项目
2、max98357接口定义
VIN:电源正(2.5V-5.5V)。
GND:电源地。
SD:关机和频道选择。SD MODE拉低以将器件处于关断状态。
GAIN:增益和频道选择。在TDM模式下,增益固定为12dB。
DIN:数字信号输入。
BCLK:位时钟输入。
LRC:I2S与LJ模式的左/右时钟。同步时钟用于TDM模式。
3、实物图
1.4、接线
Esp32S3 | MAX98357 |
GPIO 16引脚 | DIN |
GPIO 17引脚 | BCLK |
GPIO 18引脚 | LRC |
GND引脚 | GND |
3.3V引脚 | VIN |
3、按键与Esp32S3接线
1、按键介绍
按键按下输出高电平,松开输出低电平,输出电平电压等于电源电压。
2、接口定义
-:电源负极。
中间:电源正极。
S:按键信号输出。
3、实物图
4、接线
Esp32S3 | INMP441 |
GND | -(左侧) |
3.3v引脚 | 中间 |
GPIO 13引脚 | S(右侧) |
4、扬声器与MAX98357接线
这个接线比较简单,自己看着接就行。
5、源码-模块话开发
1、INMP441与MAX98357初始化接口
在my_inmp441_max98357.h文件中,实现初始化inmp441与max98357的接口。
#include <Arduino.h>
#include <driver/i2s.h>
#include <hal/i2s_types.h>
#define INMP441_WS 4
#define INMP441_SCK 5
#define INMP441_SD 6
#define MAX98357_LRC 18
#define MAX98357_BCLK 17
#define MAX98357_DIN 16
#define SAMPLE_RATE 16000
i2s_config_t inmp441_i2s_config = {
.mode = i2s_mode_t(I2S_MODE_MASTER | I2S_MODE_RX),
.sample_rate = SAMPLE_RATE,
.bits_per_sample = i2s_bits_per_sample_t(16),
.channel_format = I2S_CHANNEL_FMT_ONLY_LEFT,
.communication_format = i2s_comm_format_t(I2S_COMM_FORMAT_STAND_I2S),
.intr_alloc_flags = ESP_INTR_FLAG_EDGE,
.dma_buf_count = 8, // buffer 的数量
.dma_buf_len = 128 // buffer的大小,单位是i2s_bits_per_sample_t 采样位数,越小播放需要越及时时延越小,否则相反
};
const i2s_pin_config_t inmp441_gpio_config = {
.bck_io_num = INMP441_SCK,
.ws_io_num = INMP441_WS,
.data_out_num = -1,
.data_in_num = INMP441_SD
};
i2s_config_t max98357_i2s_config = {
.mode = i2s_mode_t(I2S_MODE_MASTER | I2S_MODE_TX),
.sample_rate = SAMPLE_RATE,
.bits_per_sample = i2s_bits_per_sample_t(16),
.channel_format = I2S_CHANNEL_FMT_ONLY_LEFT,
.communication_format = i2s_comm_format_t(I2S_COMM_FORMAT_STAND_MSB),
.intr_alloc_flags = ESP_INTR_FLAG_LEVEL1,
.dma_buf_count = 8,
.dma_buf_len = 128
};
const i2s_pin_config_t max98357_gpio_config = {
.bck_io_num = MAX98357_BCLK,
.ws_io_num = MAX98357_LRC,
.data_out_num = MAX98357_DIN,
.data_in_num = -1
};
void inmp441_max98357_setup()
{
i2s_driver_install(I2S_NUM_0, &inmp441_i2s_config, 0, NULL);
i2s_set_pin(I2S_NUM_0, &inmp441_gpio_config);
i2s_driver_install(I2S_NUM_1, &max98357_i2s_config, 0, NULL);
i2s_set_pin(I2S_NUM_1, &max98357_gpio_config);
}
void inmp441_max98357_loop()
{
uint16_t data[1024];
esp_err_t result;
size_t bytes_read = 0;
result = i2s_read(I2S_NUM_0, &data, sizeof(data), &bytes_read, portMAX_DELAY);
//Serial.println(bytes_read);
size_t bytes_write;
result = i2s_write(I2S_NUM_1, &data, sizeof(data), &bytes_write, portMAX_DELAY);
}
2、STT(语音转文字接口)
在my_stt.h文件中通过百度语音识别API接口实现语音转文字功能。
#include <Arduino.h>
#include <driver/i2s.h>
#include "base64.h"
#include "HTTPClient.h"
#include "cJSON.h"
#include <ArduinoJson.h>
// 1、修改百度语言技术的用户信息:https://console.bce.baidu.com/ai/?fromai=1#/ai/speech/app/list
const int STT_DEV_PID = 1537; //选填,输入法模型 1737-英语 1537-普通话(近场识别模型) 1936-普通话远程识别 1837-四川话
const char *STT_CUID = "CoPY70iMA458XXX4PVLWmlLCruuYQd6G"; //用户唯一标识,用来区分用户,计算UV值。建议填写能区分用户的机器 MAC 地址或 IMEI 码,长度为60字符以内。
const char *STT_CLIENT_ID = "sOKyRkOGpcTYCNvGcd2F1i"; //API Key
const char *STT_CLIENT_SECRET = "CoPY70iMAXXXo2r4PVLWmlLCruuYQd6G"; //Secret Key
String stt_token;
const int adc_data_len = 1024*16*2;
const int data_json_len = adc_data_len * 2 * 1.4;
uint16_t adc_data[adc_data_len];
char data_json[data_json_len];
String stt_gainToken() {
HTTPClient stt_http;
String token;
String url = String("https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=") + STT_CLIENT_ID + "&client_secret=" + STT_CLIENT_SECRET;
stt_http.begin(url);
int httpCode = stt_http.GET();
if (httpCode > 0) {
String payload = stt_http.getString();
DynamicJsonDocument doc(1024);
deserializeJson(doc, payload);
token = doc["access_token"].as<String>();
Serial.println("stt:" + token);
} else {
Serial.println("Error on HTTP request for token");
}
stt_http.end();
return token;
}
void stt_assembleJson() {
memset(data_json, '\0', data_json_len * sizeof(char));
strcat(data_json, "{");
strcat(data_json, "\"format\":\"pcm\",");
strcat(data_json, "\"rate\":16000,");
strcat(data_json, "\"dev_pid\":1537,");
strcat(data_json, "\"channel\":1,");
strcat(data_json, "\"cuid\":\""); strcat(data_json, STT_CUID); strcat(data_json, "\",");
strcat(data_json, "\"token\":\""); strcat(data_json, stt_token.c_str()); strcat(data_json, "\",");
sprintf(data_json + strlen(data_json), "\"len\":%d,", adc_data_len * 2);
strcat(data_json, "\"speech\":\"");
strcat(data_json, base64::encode((uint8_t *)adc_data, adc_data_len * sizeof(uint16_t)).c_str());
//int tmp = base64::decode((char *)adc_data, adc_data_len, data_json);
strcat(data_json, "\"");
strcat(data_json, "}");
//Serial.println(data_json);
}
String getTextFromRespomse(String response)
{
// Parse JSON response
DynamicJsonDocument jsonDoc(1024);
deserializeJson(jsonDoc, response);
String outputText = jsonDoc["result"];
int len = strlen(outputText.c_str());
String output = outputText.substring(2, len-2);
Serial.println(output);
return output;
}
String sendToSTT() {
stt_assembleJson();
HTTPClient http_client_stt;
http_client_stt.begin("http://vop.baidu.com/server_api");//短语音识别请求地址: 标准版http://vop.baidu.com/server_api, 极速版https://vop.baidu.com/pro_api
http_client_stt.addHeader("Content-Type", "application/json");
int httpCode = http_client_stt.POST(data_json);
if (httpCode > 0) {
if (httpCode == HTTP_CODE_OK) {
String response = http_client_stt.getString();
Serial.println(response);
String outputText = getTextFromRespomse(response);
http_client_stt.end();
return outputText;
}
} else {
Serial.printf("[HTTP] POST failed, error: %s\n", http_client_stt.errorToString(httpCode).c_str());
http_client_stt.end();
return String("响应失败请重新获取!");
}
}
void stt_setup()
{
stt_token = stt_gainToken();
//Serial.println(stt_token.c_str());
}
3、通过API接口访问文心一言大模型
在my_ErnieBot.h文件中实现访问文心一言大模型API接口获取响应结果。
#include <HTTPClient.h>
#include <ArduinoJson.h>
// Replace with your OpenAI API key
const char* ERNIE_BOT_CLIENT_ID = "vCe0kXozsI5LC8BJNJsQ9";//API Key
const char* ERNIE_BOT_CLIENT_SECRET = "3iTfnHRaoP0Uiml00ACw6TPFsHbFt5";//Secret Key
String ErnieBot_accessToken;
String ErnieBotGainToken() {
HTTPClient http;
String token;
String url = String("https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=") + ERNIE_BOT_CLIENT_ID + "&client_secret=" + ERNIE_BOT_CLIENT_SECRET;
http.begin(url);
int httpCode = http.GET();
if (httpCode > 0) {
String payload = http.getString();
DynamicJsonDocument doc(1024);
deserializeJson(doc, payload);
token = doc["access_token"].as<String>();
Serial.println("ErnieBot:" + token);
} else {
Serial.println("Error on HTTP request for token");
}
http.end();
return token;
}
String getErnieBotAnswer(String inputText) {
//Serial.println(inputText.c_str());
HTTPClient http;
http.setTimeout(1000000);
String apiUrl = String("https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/completions?access_token=") + ErnieBot_accessToken.c_str();
http.begin(apiUrl);
http.addHeader("Content-Type", "application/json");
String payload = "{\"messages\":[{\"role\": \"user\",\"content\": \"" + inputText + "两百字以内。" + "\"}],\"disable_search\": false,\"enable_citation\": false}";
Serial.println(payload.c_str());
int httpResponseCode = http.POST(payload);
if (httpResponseCode == 200) {
String response = http.getString();
http.end();
Serial.println(response);
// Parse JSON response
DynamicJsonDocument jsonDoc(1024);
deserializeJson(jsonDoc, response);
String outputText = jsonDoc["result"];
return outputText;
} else {
http.end();
Serial.printf("Error %i \n", httpResponseCode);
return "<error>";
}
}
void ErnieBot_setup() {
ErnieBot_accessToken = ErnieBotGainToken();
//Serial.println(ErnieBot_accessToken.c_str());
String answer = getErnieBotAnswer("你好,文心一言");
Serial.println("<Test Answer: " + answer);
}
4、TTS(文字转语音接口)
在my_tts.h文件中通过百度语音识别API接口实现文字转语音功能。
#include <HTTPClient.h>
#include <ArduinoJson.h>
#include <base64.h>
#include "cJSON.h"
// 1、修改百度语言技术的用户信息:https://console.bce.baidu.com/ai/?fromai=1#/ai/speech/app/list
const char *TTS_CUID = "CoPY70iMA458o2r4xxxmlLCruuYQd6G"; //用户唯一标识,用来区分用户,计算UV值。建议填写能区分用户的机器 MAC 地址或 IMEI 码,长度为60字符以内。
const char *TTS_CLIENT_ID = "sOKyRkOGpc74TYxxvGcd2F1i"; //API Key
const char *TTS_CLIENT_SECRET = "CoPY70iMA45xx2r4PVLWmlLCruuYQd6G"; //Secret Key
String tts_token;
String tts_gainToken() {
HTTPClient http;
String token;
String url = String("https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=") + TTS_CLIENT_ID + "&client_secret=" + TTS_CLIENT_SECRET;
http.begin(url);
int httpCode = http.GET();
if (httpCode > 0) {
String payload = http.getString();
DynamicJsonDocument doc(1024);
deserializeJson(doc, payload);
token = doc["access_token"].as<String>();
Serial.println("tts:" + token);
} else {
Serial.println("Error on HTTP request for token");
}
http.end();
return token;
}
// 百度语音合成的API URL
const char* tts_url = "https://tsn.baidu.com/text2audio"; //https://tsn.baidu.com/text2audio
String sendToTTS(String InputText, int *len) {
InputText = urlEncode(InputText);//tex字段2次urlencode
InputText = urlEncode(InputText);//百度为了更好地兼容,支持1次及2次urlencode, 其中2次urlencode可以覆盖全部的特殊字符。因而推荐传递tex 参数时做2次urlencode编码。
HTTPClient http;
http.begin(tts_url); // 初始化HTTP请求
http.addHeader("Content-Type", "application/x-www-form-urlencoded"); // 根据API要求添加HTTP头 application/x-www-form-urlencoded
String payload = String("tex=")+InputText.c_str()+String("&tok=")+tts_token.c_str()+String("&cuid=")+TTS_CUID+String("&ctp=1&lan=zh&spd=5&pit=5&vol=1&per=5&aue=4");
Serial.println(payload);
String outputText;
int httpCode = http.POST(payload); // 发送POST请求
if (httpCode == HTTP_CODE_OK) {
String response = http.getString(); // 获取响应体
//Serial.println(response);
*len = http.getSize();
Serial.println(*len);
http.end(); // 结束HTTP请求
return response;
} else {
Serial.println("Error in the HTTP request");
outputText = String("Error in the HTTP request");
}
http.end(); // 结束HTTP请求
return outputText;
}
void tts_setup()
{
tts_token = tts_gainToken();
//Serial.println(tts_token.c_str());
}
5、WiFi模块
在my_wifi.h文件中初始化wifi功能。
#include <WiFi.h>
void wifi_setup() {
WiFi.disconnect(true);
// 3、填写您的wifi账号密码
WiFi.begin("name", "password");
while (WiFi.status() != WL_CONNECTED) {
Serial.print(".");
vTaskDelay(200);
}
Serial.println("\n-- wifi connect success! --");
}
6、效果展示
整体流程已经基本调通,效果展示在帖子最前面。
各模块源码无保留在第五章节,loop()函数各位老铁自己调用模块接口实现。
从无到有实现目前的效果,有参考其他大佬的帖子,也有自己摸索实现的部分,知识劳动成果,实属不易。
如果需要技术支持,欢迎骚扰(+v:Sw-striving)!
更多推荐
所有评论(0)