Skip to main content

CurateClick

github.com favicon

py-xiaozhi 小智语音AI助手

Weekly Pick

一个基于Python实现的轻量级AI语音助手,支持语音交互、多模态视觉识别、IoT设备控制和音乐播放等功能,无需专用硬件即可体验。

Check out py-xiaozhi 小智语音AI助手 on CurateClick

• Copy the embed code to showcase this product on your website

• Share on X to spread the word about this amazing tool

py-xiaozhi 小智语音AI助手一个基于移植到Python实现的小智AI语音助手客户端,支持语音交互、多模态视觉识别、IoT设备控制、联网音乐播放等功能,无需专用硬件即可体验AI语音助手的智能交互。## 预览## 项目背景本项目基于开源项目进行Python生态的移植重构,通过桌面端软件方案复现智能语音交互核心功能。相较于原ESP32硬件方案,本实现采用纯Python开发并整合PyAudio、Vosk等开源库,在保留唤醒词识别、语音对话、指令执行等核心功能的同时,实现了功能扩展,使普通用户无需专用硬件设备即可体验AI语音交互技术。## 解决的痛点- :传统语音助手需要专用硬件,成本高且不便携,本项目仅需普通电脑和麦克风- :市面上缺乏开源的AI语音交互学习平台,本项目提供完整源码和详细文档- :大多数开源语音助手功能单一,本项目集成多种智能交互功能- :闭源系统难以进行个性化定制,本项目采用模块化设计便于扩展- :很多语音助手只支持特定平台,本项目支持Windows、macOS和Linux## 解决方案- :使用Python实现全功能AI语音助手,无需专用硬件- :提供完整源代码和详细文档,便于学习和二次开发- :集成语音交互、多模态视觉、IoT控制、音乐播放等多种功能- :采用分层架构设计,各功能模块职责明确,便于扩展和定制- :经过充分测试,确保在Windows、macOS和Linux系统上稳定运行## 功能特点### 语音交互- :支持长按对话模式(按住说话,松手发送)和自动对话模式(自动检测语音并发送)- :支持自定义唤醒词激活系统,免去手动操作(默认使用"小智小智"作为唤醒词)- :支持在AI回答过程中随时打断,实现更自然的对话体验- :智能保持对话上下文,无需重复唤醒即可继续对话- :采用WSS协议,保障音频数据的安全传输### 视觉多模态- :支持通过语音命令打开/关闭摄像头- :集成智普视觉大模型,能够分析和描述摄像头捕获的画面内容- :适用于物体识别、场景描述、文字识别等多种视觉任务### IoT设备控制- :采用ThingManager统一管理所有IoT设备- :基于Thing基类的设备抽象,便于添加自定义设备- :内置灯控、温度传感器等虚拟设备,便于功能演示- :实时同步和显示设备状态变化### 音乐播放- :支持通过歌名、歌手搜索在线音乐资源- :支持播放、暂停、上一首、下一首等基本控制- :支持显示当前播放歌曲的歌词- :支持查看和调整播放进度- :自动缓存播放过的音乐,减少流量消耗### 系统功能- :支持图形界面(GUI)和命令行界面(CLI)两种运行模式- :提供统一的音量控制接口,支持各大主流操作系统- :直观显示系统当前状态和操作反馈- :支持通过config.json自定义各项功能参数- :首次使用时自动复制验证码并打开浏览器,简化用户操作## 技术栈- :Python 3.9-3.12- :PyAudio, Opus (音频编解码)- :Vosk (离线语音唤醒)- :Tkinter (轻量级跨平台界面)- :WebSocket/MQTT (双协议支持)- :Pygame (高性能音乐播放)- :自定义协议 (设备抽象和管理)- :OpenCV, 智普视觉API## 项目结构## 安装运行1. 克隆项目仓库 2. 安装依赖 - 请根据项目根目录的docs下的文档进行安装其他第三方依赖 3. 运行程序 ## 使用说明### 基本操作- :运行main.py- :点击麦克风按钮或使用唤醒词激活- :等待AI回复完成或点击停止按钮- :在AI回答过程中使用F3键或界面按钮打断- :使用界面上的音量滑块调节### 语音命令示例- :"你好"、"你是谁"、"谢谢"、"再见"- :"打开/关闭客厅的灯"- :"播放周杰伦的稻香。"- :"打开摄像头"、"识别画面"、"关闭摄像头"- :"把音量调到50%"、"音量调小一点"### 配置说明- :在config.json中设置USE_WAKE_WORD为true- :配置CAMERA部分的参数,包括摄像头索引和视觉API密钥- :调整AUDIO部分的参数,包括采样率和缓冲区大小- :设置默认通信协议(WebSocket或MQTT)### 高级功能- :通过继承Thing基类创建自定义设备- :接入智普视觉大模型API,实现更强大的视觉分析能力- :设置定时任务或条件触发的自动化场景## 状态流转图## 常见问题解决- :检查麦克风和扬声器是否正常连接和启用- :确认config.json中USE_WAKE_WORD设置为true,模型路径正确- :检查网络设置和防火墙配置,确保WebSocket通信未被阻止- :确认摄像头权限已授予,智普API密钥正确配置## 贡献与支持- 欢迎提交和Pull Requests- 遵循PEP8代码规范和模块化设计原则- 加入交流使用心得- 支持项目发展,成为## 许可证

Latest Weekly Picks

Predict video virality before you publish.

Virality Predictor

Powerful Motion Control AI Video Generator

Motion Control AI

PlusGO 是面向中国大陆用户的 ChatGPT Plus 代充值服务平台。使用官方 CDKey,支持支付宝和微信扫码支付,平均 2 分钟完成 Plus 开通,自 2025 年起已为超过 10,000 名用户完成充值。

www.toolcenter.ai favicon
Weekly Pick

Discover the Best AI & Productivity Tools — 1,500+ tools with honest reviews.

ToolCenter
huntereyes.net favicon
Weekly Pick

AI Eye Area Evaluation

Hunter Eyes
www.payforchat.com favicon
Weekly Pick

Subscribe to ChatGPT Plus/Pro in 1 minute — no international credit card needed.

PayForChat
happyhorseai.ai favicon
Weekly Pick

Happy Horse AI Creates Videos with Motion and Storytelling

Happy Horse
promptbuilder.cc favicon
Weekly Pick

Generate, optimize, test, and manage AI prompts in one place. Turn an idea into a ready-to-use prompt in seconds.

Prompt Builder