Skip to main content

Sora Watermark Remover - Allows you to remove the watermark from Sora videos.Try Now

CurateClick

github.com favicon

py-xiaozhi 小智语音AI助手

Weekly Pick

一个基于Python实现的轻量级AI语音助手,支持语音交互、多模态视觉识别、IoT设备控制和音乐播放等功能,无需专用硬件即可体验。

Check out py-xiaozhi 小智语音AI助手 on CurateClick

• Copy the embed code to showcase this product on your website

• Share on X to spread the word about this amazing tool

py-xiaozhi 小智语音AI助手一个基于移植到Python实现的小智AI语音助手客户端,支持语音交互、多模态视觉识别、IoT设备控制、联网音乐播放等功能,无需专用硬件即可体验AI语音助手的智能交互。## 预览## 项目背景本项目基于开源项目进行Python生态的移植重构,通过桌面端软件方案复现智能语音交互核心功能。相较于原ESP32硬件方案,本实现采用纯Python开发并整合PyAudio、Vosk等开源库,在保留唤醒词识别、语音对话、指令执行等核心功能的同时,实现了功能扩展,使普通用户无需专用硬件设备即可体验AI语音交互技术。## 解决的痛点- :传统语音助手需要专用硬件,成本高且不便携,本项目仅需普通电脑和麦克风- :市面上缺乏开源的AI语音交互学习平台,本项目提供完整源码和详细文档- :大多数开源语音助手功能单一,本项目集成多种智能交互功能- :闭源系统难以进行个性化定制,本项目采用模块化设计便于扩展- :很多语音助手只支持特定平台,本项目支持Windows、macOS和Linux## 解决方案- :使用Python实现全功能AI语音助手,无需专用硬件- :提供完整源代码和详细文档,便于学习和二次开发- :集成语音交互、多模态视觉、IoT控制、音乐播放等多种功能- :采用分层架构设计,各功能模块职责明确,便于扩展和定制- :经过充分测试,确保在Windows、macOS和Linux系统上稳定运行## 功能特点### 语音交互- :支持长按对话模式(按住说话,松手发送)和自动对话模式(自动检测语音并发送)- :支持自定义唤醒词激活系统,免去手动操作(默认使用"小智小智"作为唤醒词)- :支持在AI回答过程中随时打断,实现更自然的对话体验- :智能保持对话上下文,无需重复唤醒即可继续对话- :采用WSS协议,保障音频数据的安全传输### 视觉多模态- :支持通过语音命令打开/关闭摄像头- :集成智普视觉大模型,能够分析和描述摄像头捕获的画面内容- :适用于物体识别、场景描述、文字识别等多种视觉任务### IoT设备控制- :采用ThingManager统一管理所有IoT设备- :基于Thing基类的设备抽象,便于添加自定义设备- :内置灯控、温度传感器等虚拟设备,便于功能演示- :实时同步和显示设备状态变化### 音乐播放- :支持通过歌名、歌手搜索在线音乐资源- :支持播放、暂停、上一首、下一首等基本控制- :支持显示当前播放歌曲的歌词- :支持查看和调整播放进度- :自动缓存播放过的音乐,减少流量消耗### 系统功能- :支持图形界面(GUI)和命令行界面(CLI)两种运行模式- :提供统一的音量控制接口,支持各大主流操作系统- :直观显示系统当前状态和操作反馈- :支持通过config.json自定义各项功能参数- :首次使用时自动复制验证码并打开浏览器,简化用户操作## 技术栈- :Python 3.9-3.12- :PyAudio, Opus (音频编解码)- :Vosk (离线语音唤醒)- :Tkinter (轻量级跨平台界面)- :WebSocket/MQTT (双协议支持)- :Pygame (高性能音乐播放)- :自定义协议 (设备抽象和管理)- :OpenCV, 智普视觉API## 项目结构## 安装运行1. 克隆项目仓库 2. 安装依赖 - 请根据项目根目录的docs下的文档进行安装其他第三方依赖 3. 运行程序 ## 使用说明### 基本操作- :运行main.py- :点击麦克风按钮或使用唤醒词激活- :等待AI回复完成或点击停止按钮- :在AI回答过程中使用F3键或界面按钮打断- :使用界面上的音量滑块调节### 语音命令示例- :"你好"、"你是谁"、"谢谢"、"再见"- :"打开/关闭客厅的灯"- :"播放周杰伦的稻香。"- :"打开摄像头"、"识别画面"、"关闭摄像头"- :"把音量调到50%"、"音量调小一点"### 配置说明- :在config.json中设置USE_WAKE_WORD为true- :配置CAMERA部分的参数,包括摄像头索引和视觉API密钥- :调整AUDIO部分的参数,包括采样率和缓冲区大小- :设置默认通信协议(WebSocket或MQTT)### 高级功能- :通过继承Thing基类创建自定义设备- :接入智普视觉大模型API,实现更强大的视觉分析能力- :设置定时任务或条件触发的自动化场景## 状态流转图## 常见问题解决- :检查麦克风和扬声器是否正常连接和启用- :确认config.json中USE_WAKE_WORD设置为true,模型路径正确- :检查网络设置和防火墙配置,确保WebSocket通信未被阻止- :确认摄像头权限已授予,智普API密钥正确配置## 贡献与支持- 欢迎提交和Pull Requests- 遵循PEP8代码规范和模块化设计原则- 加入交流使用心得- 支持项目发展,成为## 许可证

Latest Weekly Picks

Impromptu Speech Topics & Timer

Seedance 2.0: Multimodal AI video creator. Precisely direct characters and cameras to create production-ready, multi-shot cinematic stories in one click.

valrequest.net favicon
Weekly Pick

Turn Feelings Into Words

ValRequest

One‑stop AI video creation suite for image‑to‑video and more.

banana-ai.org favicon
Weekly Pick

Nano Banana AI is an AI photo tool for image generation and editing, enabling fast text-prompt edits, style transformations, and photorealistic results.

Nano Banana AI

Try Different Hairstyles Instantly

seedance2.ai favicon
Weekly Pick

Seedance 2 Delivers High Fidelity Motion and Audio Sync

Seedance 2
nanobananaimg.com favicon
Weekly Pick

Nano Banana AI Image Generator for Professional Image Creation with Nano Banana Pro Models

Nano Banana