TEN VAD & TEN Turn Detection

Weekly Pick

TEN VAD is a low-latency, low-power, high-accuracy voice activity detection AI model. TEN Turn Detection is a context-aware smart dialogue turn management model. Together, they enhance voice agent interactions with natural, fluid conversations and reduced system costs.

Check out TEN VAD & TEN Turn Detection on CurateClick

• Copy the embed code to showcase this product on your website

• Share on X to spread the word about this amazing tool

项目介绍## TEN VADTEN VAD(Voice Activity Detection)是低延迟,低功耗,高准确率的语音活动检测 AI 模型,能够准确检测音频帧中是否存在人声。作为对话式 AI 的核心原子能力,TEN VAD 显著提升语音处理速度,并具有远低于其他 VAD 模型的 RTF,模型轻量。### 项目地址:https://github.com/TEN-framework/ten-vadhttps://huggingface.co/TEN-framework/ten-vad### 性能对比与目前常用的 WebRTC Pitch VAD 和 Silero VAD 相比,在公开的 TEN VAD 测试集上(来自多场景、逐帧人工标注),TEN VAD 展示出了更优的效果。<img src="https://mmbiz.qpic.cn/sz_mmbiz_png/2cpQIKwwSDucK8mIW0ASOZ0iaSvYJnwuosLOySy3ibrOSzc4I95iam5PibKnnsiavUiaGJe9mDqE4cyiazZLC6473qcBA/640?wx_fmt=png&from=appmsg&wxfrom=5&wx_lazy=1&tp=webp" alt="图片" width="600" >在延迟方面 TEN VAD 同样领先。它能快速检测语音与非语音之间的切换,而 Silero VAD 则存在数百毫秒的延迟,导致人机交互系统的端到端延迟和打断延迟增加。<img src="https://mmbiz.qpic.cn/sz_mmbiz_png/2cpQIKwwSDucK8mIW0ASOZ0iaSvYJnwuoOILGkv6ZYPVVPdlFktzS9ptg2IPkV0dS86rCxBKNGViaLx4BkqfWD4Q/640?wx_fmt=png&from=appmsg&wxfrom=5&wx_lazy=1&tp=webp" alt="图片" width="600" >## TEN Turn DetectionTEN Turn Detection 是一款支持情景感知的智能对话轮次管理模型。TEN Turn Detection 解决了人机对话中的关键挑战:准确判断用户何时结束发言,从而让 AI 适时地倾听或回应,实现自然流畅的对话交替。经测试,TEN Turn Detection 在中文对话中对用户对话轮次结束的识别准确率高达 98.9%。### 项目地址:https://huggingface.co/TEN-framework/TEN_Turn_Detectionhttps://github.com/TEN-framework/ten-turn-detection### 效果表现在多场景测试数据集上对比了 TEN Turn Detection 和其他同类开源模型,各模型的表现如下:<img src="https://github.com/user-attachments/assets/3cd11881-b0dd-42f3-96e5-68d47d920ebb" alt="图片" width="600" >## 中文视频演示https://github.com/user-attachments/assets/f3d48ce8-f900-409e-a3b0-cbdfb8807363## 英文视频演示https://github.com/user-attachments/assets/4c1931d9-ec29-4371-920f-5ecf5456289d# 核心优势高质量 - 基于十多年实时语音深度研究经验;- 超低延迟、低功耗、高准确率; 更自然的对话 - 正确处理“打断”、“停顿”、“回应”等人类式交互;- 极大提升用户体验。 成本更低- VAD 准确识别语音帧,有效减少语音识别调用量;- 实测结果显示:两者合用能大幅降低总系统成本。 即插即用 - 可作为主流对话式 AI 智能体开源框架--TEN Framework 的插件模块使用;- 对于已经使用 TEN Framework 的开发者,支持无缝集成;- 对于正在选型 AI Agent 框架的团队,TEN 是具备最佳 VAD 和轮次检测能力的选择之一。