# 开源文本转语音模型VibeVoice

*Published:* 2026-04-07
*Author:* 星云小管家

VibeVoice-ASR是一款统一的语音转文字模型，旨在一次性处理时长60分钟的长音频，生成包含说话者（Who）、时间（When）和内容（What）的结构化转录文本，支持自定义热词和50多种语言。

型号：VibeVoice-ASR-7B  
演示：VibeVoice-ASR-演示  
报告：VibeVoice-ASR-报告  
微调：微调指南  
vLLM：vLLM-asr

🔥 主要特点  
🕒 60分钟单次处理：与传统的ASR模型将音频分割成短片段（往往会丢失全局上下文）不同，VibeVoice ASR可在64K标记长度内接受长达60分钟的连续音频输入。这确保了整个小时内说话人跟踪的一致性和语义连贯性。

👤 自定义热词：用户可以提供自定义热词（例如，特定名称、技术术语或背景信息）来指导识别过程，从而显著提高特定领域内容的准确性。

📝 丰富转录（谁，何时，何事）：该模型联合执行自动语音识别（ASR）、对话分离和打时间戳，生成结构化输出，表明谁在何时说了什么。

🌍 多语言与语码转换支持：该系统支持超过50种语言，无需进行明确的语言设置，并能原生处理话语内和话语间的语码转换。

GitHub地址：https://github.com/microsoft/VibeVoice