GLM-4-Voice-Tokenizer: 通过在 Whisper的 Encoder 部分增加 Vector Quantization 并在 ASR 数据上有监督训练,将连续的语音输入转化为离散的 token。每秒音频平均只需要用 12.5 个离散 token 表示。 GLM-4-Voice-Decoder: 基于 CosyVoice的 Flow Matching ...
在很多人的眼里,余凯仗义、能扛事、情商高、格局大,是一个终极目标明确的人——做智能机器人时代的大脑,让每一辆汽车、每一个电器都具有环境感知、人机交互决策规划的能力,让机器服务人类。