FunAudioLLM克隆声音

阿里推出的声音克隆，语音生文字功能

广告也精彩

广告也精彩

1、简介

FunAudioLLM是阿里巴巴通义实验室推出的开源语音大模型项目，包含SenseVoice和CosyVoice两个模型SenseVoice擅长多语言语音识别和情感辨识，支持超过50种语言，特别在中文和粤语上表现优异。CosyVoice则专注于自然语音生成，能够控制音色和情感，支持中英日粤韩五种语言。funAudioLLM适用于多语言翻译、情绪语音对话等场景。相关模型和代码已在Modelscope和Huggingface平台开源。

2、FunAudioLLM的主要功能

SenseVoice模型:
– 专注于多语言的高精度语音识别。
– 支持超过50种语言，特别是在中文和粤语上识别效果优于现有模型。
– 具备情感识别功能，能够辨识多种人机交互事件。
– 提供轻量级和大型两个版本，适应不同应用场景。
CosyVoice模型
– 专注于自然语音生成，支持多语言、音色和情感控制。
– 能够根据少量原始音频快速生成模拟音色，包括韵律和情感细节。
– 支持跨语种语音生成和细粒度的情感控制。

3、与ChaTTTS相比

SenseVoice有声音克隆，ChaTTTS没有声音克隆；
SenseVoice虽然有声音克隆，但是不能固定音色，每次都要重新训练；
ChaTTTS虽然没有声音克隆，但是可以根据音色种子号固定音色，每次不用重新训练

4、下面是B站up“玄离199”的演示视频

5、下面是B站up“Jack-Cui”的使用教学视频

<span data-mce-type="bookmark" style="display: inline-block; width: 0px; overflow: hidden; line-height: 0;" class="mce_SELRES_start"></span>

CosyVoice

GitHub开源地址：https://github.com/FunAudioLLM/CosyVoice

魔搭社区体验地址：https://www.modelscope.cn/studios/iic/CosyVoice-300M

SenseVoice

GitHub开源地址：https://github.com/FunAudioLLM/SenseVoice

魔搭社区体验地址：https://www.modelscope.cn/models/iic/SenseVoiceSmall

相关导航

Faster-Whisper(STT语音转写)

Faster-Whisper是基于 OpenAI Whisper模型的重写，在相同精度上，Faster-Whisper的语音转写速度比OpenAI快4倍

Reecho睿声

Reecho语音大模型可理解文本上下文，并以与真人几乎无异的拟真度、表现力、情感、韵律和音色来基于文本生成人声音频，并且支持以极短样本进行无需训练的瞬时语音克隆，或使用较长样本进行精益求精的专业语音克隆

剪映AI克隆声音

抖音旗下声音克隆工具

GPT-SoVITS声音克隆

GPT-SoVITS是一个开源的声音克隆项目，由B站UP主、RVC变声器创始人花儿不哭推出

ChatTTS-Enhanced

增强版ChaTTTS，各方面性能大幅超越原版ChaTTTS，感谢CCmahua大佬的开源！

字节火山TTS

字节跳动旗下文生音工具

广告也精彩

暂无评论

您必须登录才能参与评论！

暂无评论...