Kokoro TTS 是目前最受关注的开源文本转语音项目之一,基于 hexgrad 开发的 Kokoro-82M 模型,GitHub 地址:https://github.com/nazdridoy/kokoro-tts,拥有 1.3k Star。
这个项目最大的亮点在于其极高的性价比。仅用 8200 万参数就能实现接近真人的语音效果,生成的英语发音自然流畅、情感丰富,相比动辄几十亿参数的商业 TTS 模型,Kokoro 在保证质量的同时大幅降低了计算资源需求。模型于 2024 年底开源,采用 Apache 2.0 许可证,完全免费可商用。
在音色支持方面,Kokoro TTS 提供了丰富的选择,共支持 28 种音色,涵盖多种语言:美式英语(包括 11 种女声和 8 种男声)、英式英语、中文(包含多种方言音色)、法语、意大利语、日语等。用户不仅可以单独选择某一种音色,还能通过 Voice Blending 功能混合多个音色,通过调节不同音色的权重比例,创造出独一无二的个性化声音。比如可以将 af_sarah:60 和 am_adam:40 混合,制作出兼具温柔与沉稳的独特音色。
输入输出方面,Kokoro TTS 表现出极强的灵活性。支持 TXT 纯文本、PDF 文档、EPUB 电子书等多种输入格式,可以直接朗读整本厚重的书籍,对于有声书制作者来说非常友好。输出格式支持 WAV、MP3、AAC 等主流音频格式。用户还可以在命令行中通过管道符直接处理其他程序的输出,实现自动化工作流。
使用体验上,该项目提供了两种界面选择:对于技术用户,可以使用简洁高效的 CLI 命令行界面;对于非技术用户,可以使用 Gradio 网页界面,通过浏览器点击操作即可完成语音合成。语速调节范围为 0.1 到 3.0 倍速,可以根据需要调整语速快慢。
安装部署也非常简单,支持 pip 和 uv 两种安装方式,一行命令即可完成安装。项目还提供了 Windows 一键启动整合包,无需配置 Python 环境,下载解压即可使用,对新手用户非常友好。
Kokoro TTS 的应用场景非常广泛:可以用于 AI 视频解说配音,生成自然流畅的英语旁白;制作有声书,将 PDF 或 EPUB 电子书自动转为语音版本;为游戏角色配音;制作播客内容;以及各种需要语音合成的创意项目。由于其开源免费且效果出色的特点,已经成为众多 AI 视频生成工具的首选配音方案,如 MoneyPrinterTurbo 等项目都已集成 Kokoro TTS 作为语音引擎。




