场景介绍
PodLM 是中文版播客开源项目,可以将任意 URL 内容转换成播客。使用场景
Google 的 NotebookLM 项目通过将文本转换为对话式的音频从而达到模拟播客的效果。其基本任务流程是通过大模型读取理解文本内容并根据提示词、人设等生成对话式的文本,并通过音频合成方案生成对话音频。除了生成播客,该方案可以在诸多其它场景进行复用,例如:- 内容摘要:可以将新闻、资讯文章、论文等内容转换成播客音频,以便在上班通勤等不便持续阅读的场景通过播客音频的方式快速了解知识资讯的内容;
- 会议回顾:可以通过会议全程记录提炼重点摘要,并生成音频,让未能参会的同事快速身临其境的回顾会议内容,重点内容不错过;
- 场景教育:可以根据课程材料和教学场景,生成内容音频,增加教学的互动性和趣味性,提升教学效果;
- 育儿成长:可以将儿童故事等生成生动有趣的对话音频,作为儿童睡前故事播放,让爸爸妈妈不在的时候也有故事相伴; 但是 NotebookLM 项目目前对中文支持不佳,且在音频风格等方面未开放更多选项。得益于开源社区项目 PodLM,现在可以通过智谱 BigModel 大模型配合音频合成服务,生成具有多变风格的中文版播客。
方案
PodLM 支持将 URL 内容转换成播客音频,通过获取 URL 内容,并使用大模型进行读取理解,最后进行音频合成。PodLM 项目已在 GitHub 开源,你可以通过多种方式将其部署到本地,并根据官方文档启动项目。 官方文档:https://github.com/lihuithe/podlm-public
1. TTS 方案
由于 PodLM 没有提供文本到语音(Text-to-Speech, TTS)的实现方案,我们可以自行采取合适的方案实现,并支持个性化。 TTS 实现参考:2. PodLM 部署
将 PodLM 项目部署到本地后,首先需要将 LLM 服务接口配置为智谱 BigModel 大模型,并接入 TTS 服务。2.1 配置 GLM
2.2 接入 TTS
2.3 修改提示词
- PodLM 项目的请求 messages 内容与 GLM 的 JSON 输出不完全匹配,需要简单修改,参考如下:
3. 启动项目
在不同的终端命令行分别运行 tts.py、api.py、server.py 即可启动服务,访问 http://127.0.0.1:8811 在输入框填入 URL 即可开始播客生成。方案亮点
- 零门槛高效创作:让播客生产 “从几天到几分钟”
- 内容形态多元创新:从 “单一叙事” 到 “跨界融合”
- 沉浸式听觉体验:从 “单一声线” 到 “多角色场景化”