114 lines
2.0 KiB
Markdown
114 lines
2.0 KiB
Markdown
---
|
||
name: videocut-subtitle
|
||
description: 字幕生成与烧录。转录→词典纠错→审核→烧录。触发词:加字幕、生成字幕、字幕
|
||
metadata:
|
||
version: "1.0.0"
|
||
alias: "videocut:字幕"
|
||
---
|
||
|
||
# 字幕
|
||
|
||
> 转录 → 纠错 → 审核 → 匹配 → 烧录
|
||
|
||
## 流程
|
||
|
||
```
|
||
1. 转录视频(Whisper)
|
||
↓
|
||
2. 词典纠错 + 分句
|
||
↓
|
||
3. 输出字幕稿(纯文本,一句一行)
|
||
↓
|
||
【用户审核修改】
|
||
↓
|
||
4. 用户给回修改后的文本
|
||
↓
|
||
5. 我匹配时间戳 → 生成 SRT
|
||
↓
|
||
6. 烧录字幕(FFmpeg)
|
||
```
|
||
|
||
## 转录
|
||
|
||
使用 OpenAI Whisper 模型进行语音转文字:
|
||
|
||
```bash
|
||
whisper video.mp4 --model medium --language zh --output_format json
|
||
```
|
||
|
||
| 模型 | 用途 |
|
||
|------|------|
|
||
| `medium` | 默认,平衡速度与准确率 |
|
||
| `large-v3` | 高精度,较慢 |
|
||
|
||
输出 JSON 包含逐词时间戳,用于后续 SRT 生成。
|
||
|
||
---
|
||
|
||
## 字幕规范
|
||
|
||
| 规则 | 说明 |
|
||
|------|------|
|
||
| 一屏一行 | 不换行,不堆叠 |
|
||
| ≤15字/行 | 超过15字必须拆分(4:3竖屏) |
|
||
| 句尾无标点 | `你好` 不是 `你好。` |
|
||
| 句中保留标点 | `先点这里,再点那里` |
|
||
|
||
---
|
||
|
||
## 词典纠错
|
||
|
||
读取 `词典.txt`,每行一个正确写法:
|
||
|
||
```
|
||
skills
|
||
Claude
|
||
iPhone
|
||
```
|
||
|
||
我自动识别变体:`claude` → `Claude`
|
||
|
||
---
|
||
|
||
## 字幕稿格式
|
||
|
||
**我给用户的**(纯文本,≤15字/行):
|
||
|
||
```
|
||
今天给大家分享一个技巧
|
||
很多人可能不知道
|
||
其实这个功能
|
||
藏在设置里面
|
||
你只要点击这里
|
||
就能看到了
|
||
```
|
||
|
||
**用户修改后给回我**,我再匹配时间戳生成 SRT。
|
||
|
||
---
|
||
|
||
## 样式
|
||
|
||
默认:24号白字、黑色描边、底部居中
|
||
|
||
**可选样式:**
|
||
| 样式 | 说明 |
|
||
|------|------|
|
||
| 默认 | 白字黑边 |
|
||
| 黄字 | 黄字黑边(醒目) |
|
||
|
||
用户可说:
|
||
- "字大一点" → 32号
|
||
- "放顶部" → 顶部居中
|
||
- "黄色字幕" → 黄字黑边
|
||
|
||
---
|
||
|
||
## 输出
|
||
|
||
```
|
||
01-xxx_字幕稿.txt # 纯文本,用户编辑
|
||
01-xxx.srt # 字幕文件
|
||
01-xxx-字幕.mp4 # 带字幕视频
|
||
```
|