总共两大步
生成语音转文字和翻译

一 原文字幕,语音转文字

①下载WhisperDesktop

https://github.com/Const-me/Whisper/releases

解压缩,打开WhisperDesktop.exe

②下载模型

https://huggingface.co/ggerganov/whisper.cpp/tree/main
我用的是medium,够用了一般

③设置

然后填上模型文件路径
Model Implementation选择gpu,amd的也是可以的,我用的6800H的核显,点ok
这边建议用ffmpeg切成五分钟左右的片段,这样子准确度高很多,到后面有时候会出bug
如果是视频的话,也可以用ffmpeg把音频提取出来

④转换

language选择你原文的语言,translate别勾
Transcribe File选择音频文件
Output Format选择SubRip subtitles的srt格式的文件
Place that file to the input folder的勾上

点完,然后Transcribe开始工作,右上角Debug Console可以看到转换的进度的

我的6800H的核显转换一段五分钟的话,大概一分钟左右完成

二 翻译

翻译的话直接用chatgpt,3.5够用了
用api太贵了,直接免费的web版丢进去完事了
丢给他翻译就完事了,穷人办法,一分钱都不用花
用下面这段提示的话,能保留原来的日文字幕,英文的话自己把日文改成英文就行了
如果它停止了的话就发个go on就行了

把这个日语的字幕文件转成中日双语,中文在下,日文在下面另起一行,保留原有的日文
字幕文件如下


参考
https://www.bilibili.com/video/av268725141/?p=1&t=160
https://www.bilibili.com/read/cv22692287/