自从看片以来,一直为找字幕深深苦恼。因为并未学过日文,且个人口味比较倾向轻一些的凌辱,高傲女堕落,捆绑,调教类的(这类的影片往往没有字幕),之前还喜欢PTA会长系列的(近期的字幕少了),另外近期也转向无码片和FC2(往往没有字幕)。一直在尝试如何得到一个合适的字幕。现在方法已经完善许多,因此本着互联网的开源精神,专门写一个帖子来进行阐述。
首先放重点,对于字幕的制作我最为推荐的方法就是采用openAI发布的Whisper模型,免费开源,识别准确率也非常可以。此外,彩云小译,小白浏览器这几类收费的应用效果要比whisper好,但相应的,要花钱。另外一个不花钱的是华为鸿蒙的智能字幕功能,效果也非常好,但是华为的字幕是实时的,没有带时间轴,因此想要得到字幕得看完视频才行,而我看视频都喜欢拉着看,上下文不清楚的话字幕翻译也非常不好,总之不符合使用习惯,不太方便。同时autosub我也使用过,确实可以,主要是调用google的接口进行语音识别,但是需要科学上网,比较麻烦也不符合我的要求。
这里就要重磅推荐openAI的whisper模型了,地址是在这里
https://github.com/openai/whisper。我个人使用的是whisper-webUI,效果要好一些,因为添加了VAD,地址是在这里
https://gitlab.com/aadnk/whisper-webui,
https://github.com/openai/whisper/discussions/397。个人使用的感觉是,能得到大概80%-90%准确的字幕,另外免费带时间轴,非常符合我的使用习惯,因此推荐给大家。
首先讲一下这个方法的前置要求
1.最好有一个好一点的显卡,没有显卡也没事,但cpu跑起来非常慢。
2.需要有一点电脑基础,会用命令指示符就行。
接下来讲解一下whisper的使用
首先推荐一个网址
https://newzone.top/posts/2022-11-18-whisper_ai_subtitles.html#model。大部分的基础都在里面了。我主要讲一下whisper-webUI的使用,需要声明的是,以下教程都是基于windows环境的。
你需要的是先安装python 3.9(官方推荐)还有git,接着直接git clone
https://gitlab.com/aadnk/whisper-webui.git我个人推荐在文件夹中创建一个虚拟环境再进行安装,这样管理起来会方便很多,因此首先要做的是
cd whisper-webui
然后
python -m venv venv
.venv(添加斜杠,这里打不出来)Scripts(添加斜杠,这里打不出来)Activate.ps1
这样就激活了虚拟环境了
然后pip install -r requirements.txt就行了
如果你是N卡用户的话,需要安装cuda,以使用显卡进行加速,此外torch也需要再官网上查看适合自己cuda版本的torch。
然后你就可以使用whisper-webui了,
由于whisper-webUI是没有一键启动的bat文件的,因此我写了一个bat文件进行一键启动,这里是我的代码,写到txt文件里,然后把后缀名改成bat就行了。
@echo off
call .venv(添加斜杠,这里打不出来)Scripts(添加斜杠,这里打不出来)activate.bat
call python app.py --whisper_implementation faster-whisper --input_audio_max_duration -1 --server_name 127.0.0.1 --auto_parallel True
第一次推理字幕会花时间下载模型,因此没有反应不要着急
另外需要提醒的一点是whisper需要采用音频进行推导,因此最好自己把影片的音频单独提出来,我采用的是FFmpeg,自己写了一个脚本进行批量转换,大家个人的话可以采用市面上的影片转音频软件,都差不多。
楼主也只是一个初步的使用者,大家如果有什么whisper的使用经验的话,可以在这里分享一下。
ps:不知道为什么这边斜杠打不出来,记得把(添加斜杠,这里打不出来)替换成斜杠
最后展示一下翻译成果(我把OIGS-捆绑人妻系列我喜欢的几部的字幕都翻译出来了),再声明一下whisper的优点:
1.开源,免费;
2.本地运行,不依赖网络环境;
3.识别准确率高;
4.直接生成字幕文件,自带时间轴,不用手动粘贴修改
赞(2)