Workflow | Metron's Blog

Motivation 上哲学课听不懂，录音回去复习。需求人声增强转录录音和转录稿同步播放困难教授声音低沉 MacBook Air 录音，不定向，环境噪音大环境 Windows 11 Nvidia Cuda Steps FFmpeg - 音量标准化让整体音量一致，不高不低。有两种方法：一遍处理和两遍处理（推荐）。嫌麻烦的话就一遍处理： ffmpeg -i input.wav -af loudnorm=I=-23:TP=-2:LRA=7 -ar 248k output.wav 两遍处理：先解析一次原音频，然后使用解析出来的参数： ffmpeg -i input.wav -filter:a loudnorm=print_format=json -f null - ffmpeg -i input.wav -filter:a loudnorm=i=-23:tp=-2:lra=7:measured_I=-XX.X:measured_TP=-Y.Y:measured_LRA=Z.Z:measured_R128_thresh=-W.W -ar 248k output.wav 其中 X.X, Y.Y, Z.Z, W.W 换成第一遍的输出。由于我每次录制的环境相同，音频质量相同，所以解析了一次之后得到下行代码直接复用就行： ffmpeg -i input.m4a -af loudnorm=I=-23:TP=-2:LRA=7:measured_I=-31.47:measured_TP=-10.58:measured_LRA=16.8:measured_thresh=-43.46:offset=-2.0:linear=true:print_format=summary -b:a 248k loudnormed.mp3 UVR5 - 人声提取 Ultimate Vocal Remover V5 官网目前试过一些模型，发现 UVR-MDX-NET Inst HQ 5 效果很不错，142分钟的音频处理了14分钟， ...

tag: Workflow

录音处理（人声、降噪、转录）