教育向け音声信号処理ライブラリpyssp †
numpy+scipyで実装されたpython用音声信号処理ライブラリ。matlabとかマジ辞めよう。
今の所音声品質向上やら音声認識システムの前処理向けのモノぐらいしか実装されてません。16k16bit用にハードコードしてある部分もあるので、なんか適当に何とかします。
今後は分析合成系を頑張る。
解説 †
voice enhancement †
参考文献 †
- S. F. Boll, "Suppression of Acoustic Noise in Speech Using Spectral Subtraction.", IEEE Transactions on Acoustics, Speech and Signal Processing, 1979.
- Y. Ephraim and D. Malah, "Speech enhancement using minimum mean-square error short-time spectral amplitude estimator.", IEEE Transactions on Acoustics, Speech and Signal Processing, 1984.
- T. Lotter and P. Vary, "Noise Reduction by Joint Maximum a Posteriori Spectral Amplitude and Phase Estimation with Super-Gaussian Speech Modelling.", Proceedings of European Signal Processing Conference, 2004.
voice activity detection †
- 振幅の大きさ
- ゼロ交差法
- 振幅 + ゼロ交差
- Long-term Spectral Divergence(LTSD)
- AdaptiveLTSD
参考文献 †
- J. Ramirez, "Voice activity detection with noise reduction and long-term spectral divergence estimation.", ICASSP, 2004.
noise tracking †
Minimum statisticsを用いた、変化するノイズに対するノイズプロファイルの動的更新 †
minimum statisticsとは、非常に簡単に説明すると、発話音声とノイズが重畳された音声が観測された場合、それぞれのスペクトルビンに対して、一定の期間内の最低値がノイズの振幅であるとして、その最低値を動的に計算して行くことで、ノイズの変化に対して追随するものである。ノイズを更新するにあたり、最低値を計算する期間を短く取ると変化に対する追随性が高まるが、発話区間等ほぼノイズが存在しない区間のみで最低値を計算するリスクが高まるため、正確性が保てなくなるため、非線形なノイズの変化に関しては1秒程度の追随遅れが起こる。
参考文献 †
- R. Martin, "Noise power spectral density estimation based on optimal smoothing and minimum statistics.", IEEE Transactions on Speech and Audio Processing, 2001.