音響分離
音源分離とは,複数の音源信号が混合された観測信号から,混合前の各音源信号を推定する技術である.
特に,音源の混合過程に関する事前情報 (音源やマイクの位置など) がほとんど未知である場合には,ブラインド音源分離と呼ばれる.通常は音源やマイクの位置関係は未知である場合が多く,適用できない手法が多い.
音源信号の混合過程は,時間領域では畳み込み演算となり取り扱いが難しいため,周波数領域で乗算としてモデル化することが多い.過決定条件
(マイク数 ≥ 音源数) 下におけるブラインド音源分離では,周波数ビンごとに,混合系 (混合行列) の逆写像である分離系 (分離行列) を求める分離手法が数多く提案されている.これらの手法では,音源信号の生成モデルを統計的独立性と優ガウス性 (ガウス関数と比較してピークが鋭い性質) に基づいて設計した上で,最尤推定を行うことで分離行列を決定している….
北原 大地, 小田 亮太, 平林 晃,
“混合過程推定にスパース性を利用したブラインド音源分離,”
第62回システム制御情報学会研究発表講演会, 京都, May 2018, 7 pages.
[Audio Signal Processing, Nonconvex Optimization] pdf (preprint)
小田 亮太, 北原 大地, 平林 晃,
“インパルス応答のスパース性を利用したブラインド音源分離,”
電子情報通信学会信号処理研究会, 石垣, Mar. 2018, vol. 117, no. 516, pp. 341–346.
[Audio Signal Processing, Nonconvex Optimization] official access / pdf (preprint)
音源信号復元
信号の時間周波数解析手段として,スペクトログラムが広く用いられている.近年,音声音響信号処理を中心に,振幅スペクトログラムを加工することで所望の時間信号を生成する技術が注目されている.例えば音源分離の分野では,複数の音源が混在した混合音の振幅スペクトログラムに対して,適切な時間周波数マスクを乗じることで,特定音源のみからなる振幅スペクトログラムを推定する手法が提案されている.
推定した振幅スペクトログラムに適切な位相スペクトログラムを付与できれば,特定音源のみを含む時間信号が復元される.
近年,音声音響信号処理において,観測信号を短時間フーリエ変換して得られるスペクトログラムの振幅値を処理し,所望の音源信号を得る手法が数多く開発されている.一方,音楽等の解析に関しては,周波数成分を対数軸上でサンプリングする,定 Q 変換のスペクトログラムが有効である.
しかし,定 Q 変換は逆変換が簡単な閉形式として表現できないため,Griffin–Lim 型のアルゴリズムによって振幅スペクトログラムから音源信号を復元することが困難であった…
中津 龍星, 北原 大地, 平林 晃,
“振幅スペクトログラムからの非Griffin–Lim型音源信号復元手法,”
第34回信号処理シンポジウム, 鳥取, Nov. 2019, pp. 162–165.
[Signal Processing Theory and Methods, Audio Signal Processing, Nonconvex Optimization] pdf (preprint)