アレクサしかり音声スピーカーとか
人の音声を認識して処理するのってどうゆう技術なんだろう?という興味が沸いたので
Pythonで学ぶ音源分離
という本を読んでみました。
けども
今の自分ではとても理解できませんでした。。。(難しすぎる
あと数学の知識がとても必要ですね
→必要となるところは線形代数、ベクトル、行列の微分、確率・統計
大学卒業以来さわることがなかった範囲。。。これを機に復習するのもあり?
音源分離という技術
さまざまな音が混ざった中から欲しい音だけ抽出する技術
さまざまな音を音源分離プログラムによって、きれいな音を出力する
さまざまな音の種類
・干渉音(聞きたい人以外が話している音声)
・背景雑音(エアコンの音などのような雑音)
・残響音(音が壁などではねかえる)
音源分離の前処理としてビームフォーミング法というのがある
・所定の方向に波(電波、音波など)の指向性を高める技術
・半世紀にもわたって検討なされてきてる技術、古くからあってすごい技術
パラメータの最適化法
最適化を行うためベクトル・行列での微分を使い解を求める。
・遅延和アレイ(DSBF)
・最小分散無歪ビームフォーマ(MVDR)
・最大SNRビームフォーマ(MaxSNR)
・マルチチャンネルウィナーフィルタ(MWF)
残響除去の方法
・基礎理論 MINT(Multiple-input/output inverse theorem)
複数マイクロフォンを用いた有限長のフィルタで残響を完全に除去できる
・WPE (Weighted Prediction Error)
入力信号の線形予測に基づく残響除去法(メジャーな方法)