磁気テープから音声を抽出する

非常に騒々しい声を含む録音があります。 (音声   信号対雑音比が低い)。

固定されたスピーカーの女性の声で(マイクの正面に)、他にも多くの録音があります   スピーカーを使用してください。

What can be done to denoise the audio?

他の録音から、あるモデルが話し手の声をフィルタリングすることを可能にする統計値を抽出することが可能である。

既存の質問いびきを解決する非ランダムノイズ特定の成果物またはスピーカーを動かす。質問他人の声のうち100人が声を出す可能性がありますと似ていますが、その答えは詳細が不足しています。区別がつき、抽出についてはあまりありません。

テープの一部は直接コピーであり、一部はコピーのコピーで、低速設定(4.75cm/s)で記録されています。これはデジタル化の前に品質に影響を与えました。

4
歪んだ録音音は、スピーカーがマイクとの間に大きな障害を持つように聞こえます。ノイズは比較的低いレベルです。録音の問題が多いのかどうかは疑問だ。
追加された 著者 alumb,
まあ、確率論的ではない解を探していることを意味するかもしれません。よりシンプルな "デバイアス"フィルタが可能です(ただし、ノイズを悪化させる可能性があります)。ノイズの多いスピーチのスペクトラムと非ノイズのスピーチのスペクトラムを比較し、 "デバイアス"フィルタの周波数応答がどのように見えるかを推測できるかどうかを確認したい場合があります。
追加された 著者 alumb,
わかりやすくするために、ランダムノイズを除去するために確率的フィルタリングを行うことがあります。
追加された 著者 alumb,
「バイアス」とは、記録媒体中の磁気/電磁バイアスを意味する。録音に影響を与える方法は、それをフィルタリングすることです。それはローパスフィルターのように聞こえるので、逆にする必要があります(ハイパスフィルターを作ってください)。
追加された 著者 alumb,
@PeterK:すべてのレコーディングは同じ設定でデジタル化されています。元のテープのバイアスを参照してください、確かに、そうかもしれません。それがソリューションにどのような影響を及ぼしますか?
追加された 著者 vinjn,
@ JRE:さらに、テープの所有者は、テープの一部が実際に録音と同じ品質であると答えました。 (遅い返事をお許しください)
追加された 著者 vinjn,
@ JRE:質問はテープの品質に合わせて編集されています。テープの中には、他よりも低速のコピーのコピーがありました。
追加された 著者 vinjn,
Audacityは32bitで記録するように設定されました。おそらくサウンドカードは通常の16ビットを持っていたでしょう(私はおそらく8ビットを認識していました;-)
追加された 著者 vinjn,
@ JRE:私は32ビットでサンプリングしようとしました。しかし、それは素人の装備だったので、おそらくそれは部分を果たした。これらの磁気テープの中には何十年もの間横たわっていたものがありました。いくつかはコピーのコピーでもあります。しかし、それらはすべて同じ機器を使用してデジタル化されました。良い例は何でしょうか?
追加された 著者 vinjn,
@ペテロ:あなたは正しい。 記録にはDCバイアスがいくつかあるため、最初のステップとして正規化が役立ちます。
追加された 著者 vinjn,
あなたがnoisy_00_41_718_to_01_04_287.wavを持っているテープを再生して、それがすでに悪いかどうか、または転送中に何かが起きたかどうかを確認する機会はありますか?
追加された 著者 JRE,
あなたのファイルbetter_quality_1_15_446_to_2_01_954.wavは、スペクトル減算を使用した良い例です - Audacityは、スピーチをマングリングすることなくノイズを減らすという公正な仕事をしています。
追加された 著者 JRE,
うん。 Audacityでは32ビットを選択できますが、サウンドカードが提供する16ビットから変換する必要があります。
追加された 著者 JRE,
通常のPCコンポーネントでは32ビットでサンプリングできませんでした。コンシューマサウンドカードは、16と時には8ビットでサンプリングされます。あなたは24ビット用のプロの機器が必要です。私は32ビットでサンプリングする機器は知らない。多くのプログラムでは、オーディオを処理するために内部的に32ビットを使用していますが、32ビットの.wavフォーマットもあります。
追加された 著者 JRE,
一般に、ノイズを除去するための良い方法は、多くの人にとって有用です。しかし、この質問の例は、そのユースケースの良い例ではありません。最も必要とされる録音はノイズだけではなく、実際にはデジタル化される前にフィルタリングされた内容がたくさんありました。私はまた、それがもともとわずか8ビットでサンプリングされていることを強く疑うので、ノイズフロアから信号の残りの部分を根絶するチャンスはあまりありません。
追加された 著者 JRE,

4 答え

あなたができることはあまりありません。音声部分は、約1000Hzのカットオフを有するローパスフィルタと同等のものを通過したように見える。基本的に、1000Hzを超えるすべてのスピーチ成分はなくなっています。

フィルタ処理は意図的なフィルタではなかったかもしれませんが、録音中にテープの不適切なバイアスが原因であった可能性があります。古いテープの場合は、時間の経過とともに劣化する可能性があります。また、再生ヘッドは消磁が必要な場合がある。

高域通過を通して周波数応答を平らにすると、周波数応答が平坦になりますが、これを行うとレベルまで下がり、ノイズの中に信号が溜まります。

私が得た最良の結果は、カットオフが160Hzの非常に急峻なハイパスと一緒にカットオフが1000Hzの非常に急峻なローパスを使用したことでした。それは実際のスピーチに残っているものを単に通過させるだけでノイズを取り除きますが、明らかに失われたものを回復することはできません。

あなたの本当の問題はノイズではなく、失われた周波数範囲です。


This is the spectrum of the bad recording: enter image description here

This is the spectrum of the good recording: enter image description here

ご覧のとおり、悪い録音には欠けているものがたくさんあります。だから、それは単純にノイズを除去する問題ではありません。問題は、ただ消えたものがあるということです。

1000Hzから7000Hzの範囲を見てください。良いレコーディングの中にはたくさんのものがありますが、悪いものでは、平らなスペクトラムであり、400Hzの声のピークよりも30dBは良いです。

いくつか欠けているものは騒音に埋もれているかもしれませんが、それを回復すると、騒音や騒音よりも悪い人工物が発生します。


Looking at just the noise, it doesn't seem like there would be much to recover out of it. It looks just like the portions with speech (except for between 160Hz to 1000Hz,) so anything that is in there is going to be buried really deep. enter image description here

4
追加された
愚かなアイデアはしばしば最も楽しいです。 :-)
追加された 著者 alumb,
はい、そうですね。
追加された 著者 alumb,
@ブライアン:面白いアイデア。 Wikipedia 以外の良い点はありますか?
追加された 著者 vinjn,
はい、あなたは正しいです。それでも、騒々しい録音には、音韻を元の音に「フィット」させる可能性のあるスピーチの少なくとも一部が含まれています。一部の人々は声優ではなく元の人が必要です。 (そうでなければ良い提案です)。
追加された 著者 vinjn,
理論的には、良好な記録から音素を抽出し、それを悪いもので識別し、欠けている周波数を置き換えることは可能でしょうか?
追加された 著者 vinjn,
それは多くの手動作業になります。私は、音声合成ソフトウェアを使用して、一人の人間の大量の記録を分析し、それを使って新しいテキストを話す人の録音を合成することが可能であると考えました。しかし、それはあまりにも多くの仕事になります。あなたが持っている悪いレコーディングの数によっては、声優(synchronsprecher)を見つけてテキストを再読させる方が安くて簡単かもしれません。
追加された 著者 JRE,
良いレコーディングの単語や音素をコピーし、文章をまとめてスプライスして、悪いレコーディング全体を置き換えるほうが簡単かもしれません。既存のレコーディングを "修正"するために、周波数と位相を合わせることは本当に難しいでしょう。
追加された 著者 JRE,
ちょうど本当にばかげた考えを持っていた。私はそれを試して、後でポストする時間を見つけることができるかどうか、私は今週の終わりかもしれない。
追加された 著者 JRE,
馬鹿げたアイデアは払わなかった。私は良いレコーディングのクリーンアップされたコピーを使用して、女性の声の成分を渡すFIRフィルタを作成しました。その後、フィルターを通してホワイトノイズをプッシュし、(ノイズを最初に除去した後の)不良記録のエンベロープを使って出力を変調しました。スペクトルは見た目が良くなりましたが、ノイズバーストのように聞こえました。しかたがない。試してみると楽しいです。
追加された 著者 JRE,
たぶん帯域幅拡張技術は、1kHzを超える部分を回復するのに役立ちます。
追加された 著者 Dale M,
@user私は帯域幅の拡張に関する経験がなく、その技術が存在することを知っているだけです...私はまた、いくつかの本があり、IEEEは確かに多くの論文を持っていることを知っています
追加された 著者 Dale M,

ノイズは非常に静かに聞こえるので、スペクトル減算はうまくいくはずです。ただし、ほとんどの実装では、通常、微調整するパラメータがかなりあります。スペクトル減算は、パラメータが問題に対して適切に選択されているかどうかによって非常に優れているか、まったく役に立たないように聞こえることがあります。 Matlabの実装を検索する場合は、いくつかのものがあります。その中には、 this one は、スペクトル減算が何をすることができるかを知ることを試みることができます。

3
追加された
スペクトル減算(聴覚の「ノイズ除去」機能による)を使用した最初の試みはうまくいかず、アーチファクトが残っていました。たぶん私は十分なパラメータを微調整していないかもしれません。
追加された 著者 vinjn,

ファイル:noisy_00_41_718_to_01_04_287.wav、私はスペクトル減算を試みた後、ハイパスフィルタリングを試してみました。 こちらのスニペットをダウンロードできます。

明確なアーチファクトがありますが、ソースオーディオが劣化してしまうことが懸念されます。騒音はさておき、スピーカーは非常に騒がしく、何かをはっきりと出すのは難しいです(特に、Schwiizertüütschとは言いません)。ハイパスフィルタリングは、細かいところを持ち出しましたが、やはり有用ではありません。

2
追加された
スペクトル減算を行うだけで、非常に多くのアーティファクトが生成されることを確認していただきありがとうございます。
追加された 著者 vinjn,

ソリューションを提供したすべての方に、ありがとうございました。

概要

This is a 概要 of what has been proposed, with an example of what it does to the noisy soundfile when combined. If you like it, please do upvote the originals.

  1. (Kudos to @PeterK) The recording has a DC bias. You can see that most of the waves center below the 0:

    DC bias

    This can for example be removed via Audacity's "Normalize..." with default settings.

  2. (Kudos to @MattL) When this is normalised, spectral subtraction can be used. I got the same results as @ruohoruotsi when I tried it at first, leaving me to abandon that, but if you tweak (as suggested) for example the Sensitivity setting to 5dB, you get very little to no artifacts. The waveform looks different: enter image description here

  3. (Great Kudos to @JRE) This can be further filtered with a high pass as proposed to get some more of the noise out. Yet, as @JRE also said, there is very little information in the signal above 1000Hz. Thus, for example the section between 12 and 14 seconds remains very hard to hear.

3つのアプローチを組み合わせた結果を聴くことができます。

0
追加された