Rafał Korycki
Streszczenie
W pracy nakreślono problem redukcji addytywnego szumu i zakłóceń w nagraniach jedno- i wielokanałowych oraz wyjaśniono zasadę działania algorytmów detekcji mowy i widmowej redukcji szumu. Opisano metody filtracji adaptacyjnej, które mogą zostać wykorzystane do poprawy zrozumiałości mowy w miejscach, w których stosowane są generatory szumu i zakłóceń. Przedstawiono także techniki ślepej separacji, które stosowane są w celu oddzielania głosów mówców z mieszanin rejestrowanych przez dwa lub więcej mikrofonów. Ponadto opisano techniki analizy składowych niezależnych wraz z metodami wyznaczania modelu kierunkowego i estymacją kierunku, z którego dociera dźwięk. Powyższe rozwiązania zostały omówione w kontekście poprawy jakości nagrań, a efekty ich działania zaprezentowano w postaci wykresów.
Słowa klucze: korekcja nagrań, nagrania wielokanałowe, filtracja adaptacyjna, efekt cocktail party, ślepa separacja źródeł, analiza składowych niezależnych, ICA.
Summary
The paper addresses the problem of additive noise and disturbance reduction in single and multichannel audio recordings. It explains several algorithms for speech detection and spectral subtraction of noise. It describes adaptive filtering methods, which can be used for speech intelligibility enhancement in noisy environments where noisy generators are used. The paper introduces also blind source separation methods, used in order to extract speakers' voice from convoluted mixtures recorded by two or more microphones. Further, it describes independent component analysis techniques with directivity pattern computation and arrival direction estimation. The paper presents the described tools in the context of audio enhancement. Their effectiveness is presented on sample plots.
Keywords: audio enhancement, multichannel audio recordings, adaptive filtration, cocktail party phenomenon, blind source separation, independent component analysis, ICA.