说话人识别技术作为生物特征识别的一个方向,在理论和应用领域都得到了快速发展和广泛关注。本文主要是对基于i-vector的说话人识别算法进行研究,在此基础上引入了PLDA信道补偿算法以及海量数据的无标注聚类。 在对经典说话人识别算法的介绍中,从理论和实际应用中分析了经典算法存在的缺陷,由此推出了基于i-vector的说话人识别算法,阐述了算法的原理和工作流程,并通过实验证明了其优越的性能。为了提高系统的鲁棒性,本文研究了PLDA信道算法,对算法的原理进行了分析,从理论上说明了PLDA算法对信道补偿的作用。 在实际应用中,存在着大量的无标注数据,而与此同时PLDA等算法需要大量的有标注数据进行...Speaker recognition, as one important technology of biometric authentication, has gained great progress in both theory and applications. This study focuses on the state-of-the-art i-vector system. And the channel compensation algorithm and unsupervised clustering technology of large-scale data are also studied. We first give the basic introductions of classic speaker recognition algorithms, an...学位:工程硕士院系专业:信息科学与技术学院_计算机技术学号:3152012115301
Рассмотрена проблема голосовой идентификации для применения в системах контроля доступа. ...
研究了基于动态时间规正(DTW)和图论方法的语音识别和说话人识别的特征子集选择问题,提出了基于DTW距离的有向图方法(DTWDAG).此方法推广了基于欧氏距离的相似矩阵聚类方法,将图论聚类方法改进为语...
在語者辨識的研究中,音色是最常作為語者的語音特徵。音色是人們辨別語者的主要聽覺特性,此特性隱藏在聲音波形的諧波成份裡,所以文獻上對於擷取語者的語音特徵,大部分著重於頻域上的特性。梅爾倒頻譜參數和線性預...
说话人识别技术是生物特征识别中非常热门的一个方向,一直以来随着信息技术的发展而不断得到推广和应用。尤其是当今移动互联网时代的到来,更是使说话人识别技术的应用场景不断扩大,其实用价值越来越高。本文研究的...
说话人识别是一种利用人类说话时的语音进行身份识别的生物识别技术,被应用于金融、司法等领域的身份认证。和高度普及的电话网结合,能充分发挥说话人识别远程认证的独特优势。在电话网上开发的说话人识别应用系统,...
语音是最为重要的人机交互手段之一,语音的清晰度是人机交互得以顺利进行的关键,尤其影响着语音识别应用系统的识别性能。因此,研究语音信号增强以提高语音信号的清晰度具有重要的理论与实际应用价值,也是当前语音...
[[abstract]]在數位娛樂產業中,接近真實感受的介面逐漸被開發,更多型態的操控介面被提出和應用於數位娛樂產業中。過往因正確率過低無法實用的語音介面也因技術和操控性提升漸漸導入數位娛樂產業。語音...
В статті запропоновано метод сегментації мовних сигналів на основі аналізу варіації рівня енергії ве...
В настоящее время набирают популярность различные устройства с системами функцией распознавания ре...
[[abstract]]語者辨識系統可以分三大部分:語音前處理、特徵萃取、分類辨識。特徵擷取的部分,我們使用傳統梅爾倒頻率參數(MFCC)與小波特徵;分類辨識的部分,利用高斯混合模型(GMM)的統計特...
Апісваецца распрацоўка кампанента для аўтаматычнага распазнавання беларускага маўлення з мэтай кірав...
語音辨識的使用日趨廣泛,大量出現於各種應用環境中,而語者調適愈顯得日趨重要。深層類神經網路亦已成為聲學模型的主流,本論文將各語者的平均識別向量分群,分別為每一群語者訓練特定的深層類神經網路模型,再用這...
[[abstract]]語音辨識技術在實際應用時,常會受到外在環境的雜訊干擾,使得辨識系統效能經常會下降,常見的語音辨識產品有手持行動電話、語音撥號辨識系統…等,大多數會在噪音干擾嚴重的環境下使用。因...
本論文では, 実環境下でのハンズフリー音声認識を実現するための方法としてマイクロホンアレーの適用について検討する.マイクロホンアレーを音声認識に適用する際には発話者の方向に指向性ビームを安定して向ける...
[[abstract]]隨著科技的發展,自動語音辨識技術也逐漸成熟,而達實際應用的階段;但當一自動語音辨識系統使用於現實環境中時,往往會受到雜訊的干擾,而造成辨識率大幅的下降;因此,環境相關的語音強健...
Рассмотрена проблема голосовой идентификации для применения в системах контроля доступа. ...
研究了基于动态时间规正(DTW)和图论方法的语音识别和说话人识别的特征子集选择问题,提出了基于DTW距离的有向图方法(DTWDAG).此方法推广了基于欧氏距离的相似矩阵聚类方法,将图论聚类方法改进为语...
在語者辨識的研究中,音色是最常作為語者的語音特徵。音色是人們辨別語者的主要聽覺特性,此特性隱藏在聲音波形的諧波成份裡,所以文獻上對於擷取語者的語音特徵,大部分著重於頻域上的特性。梅爾倒頻譜參數和線性預...
说话人识别技术是生物特征识别中非常热门的一个方向,一直以来随着信息技术的发展而不断得到推广和应用。尤其是当今移动互联网时代的到来,更是使说话人识别技术的应用场景不断扩大,其实用价值越来越高。本文研究的...
说话人识别是一种利用人类说话时的语音进行身份识别的生物识别技术,被应用于金融、司法等领域的身份认证。和高度普及的电话网结合,能充分发挥说话人识别远程认证的独特优势。在电话网上开发的说话人识别应用系统,...
语音是最为重要的人机交互手段之一,语音的清晰度是人机交互得以顺利进行的关键,尤其影响着语音识别应用系统的识别性能。因此,研究语音信号增强以提高语音信号的清晰度具有重要的理论与实际应用价值,也是当前语音...
[[abstract]]在數位娛樂產業中,接近真實感受的介面逐漸被開發,更多型態的操控介面被提出和應用於數位娛樂產業中。過往因正確率過低無法實用的語音介面也因技術和操控性提升漸漸導入數位娛樂產業。語音...
В статті запропоновано метод сегментації мовних сигналів на основі аналізу варіації рівня енергії ве...
В настоящее время набирают популярность различные устройства с системами функцией распознавания ре...
[[abstract]]語者辨識系統可以分三大部分:語音前處理、特徵萃取、分類辨識。特徵擷取的部分,我們使用傳統梅爾倒頻率參數(MFCC)與小波特徵;分類辨識的部分,利用高斯混合模型(GMM)的統計特...
Апісваецца распрацоўка кампанента для аўтаматычнага распазнавання беларускага маўлення з мэтай кірав...
語音辨識的使用日趨廣泛,大量出現於各種應用環境中,而語者調適愈顯得日趨重要。深層類神經網路亦已成為聲學模型的主流,本論文將各語者的平均識別向量分群,分別為每一群語者訓練特定的深層類神經網路模型,再用這...
[[abstract]]語音辨識技術在實際應用時,常會受到外在環境的雜訊干擾,使得辨識系統效能經常會下降,常見的語音辨識產品有手持行動電話、語音撥號辨識系統…等,大多數會在噪音干擾嚴重的環境下使用。因...
本論文では, 実環境下でのハンズフリー音声認識を実現するための方法としてマイクロホンアレーの適用について検討する.マイクロホンアレーを音声認識に適用する際には発話者の方向に指向性ビームを安定して向ける...
[[abstract]]隨著科技的發展,自動語音辨識技術也逐漸成熟,而達實際應用的階段;但當一自動語音辨識系統使用於現實環境中時,往往會受到雜訊的干擾,而造成辨識率大幅的下降;因此,環境相關的語音強健...
Рассмотрена проблема голосовой идентификации для применения в системах контроля доступа. ...
研究了基于动态时间规正(DTW)和图论方法的语音识别和说话人识别的特征子集选择问题,提出了基于DTW距离的有向图方法(DTWDAG).此方法推广了基于欧氏距离的相似矩阵聚类方法,将图论聚类方法改进为语...
在語者辨識的研究中,音色是最常作為語者的語音特徵。音色是人們辨別語者的主要聽覺特性,此特性隱藏在聲音波形的諧波成份裡,所以文獻上對於擷取語者的語音特徵,大部分著重於頻域上的特性。梅爾倒頻譜參數和線性預...