特徵選取為機器學習常見的資料前處理的方法,現今已有許多不同的特徵選取演算法,然而並不存在一個在所有資料上都優於其他方法的演算法,且由於現今的資料種類繁多,所以研發新的方法能夠帶來更多有關資料的資訊並且根據資料的特性採用不同的變數選取演算法是較好的做法。 本研究使用資訊理論entropy的概念依照變數之間資料雲幾何樹的分群結果定義變數之間的相關性,且依此選取資料的特徵,並與同樣使用entropy概念的FCBF方法、Lasso、F-score、隨機森林、基因演算法互相比較,本研究使用階層式分群法與多數決投票法套用在真實的資料上判斷預測率。結果顯示,本研究使用的entropy方法在各個不同的資料集上有較穩定的預測率提升表現,同時資料縮減的維度也相對穩定。Feature selection is a common preprocessing technique in machine learning. Although a large pool of feature selection techniques has existed, there is no such a dominant method in all datasets. Because of the complexity of various data formats, establishing a new method can bring more insight into data, and applying proper techniques to analyzing data would be the best choice. In this study, we used the concept...
在对高清和超高清视频进行压缩时,编码效率不再是衡量视频压缩技术的唯一指标,为了提高视频编码器的处理速度和降低其功耗,数据吞吐率已经成为衡量视频压缩技术优劣的重要指标.作为AVS2的核心模块之一,熵编码...
The paper dwells upon the concept of entropy in connection with information theory, linguistics and ...
特征权重算法对聚类效果有很大的影响,而传统的特征权重算法忽略了特征项在类间和类内的分布情况.因此,研究聚类后样本特征属性表现的有序性程度对聚类结果的影响,分析聚类后样本特征属性的分布情况,提出了一种自...
针对传统的聚类算法只能处理单属性的数据,不能很好地处理混合属性数据的聚类问题,以及目前大多数混合属性数据聚类算法对初始化敏感、不能处理任意形状的数据的问题,提出一种基于信息熵的混合属性数据谱聚类算法,...
语义角色标注是近些年来兴起的自然语言处理的一个新的研究领域.与英语方面的研究相比,汉语方面的工作还不是很充分.该文在参考已有工作的基础上,基于最大熵原则,对汉语语义角色标注中的一个方面——语义角色分类...
对应用最大熵原理建立语言模型的特征选取方法作了改进.用特征模板从训练样本中获得候选特征集,应用频次与平均互信息相结合的方法从候选特征集中选取特征.在选择有效特征时,对候选特征集中出现频次大于某一限值的...
针对地质灾害危险度评价中评价因子权重确定方法的缺陷,依据最小熵分析理论,将评价因子形成线性无关的成分,根据评价因子对泥石流系统贡献率的大小进行评价因子优选与权重的确定,将权重代入经典的泥石流危险度评价...
Показывается, что выражения для тестовых статистик серий и аппроксимированной энтропии являю...
Показывается, что выражения для тестовых статистик серий и аппроксимированной энтропии являю...
Показывается, что выражения для тестовых статистик серий и аппроксимированной энтропии являю...
有限高斯混合模型是一种重要的概率模型,并在聚类分析,模式识别和信号处理等方面有着广泛的应用.在高斯(即正态)分量个数K未知时,仅仅根据样本数据来确定K是一个非常困难的问题.这实际上是一个模型选择问题,...
关键词是文档管理、文本聚类/分类、信息检索等领域可利用的重要资源,因此该文提出了利用最大熵模型进行自动标引的技术.最大熵模型为一个成熟的数学模型,已经应用到计算语言学的各个领域.然而它的应用非常灵活,...
神奈川県茅ヶ崎市 1つのカテゴリに帰属するパターンはその帰属するカテゴリを保存したまま、どの程度の変形に耐えられるであろうか? 最小距離分類器、最大相関分類器、不動点探索形構造受精多段階帰納推理の働き...
研究代表者研究分担者研究分担者連携研究者publisher研究種目:基盤研究 (C); 研究期間:2007~2010; 課題番号:19500245; 研究分野:情報工学; 科研費の分科・...
Предлагается энтропийный метод выбора технологического процесса, обеспечивающего с наибольшей вероят...
在对高清和超高清视频进行压缩时,编码效率不再是衡量视频压缩技术的唯一指标,为了提高视频编码器的处理速度和降低其功耗,数据吞吐率已经成为衡量视频压缩技术优劣的重要指标.作为AVS2的核心模块之一,熵编码...
The paper dwells upon the concept of entropy in connection with information theory, linguistics and ...
特征权重算法对聚类效果有很大的影响,而传统的特征权重算法忽略了特征项在类间和类内的分布情况.因此,研究聚类后样本特征属性表现的有序性程度对聚类结果的影响,分析聚类后样本特征属性的分布情况,提出了一种自...
针对传统的聚类算法只能处理单属性的数据,不能很好地处理混合属性数据的聚类问题,以及目前大多数混合属性数据聚类算法对初始化敏感、不能处理任意形状的数据的问题,提出一种基于信息熵的混合属性数据谱聚类算法,...
语义角色标注是近些年来兴起的自然语言处理的一个新的研究领域.与英语方面的研究相比,汉语方面的工作还不是很充分.该文在参考已有工作的基础上,基于最大熵原则,对汉语语义角色标注中的一个方面——语义角色分类...
对应用最大熵原理建立语言模型的特征选取方法作了改进.用特征模板从训练样本中获得候选特征集,应用频次与平均互信息相结合的方法从候选特征集中选取特征.在选择有效特征时,对候选特征集中出现频次大于某一限值的...
针对地质灾害危险度评价中评价因子权重确定方法的缺陷,依据最小熵分析理论,将评价因子形成线性无关的成分,根据评价因子对泥石流系统贡献率的大小进行评价因子优选与权重的确定,将权重代入经典的泥石流危险度评价...
Показывается, что выражения для тестовых статистик серий и аппроксимированной энтропии являю...
Показывается, что выражения для тестовых статистик серий и аппроксимированной энтропии являю...
Показывается, что выражения для тестовых статистик серий и аппроксимированной энтропии являю...
有限高斯混合模型是一种重要的概率模型,并在聚类分析,模式识别和信号处理等方面有着广泛的应用.在高斯(即正态)分量个数K未知时,仅仅根据样本数据来确定K是一个非常困难的问题.这实际上是一个模型选择问题,...
关键词是文档管理、文本聚类/分类、信息检索等领域可利用的重要资源,因此该文提出了利用最大熵模型进行自动标引的技术.最大熵模型为一个成熟的数学模型,已经应用到计算语言学的各个领域.然而它的应用非常灵活,...
神奈川県茅ヶ崎市 1つのカテゴリに帰属するパターンはその帰属するカテゴリを保存したまま、どの程度の変形に耐えられるであろうか? 最小距離分類器、最大相関分類器、不動点探索形構造受精多段階帰納推理の働き...
研究代表者研究分担者研究分担者連携研究者publisher研究種目:基盤研究 (C); 研究期間:2007~2010; 課題番号:19500245; 研究分野:情報工学; 科研費の分科・...
Предлагается энтропийный метод выбора технологического процесса, обеспечивающего с наибольшей вероят...
在对高清和超高清视频进行压缩时,编码效率不再是衡量视频压缩技术的唯一指标,为了提高视频编码器的处理速度和降低其功耗,数据吞吐率已经成为衡量视频压缩技术优劣的重要指标.作为AVS2的核心模块之一,熵编码...
The paper dwells upon the concept of entropy in connection with information theory, linguistics and ...
特征权重算法对聚类效果有很大的影响,而传统的特征权重算法忽略了特征项在类间和类内的分布情况.因此,研究聚类后样本特征属性表现的有序性程度对聚类结果的影响,分析聚类后样本特征属性的分布情况,提出了一种自...