针对传统的聚类算法只能处理单属性的数据,不能很好地处理混合属性数据的聚类问题,以及目前大多数混合属性数据聚类算法对初始化敏感、不能处理任意形状的数据的问题,提出一种基于信息熵的混合属性数据谱聚类算法,用于处理混合类型数据。首先,提出了一种新的相似性度量方式,利用谱聚类算法中的数值型数据构成的高斯核函数矩阵与新的基于信息熵的分类型数据构成的影响因子矩阵相结合代替了传统的相似度矩阵,新的相似度矩阵避免了数值属性与分类属性数据之间的转换和参数调整;然后,把新的相似度矩阵运用到谱聚类算法中,以便于处理任意形状的数据,最终得出聚类结果。通过在UCI的数据集上的实验表明,该算法能有效地处理混合属性数据的聚类问题,且具有较高的稳定性以及良好的鲁棒性。</p
[[abstract]]文件探勘是資料探勘加上一些基礎的語言學所構成的。文件探勘運用的技術,幾乎都與詞彙的頻率與出現篇數有關,但這兩項資訊在資料探勘中卻極少用到。目前在文件聚類的研究中,已經發展出許多...
关键词是文档管理、文本聚类/分类、信息检索等领域可利用的重要资源,因此该文提出了利用最大熵模型进行自动标引的技术.最大熵模型为一个成熟的数学模型,已经应用到计算语言学的各个领域.然而它的应用非常灵活,...
Проведено дослідження часової складності реалізації алгоритмів цифрової демодуляції широкосмугових с...
特徵選取為機器學習常見的資料前處理的方法,現今已有許多不同的特徵選取演算法,然而並不存在一個在所有資料上都優於其他方法的演算法,且由於現今的資料種類繁多,所以研發新的方法能夠帶來更多有關資料的資訊並且...
ハイパースペクトル画像は,従来のマルチスペクトル画像と比較して,高周波数分解能であることから,対象物の分光スペクトル分布をより詳細に取得できる.そのため,従来よりも精ちな画像分類が可能と期待される.一...
特征权重算法对聚类效果有很大的影响,而传统的特征权重算法忽略了特征项在类间和类内的分布情况.因此,研究聚类后样本特征属性表现的有序性程度对聚类结果的影响,分析聚类后样本特征属性的分布情况,提出了一种自...
特征权重算法对聚类效果有很大的影响,而传统的特征权重算法忽略了特征项在类间和类内的分布情况.因此,研究聚类后样本特征属性表现的有序性程度对聚类结果的影响,分析聚类后样本特征属性的分布情况,提出了一种自...
语义角色标注是近些年来兴起的自然语言处理的一个新的研究领域.与英语方面的研究相比,汉语方面的工作还不是很充分.该文在参考已有工作的基础上,基于最大熵原则,对汉语语义角色标注中的一个方面——语义角色分类...
Показывается, что выражения для тестовых статистик серий и аппроксимированной энтропии являю...
Показывается, что выражения для тестовых статистик серий и аппроксимированной энтропии являю...
Показывается, что выражения для тестовых статистик серий и аппроксимированной энтропии являю...
针对地质灾害危险度评价中评价因子权重确定方法的缺陷,依据最小熵分析理论,将评价因子形成线性无关的成分,根据评价因子对泥石流系统贡献率的大小进行评价因子优选与权重的确定,将权重代入经典的泥石流危险度评价...
Для кластерного анализа разнородных данных предложен метод построения коллективного решения с учетом...
研究代表者研究分担者研究分担者連携研究者publisher研究種目:基盤研究 (C); 研究期間:2007~2010; 課題番号:19500245; 研究分野:情報工学; 科研費の分科・...
一般にWeb検索システムは仮想的・平均的なユーザにとって有益な情報を提供できるよう設計されている。しかし、現実にシステムを利用するのは多様な個々のユーザであり、求める情報の傾向もそれぞれに異なる。検索...
[[abstract]]文件探勘是資料探勘加上一些基礎的語言學所構成的。文件探勘運用的技術,幾乎都與詞彙的頻率與出現篇數有關,但這兩項資訊在資料探勘中卻極少用到。目前在文件聚類的研究中,已經發展出許多...
关键词是文档管理、文本聚类/分类、信息检索等领域可利用的重要资源,因此该文提出了利用最大熵模型进行自动标引的技术.最大熵模型为一个成熟的数学模型,已经应用到计算语言学的各个领域.然而它的应用非常灵活,...
Проведено дослідження часової складності реалізації алгоритмів цифрової демодуляції широкосмугових с...
特徵選取為機器學習常見的資料前處理的方法,現今已有許多不同的特徵選取演算法,然而並不存在一個在所有資料上都優於其他方法的演算法,且由於現今的資料種類繁多,所以研發新的方法能夠帶來更多有關資料的資訊並且...
ハイパースペクトル画像は,従来のマルチスペクトル画像と比較して,高周波数分解能であることから,対象物の分光スペクトル分布をより詳細に取得できる.そのため,従来よりも精ちな画像分類が可能と期待される.一...
特征权重算法对聚类效果有很大的影响,而传统的特征权重算法忽略了特征项在类间和类内的分布情况.因此,研究聚类后样本特征属性表现的有序性程度对聚类结果的影响,分析聚类后样本特征属性的分布情况,提出了一种自...
特征权重算法对聚类效果有很大的影响,而传统的特征权重算法忽略了特征项在类间和类内的分布情况.因此,研究聚类后样本特征属性表现的有序性程度对聚类结果的影响,分析聚类后样本特征属性的分布情况,提出了一种自...
语义角色标注是近些年来兴起的自然语言处理的一个新的研究领域.与英语方面的研究相比,汉语方面的工作还不是很充分.该文在参考已有工作的基础上,基于最大熵原则,对汉语语义角色标注中的一个方面——语义角色分类...
Показывается, что выражения для тестовых статистик серий и аппроксимированной энтропии являю...
Показывается, что выражения для тестовых статистик серий и аппроксимированной энтропии являю...
Показывается, что выражения для тестовых статистик серий и аппроксимированной энтропии являю...
针对地质灾害危险度评价中评价因子权重确定方法的缺陷,依据最小熵分析理论,将评价因子形成线性无关的成分,根据评价因子对泥石流系统贡献率的大小进行评价因子优选与权重的确定,将权重代入经典的泥石流危险度评价...
Для кластерного анализа разнородных данных предложен метод построения коллективного решения с учетом...
研究代表者研究分担者研究分担者連携研究者publisher研究種目:基盤研究 (C); 研究期間:2007~2010; 課題番号:19500245; 研究分野:情報工学; 科研費の分科・...
一般にWeb検索システムは仮想的・平均的なユーザにとって有益な情報を提供できるよう設計されている。しかし、現実にシステムを利用するのは多様な個々のユーザであり、求める情報の傾向もそれぞれに異なる。検索...
[[abstract]]文件探勘是資料探勘加上一些基礎的語言學所構成的。文件探勘運用的技術,幾乎都與詞彙的頻率與出現篇數有關,但這兩項資訊在資料探勘中卻極少用到。目前在文件聚類的研究中,已經發展出許多...
关键词是文档管理、文本聚类/分类、信息检索等领域可利用的重要资源,因此该文提出了利用最大熵模型进行自动标引的技术.最大熵模型为一个成熟的数学模型,已经应用到计算语言学的各个领域.然而它的应用非常灵活,...
Проведено дослідження часової складності реалізації алгоритмів цифрової демодуляції широкосмугових с...