针对社会化标签中资源之间存在独立同分布特性,并且其对应的标签资源作为资源内容的特殊语义内容,提出一种联合特征词加权-LDA(Joint Feature Word Weighting-LDA)在资源内容和标签下联合主题识别方法,从而解决资源存在的独立同分布特...针对社会化标签中资源之间存在独立同分布特性,并且其对应的标签资源作为资源内容的特殊语义内容,提出一种联合特征词加权-LDA(Joint Feature Word Weighting-LDA)在资源内容和标签下联合主题识别方法,从而解决资源存在的独立同分布特性以及特征词采样等问题。首先建立评论及对应标签资源在信息熵相似度条件下的潜在关系,对该潜在关系使用随机游走方法获取各组资源和各组标签的权值系数,消除资源间的独立同分布。通过加权方法加权至每个资源的特征词,形成资源特征词和标签特征词的权重值系数。在此基础上构建联合特征词加权-LDA模型,通过迭代学习方法获取社会化标签资源的隐含主题知识。通过实验表明,提出的联合特征词加权-LDA相对于其他主题模型具有更好的主题识别效果。展开更多
随着联邦学习的不断兴起,梯度提升决策树(GBDT)作为一种传统的机器学习方法,逐渐应用于联邦学习中以达到理想的分类效果。针对现有GBDT的横向联邦学习模型,存在精度受非独立同分布数据的影响较大、信息泄露和通信成本高等问题,提出了一...随着联邦学习的不断兴起,梯度提升决策树(GBDT)作为一种传统的机器学习方法,逐渐应用于联邦学习中以达到理想的分类效果。针对现有GBDT的横向联邦学习模型,存在精度受非独立同分布数据的影响较大、信息泄露和通信成本高等问题,提出了一种面向非独立同分布数据的联邦梯度提升决策树(federated GBDT for non-IID dataset,nFL-GBDT)。首先,采用局部敏感哈希(LSH)来计算各个参与方之间的相似样本,通过加权梯度来构建第一棵树。其次,由可靠第三方计算只需要一轮通信的全局叶权重来更新树模型。最后,实验分析表明了该算法能够实现对原始数据的隐私保护,并且通信成本低于simFL和FederBoost。同时,实验按照不平衡比率来划分三组公共的数据集,结果表明该算法与Individual、TFL及F-GBDT-G相比,准确率分别提升了3.53%、5.46%和4.43%。展开更多
文摘针对社会化标签中资源之间存在独立同分布特性,并且其对应的标签资源作为资源内容的特殊语义内容,提出一种联合特征词加权-LDA(Joint Feature Word Weighting-LDA)在资源内容和标签下联合主题识别方法,从而解决资源存在的独立同分布特性以及特征词采样等问题。首先建立评论及对应标签资源在信息熵相似度条件下的潜在关系,对该潜在关系使用随机游走方法获取各组资源和各组标签的权值系数,消除资源间的独立同分布。通过加权方法加权至每个资源的特征词,形成资源特征词和标签特征词的权重值系数。在此基础上构建联合特征词加权-LDA模型,通过迭代学习方法获取社会化标签资源的隐含主题知识。通过实验表明,提出的联合特征词加权-LDA相对于其他主题模型具有更好的主题识别效果。
文摘随着联邦学习的不断兴起,梯度提升决策树(GBDT)作为一种传统的机器学习方法,逐渐应用于联邦学习中以达到理想的分类效果。针对现有GBDT的横向联邦学习模型,存在精度受非独立同分布数据的影响较大、信息泄露和通信成本高等问题,提出了一种面向非独立同分布数据的联邦梯度提升决策树(federated GBDT for non-IID dataset,nFL-GBDT)。首先,采用局部敏感哈希(LSH)来计算各个参与方之间的相似样本,通过加权梯度来构建第一棵树。其次,由可靠第三方计算只需要一轮通信的全局叶权重来更新树模型。最后,实验分析表明了该算法能够实现对原始数据的隐私保护,并且通信成本低于simFL和FederBoost。同时,实验按照不平衡比率来划分三组公共的数据集,结果表明该算法与Individual、TFL及F-GBDT-G相比,准确率分别提升了3.53%、5.46%和4.43%。