正向最大匹配分词FMM(Forward Maximum Matching)算法存在设定的最大词长初始值固定不变的问题,带来长词丢失或匹配次数较多的弊端。针对此问题提出了根据中文分词词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法。与...正向最大匹配分词FMM(Forward Maximum Matching)算法存在设定的最大词长初始值固定不变的问题,带来长词丢失或匹配次数较多的弊端。针对此问题提出了根据中文分词词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法。与此相配合,设计了一种词典结构,使之能够有效地支持改进的算法。改进的算法与一般正向最大匹配算法相比大大减少了匹配次数,分析表明中文分词的速度和效率有了很大提高。展开更多
为了解双斑蟳栖息分布规律,实验根据2011—2016年多个季度航次在海州湾进行的渔业资源和环境调查数据,采用广义线性模型(GLM)、广义可加模型(GAM)以及随机森林3种物种分布模型(SDMs)方法,结合AIC(akaike information criterion)准则、...为了解双斑蟳栖息分布规律,实验根据2011—2016年多个季度航次在海州湾进行的渔业资源和环境调查数据,采用广义线性模型(GLM)、广义可加模型(GAM)以及随机森林3种物种分布模型(SDMs)方法,结合AIC(akaike information criterion)准则、累积偏差解释率和交叉检验等评判指标筛选和构建了双斑蟳栖息分布模型,并分析了环境因子对双斑蟳分布的影响。结果显示,3种模型在解释因子与响应变量间的关系上基本一致;其中GAM在模型拟合上具有优势,而随机森林的预测性能明显高于传统的GLM和GAM。双斑蟳相对渔获量在年份和月份间的变异性最为显著,两个因子的解释率分别在18%和3.8%以上。水深和表层盐度对双斑蟳资源分布的影响较大,均与双斑蟳相对丰度呈正相关关系;双斑蟳分布总体呈现冬季相对较高,夏季东北部海域高、西南部低的特点,与海州湾水深分布特点基本一致。本研究还根据FVCOM(finite-volume coasta ocean model)模拟环境数据,利用随机森林分布模型估计了双斑蟳在海州湾海域2011年各个季节的空间分布,为渔业资源的开发和保护提供依据。展开更多
文摘正向最大匹配分词FMM(Forward Maximum Matching)算法存在设定的最大词长初始值固定不变的问题,带来长词丢失或匹配次数较多的弊端。针对此问题提出了根据中文分词词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法。与此相配合,设计了一种词典结构,使之能够有效地支持改进的算法。改进的算法与一般正向最大匹配算法相比大大减少了匹配次数,分析表明中文分词的速度和效率有了很大提高。