首页|毕业论文指导|毕业设计下载|设计文档下载|综合设计下载|资料库|付费帮助 点击这里给我发消息
   位置: 文档中心 >> 设计文档下载 >> 其它类型 >> 设计文档信息
搜索:
全站搜索
联系方式
QQ:460925790 点击联系我
TEL:13101311106(手机)
Email:lwba_cn@qq.com
银行卡号
中国工商银行(重庆分行)
账 户:冯志香
卡 号:6222023100012362070
中国农业银行(重庆分行)
账 户:冯志香
卡 号:6228480470300167314
中国建设银行(重庆分行)
账 户:冯志香
卡 号:6227003764230048952
关于本站
     中国文档中心(julikj.com)热忱欢迎各位朋友的光临! 本站致力于计算机、物理电子及信息工程专业本科专科毕业设计论文资源的开发,本站所有毕业设计全部由计算机学士学位,程序员资格的人设计和撰写,专注、坚持,力求精而不滥,包括VB、VF、DELPHI、PB、VC、ASP、JSP、JAVA、单片机等标准的毕业设计论文(毕业论文+源代码+执行程序+开题+答辩演示幻灯片PPT),为确保论文的唯一性,同一个学校我们不会发相同题目的毕业设计。
最新调查
  • 没有任何调查
  • 频道统计
    其它类型
    • 交叉覆盖算法下文本分类的研究
    • 编号:
    • 授权方式:收费版
    • 软件类别:Word文档
    • 软件语言:简体中文
    • 运行环境:Win9x/Me/NT/2000
    • 开 发 商:本站原创  E-mail
    • 更新时间:2008-1-21 14:56:06
    • 推荐等级:5星级
    • 下载次数:

    下载地址

     下载地址1

    设计文档简介

    文本自动分类,是将非结构化的文本依据其内容指派到一个或多个预先定义的类别中去的一项技术,近10年来受到了人们越来越多的关注。这主要因为大量机器可读的电子文本的出现,迫切需要对文本进行有效地分类,以提高查找、阅读速度的结果。目前尽管己有许多技术和算法用于文本的自动分类,但是,对这些技术和算法本身效力的挖掘还远远不够,仍留有很大的改进空间。另外,还有新的分类方法尚待深入研究,特别是对于中文文本的自动分类,之前相关的研究工作相对较少,有名气的中文文本分类器更少。
    文本分类器对于学习算法和分类的结果都是至关重要的一步。在学习算法和分类系统能够处理文本之前,文本必须转换成一种适当的表示形式。这种表示形式要在一定程度上能够捕获文本本身的语义内容。依据前面的要求,可以把中文文本分类技术过程描述为:文本数据集的搜集,中文文本的分词,高维的原始特征空间的降维计算,分类器的选择,分类结果的评价等。
    3、目前的分类体系为平面体系,可以在层次分类体系中考虑文本分类系统,使分类由平面向三维空间发展,以便大幅度提高分类算法的准确率和加快分类的速度。
     
     
     
    关键词: 特征降维,文本分类,覆盖算法

    :
    1. Introduction of the correlation concept of text classification and the existing methods of it;
    2. In order to gain the useful information from the classified results, this paper uses different feature reduced dimension means: Mutual information (MI), Correlation Coefficient, Document Frequency, and Expectation Crossing Entropy (ECE) to process the classified results. The experiments demonstrate the Correlation Coefficient method is the most effective; the less effective are Expectation Crossing Entropy (ECE) method and Mutual Information (MI) method, while Document Frequency is the worst method.
    This paper also carries on experiments as comparisons of classifiers between cross cover algorithm and SVM method. It reveals that the cross cover algorithm works very well as a classifier to Chinese text, by the action of the proper dimension and feature reduced dimension.
    This paper has carried on some work to Chinese text classification, but based on it, still has space for enhancement. Therefore, further study on Chinese text classification may be launched from the following three aspects:
    1. This text representational model adopts vector space model, As to the vector space model, it combines computer linguistics, and uses the concept space to replace the semantic space; Taking no consideration of the effect of Chinese words meanings; the ICTCLAS classification results provided by Chinese Accounting Office are used in Chinese text classification. Later, we can further study how to enhance the precision of the classification.
    2. Improvement of the cross cover algorithm for enhancement of its classified accuracy;
    3. The present classification system is a plane system. We may consider the text classification system in the layer of classification structure, to induce classification goes from plane to three-dimensional space, in order to enhance the accuracy of the classified algorithm greatly and speed up text classification.
     
     
     
    Keywords: Feature Dimension, Version Classification, Cross Cover Algorithm

    相关设计文档

    网友评论 发表评论

       设计文档搜索:
    | 关于本站 | 设为首页 | 加入收藏 | 站长邮箱 | 友情链接 | 与我同在 | 版权申明 | 联系我们 |