展会信息港展会大全

C#开源中文分词组件推荐之盘古分词V1.2
来源:互联网   发布日期:2011-09-16 09:35:50   浏览:31093次  

导读:C#开源中文分词组件推荐之盘古分词V1.2 - C#...

本文为大家推荐的中文分词组件叫做盘古分词,现在作者已经发布了1.2版本,看来很不错哦。

下载地址:

下面是这个分词组件的功能详细介绍:

  • 中文未登录词识别
  • 盘古分词可以对一些不在字典中的未登录词自动识别
  • 词频优先
  • 盘古分词可以根据词频来解决分词的歧义问题
  • 多元分词
  • 盘古分词提供多重输出解决分词粒度和分词精度权衡的问题
  • 详见 http://www.cnblogs.com/eaglet/archive/2008/10/02/1303142.html
  • 中文人名识别
  • 强制一元分词
  • 输入 “张三说的确实在理”
  • 分词结果: 张(0,1)/张三(0,5)/三说的(1,1)/三(1,1)/说(2,5)/的(3,5)/确(4,1)/确实(4,5)/实(5,1)/在(6,1)/在理(6,5)/理(7,1)/
  • 繁体中文分词
  • 输入"我的選擇"
  • 分词结果: 我/的/選擇/
  • 同时输出简体和繁体
  • 输入"我的選擇"
  • 分词结果:我(0,5)/的(1,5)/选择(2,1)/選擇(2,5)/
  • 中文词性输出
  • 盘古分词可以将以登录词的中文词性输出给用户,以方便用户做进一步处理。
  • 全角字符支持
  • 盘古分词可以识别全角的字母和数字
  • 英文分词
  • 英文分词
  • 英文单词通常都是靠空格等符号分割,这个比较简单,盘古分词分英文自然也没有什么问题。
  • 英文专用词识别
  • 一些英文简写是字母符号混合,或者是字母数字混合,这个分词起来就不能按照空格符号这样分割了,对于字母符号混合的如 U.S.A ,只要将这个词录入到字典中,盘古分词就可以分出整词。对于字母和数字混合的,盘古分词会自动作为整词输出。

  • 英文原词输出 (后续版本提供)
  • 英文大小写同时输出(后续版本提供)
  • 其他功能
  • 停用词过滤
  • 对于一些标点符号,连词,助词等有时候需要在分词时过滤掉,盘古分词提供一个 StopWord.txt 文件,用户只要将需要过滤的词加入到这个文件中,并将停用词过滤开发打开,就可以过滤掉这些词。

  • 设置分词权值
  • 盘古分词可以让用户对如下特性设置自定义权值

  • 字典管理
  • 盘古分词提供一个字典管理工具 DictManage 通过这个工具,你可以增加,修改,和删除字典中的单词
  • 动态加载字典
  • 通过字典工具增加,修改,和删除字典中的单词后,保持字典,盘古分词会自动将新的字典文件加载进去,而不需要重新启动。
  • 关键词高亮组件
  • Lucene 提供了一个关键词高亮组件,但这个组件对中文的支持不是特别好,特别是如果还有多元分词的情况,处理的就更不好。盘古分词提供了一个针对中文和英文的关键词高亮组件 PanGu.HighLight ,其对中文的支持要好于Lucene 那个高亮组件。

  • 同义词输出(后续版本提供)
  • Lucene.net 接口及示例
  • 在PanGu4Lucene 这个包里面有我做的一个盘古+Lucene 的简单新闻搜索Web示例程序,Release 包里面有使用说明。

    性能指标

    Core Duo 1.8 GHz 下单线程 分词速度为 390K 字符每秒,2线程分词速度为 690K 字符每秒。

    其他说明

    赞助本站

    人工智能实验室

    相关热词: 盘古分词V1.2

    AiLab云推荐
    展开

    热门栏目HotCates

    Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港