專業提供無毒且安全的軟件及游戲下載!
當前位置:首頁 > 電腦軟件 > 編程開發 >Jcseg(Java中文分詞器) v2.6.2 官方版

Jcseg(Java中文分詞器) v2.6.2 官方版

  • 軟件大?。?/em>4.9MB
  • 更新日期:2021-08-29
  • 語言:簡體中文
  • 類別:編程開發
  • 適用環境:WinAll
  • 安全檢測: 無插件 360通過 騰訊通過 金山通過 瑞星通過
  • 暫無下載

軟件介紹

Jcseg官方版是一款輕量級的Java中文分詞器,我們可以通過這款軟件來進行關鍵字、關鍵短語和關鍵句的提取。而且Jcseg還將會為用戶提供一個基于Jetty的web服務器,你可以通過這個服務器來搜索各種關鍵詞。

Jcseg官方版

Jcseg官方版軟件功能

Jcseg核心功能:

中文分詞:mmseg算法 + Jcseg 獨創的優化算法,七種切分模式。

關鍵字提?。夯趖extRank算法。

關鍵短語提?。夯趖extRank算法。

關鍵句子提?。夯趖extRank算法。

文章自動摘要:基于BM25+textRank算法。

自動詞性標注:基于詞庫+(統計歧義去除計劃),目前效果不是很理想,對詞性標注結果要求較高的應用不建議使用。

命名實體標注:基于詞庫+(統計歧義去除計劃),電子郵件,網址,大陸手機號碼,地名,人名,貨幣,datetime時間,長度,面積,距離單位等。

Restful api:嵌入jetty提供了一個絕對高性能的server模塊,包含全部功能的http接口,標準化json輸出格式,方便各種語言客戶端直接調用。

Jcseg中文分詞:

七種切分模式:

簡易模式:FMM算法,適合速度要求場合。

復雜模式:MMSEG四種過濾算法,具有較高的歧義去除,分詞準確率達到了98.41%。

檢測模式:只返回詞庫中已有的詞條,很適合某些應用場合。

最多模式:細粒度切分,專為檢索而生,除了中文處理外(不具備中文的人名,數字識別等智能功能)其他與復雜模式一致(英文,組合詞等)。

分隔符模式:按照給定的字符切分詞條,默認是空格,特定場合的應用。

NLP模式:繼承自復雜模式,更改了數字,單位等詞條的組合方式,增加電子郵件,大陸手機號碼,網址,人名,地名,貨幣等以及無限種自定義實體的識別與返回。

n-gram模式:CJK和拉丁系字符的通用n-gram切分實現。

分詞功能特性:

支持自定義詞庫。在lexicon文件夾下,可以隨便添加/刪除/更改詞庫和詞庫內容,并且對詞庫進行了分類。

支持詞庫多目錄加載. 配置lexicon.path中使用';'隔開多個詞庫目錄.

詞庫分為簡體/繁體/簡繁體混合詞庫: 可以專門適用于簡體切分, 繁體切分, 簡繁體混合切分, 并且可以利用下面提到的同義詞實現,簡繁體的相互檢索, Jcseg同時提供了詞庫兩個簡單的詞庫管理工具來進行簡繁體的轉換和詞庫的合并。

中英文同義詞追加/同義詞匹配 + 中文詞條拼音追加.詞庫整合了《現代漢語詞典》和cc-cedict辭典中的詞條,并且依據cc-cedict詞典為詞條標上了拼音,依據《中華同義詞詞典》為詞條標上了同義詞(尚未完成)。更改jcseg.properties配置文檔可以在分詞的時候加入拼音和同義詞到分詞結果中。

中文數字和中文分數識別,例如:"一百五十個人都來了,四十分之一的人。"中的"一百五十"和"四十分之一"。并且 Jcseg會自動將其轉換為阿拉伯數字加入到分詞結果中。如:150, 1/40。

支持中英混合詞和英中混合詞的識別(維護詞庫可以識別任何一種組合)。例如:B超, x射線, 卡拉ok, 奇都KTV, 哆啦a夢。

支持英文的類中文切分,同樣使用mmseg算法來消除歧義,例如:“openarkcompiler”會被切分成:“open ark compiler”,該功能也可以被關閉。

更好的拉丁支持,電子郵件,域名,小數,分數,百分數,字母和標點組合詞(例如C++, c#)的識別。

自定義切分保留標點. 例如: 保留&, 就可以識別k&r這種復雜詞條。

復雜英文切分結果的二次切分: 可以保留原組合,同時可以避免復雜切分帶來的檢索命中率下降的情況,例如QQ2013會被切分成: qq2013/ qq/ 2013, chenxin619315@gmail.com會被切分成: chenxin619315@gmail.com/ chenxin/ 619315/ gmail/ com。

支持阿拉伯數字/小數/中文數字基本單字單位的識別,例如2012年,1.75米,38.6℃,五折,并且 Jcseg會將其轉換為“5折”加入分詞結果中。

智能圓角半角, 英文大小寫轉換。

特殊字母識別:例如:Ⅰ,Ⅱ;特殊數字識別:例如:①,⑩。

配對標點內容提?。豪纾鹤詈玫腏ava書《java編程思想》,‘暢想杯黑客技術大賽’,被《,‘,“,『標點標記的內容。(1.6.8版開始支持)。

智能中文人名/外文翻譯人名識別。中文人名識別正確率達94%以上。(中文人名可以維護lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex來提高準確率),(引入規則和詞性后會達到98%以上的識別正確率)。

自動中英文停止詞過濾功能(需要在jcseg.properties中開啟該選項,lex-stopwords.lex為停止詞詞庫)。

詞庫更新自動加載功能, 開啟一個守護線程定時的檢測詞庫的更新并且加載(注意需要有對應詞庫目錄下的的lex-autoload.todo文件的寫入權限)。

自動詞性標注(目前基于詞庫)。

自動實體的識別,默認支持:電子郵件,網址,大陸手機號碼,地名,人名,貨幣等;詞庫中可以自定義各種實體并且再切分中返回。

下載地址
暫無下載
用戶評論
所有評論(5)
昵稱:
(您的評論需要經過審核才能顯示)
精選留言 來自河南平頂山電信用戶 發表于: 2023-7-23
感謝分享,這個版本好用嗎
精選留言 來自四川眉山移動用戶 發表于: 2023-4-11
這個可不好找,終于找到了
精選留言 來自福建南平電信用戶 發表于: 2023-11-8
感謝分享
精選留言 來自湖南永州電信用戶 發表于: 2023-8-22
這個軟件真的很不錯 收藏備用!
精選留言 來自海南??陔娦庞脩? 發表于: 2023-2-27
牛叉,牛叉,這個軟件真的用的簡單,方便。

軟件投訴或糾錯

問題:
說明:
郵箱:
99久免费视频精品,精品久久久久久中文字幕无码,亚洲最大无码中文字幕,成人区精品一区二区不卡