中文分词代码(此代码为作者多年经验总结，以前发表过VB，PB版本)

编程

更新时间：2025-05-230

admin管理员组
文章数量:1441952

中文分词代码(此代码为作者多年经验总结，以前发表过VB，PB版本)

/* * created by yzh 2004.5.12 * 请大家引用时保留这段作者声明，此代码为开源代码；使用不受限制。 * 中文分词代码 *此代码为作者多年经验总结，以前发表过VB，PB版本 */

import java.io.BufferedReader; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.util.Locale; import java.util.TreeMap; import java.util.TreeSet;

public class ChineseSegmenter {

private static ChineseSegmenter segmenter = null;

// private Hashtable zhwords; private TreeMap zhwords;

private TreeSet cforeign, cnumbers;

// Char form public final static int TRAD = 0;

public final static int SIMP = 1;

public final static int BOTH = 2;

// Charform is TRAD, SIMP or BOTH private ChineseSegmenter(int charform, boolean loadwordfile) { cforeign = new TreeSet(); cnumbers = new TreeSet();

if (charform == SIMP) { loadset(cnumbers, "data/snumbers_u8.txt"); loadset(cforeign, "data/sforeign_u8.txt"); } else if (charform == TRAD) { loadset(cnumbers, "data/tnumbers_u8.txt"); loadset(cforeign, "data/tforeign_u8.txt"); } else { // BOTH loadset(cnumbers, "data/snumbers_u8.txt"); loadset(cforeign, "data/sforeign_u8.txt"); loadset(cnumbers, "data/tnumbers_u8.txt"); loadset(cforeign, "data/tforeign_u8.txt"); }

// zhwords = new Hashtable(120000); zhwords = new TreeMap();

if (!loadwordfile) { return; }

String newword = null; try { InputStream worddata = null; if (charform == SIMP) { worddata = getClass().getResourceAsStream("simplexu8.txt"); } else if (charform == TRAD) { worddata = getClass().getResourceAsStream("tradlexu8.txt"); } else if (charform == BOTH) { worddata = getClass().getResourceAsStream("bothlexu8.txt"); } BufferedReader in = new BufferedReader(new InputStreamReader( worddata, "UTF8")); while ((newword = in.readLine()) != null) { if ((newword.indexOf("#") == -1) && (newword.length() < 5)) {

zhwords.put(newword.intern(), "1");

if (newword.length() == 3) { if (zhwords.containsKey(newword.substring(0, 2) .intern()) == false) { zhwords.put(newword.substring(0, 2).intern(), "2"); } }

if (newword.length() == 4) { if (zhwords.containsKey(newword.substring(0, 2) .intern()) == false) { zhwords.put(newword.substring(0, 2).intern(), "2"); } if (zhwords.containsKey(newword.substring(0, 3) .intern()) == false) { zhwords.put(newword.substring(0, 3).intern(), "2"); } } } } in.close(); } catch (IOException e) { e.printStackTrace(); }

} public synchronized static void reset() { ChineseSegmenter.segmenter = null; }

public synchronized static ChineseSegmenter getGBSegmenter() { Locale.setDefault(Locale.SIMPLIFIED_CHINESE); if (ChineseSegmenter.segmenter == null) { ChineseSegmenter.segmenter = new ChineseSegmenter(ChineseSegmenter.SIMP, true); } return ChineseSegmenter.segmenter; }

public synchronized static ChineseSegmenter getBig5Segmenter() { Locale.setDefault(Locale.TRADITIONAL_CHINESE); if (ChineseSegmenter.segmenter == null) { ChineseSegmenter.segmenter = new ChineseSegmenter(ChineseSegmenter.TRAD, true); } return ChineseSegmenter.segmenter; }

private void loadset(TreeSet targetset, String sourcefile) { String dataline; try { InputStream setdata = getClass().getResourceAsStream(sourcefile); BufferedReader in = new BufferedReader(new InputStreamReader( setdata, "UTF-8")); while ((dataline = in.readLine()) != null) { if ((dataline.indexOf("#") > -1) || (dataline.length() == 0)) { continue; } targetset.add(dataline.intern()); } in.close(); } catch (Exception e) { System.err.println("Exception loading data file" + sourcefile + " " + e); e.printStackTrace(); }

}

public boolean isNumber(String testword) { boolean result = true; for (int i = 0; i < testword.length(); i++) { if (cnumbers.contains(testword.substring(i, i + 1).intern()) == false) { result = false; break; } } return result; }

public boolean isAllForeign(String testword) { boolean result = true; for (int i = 0; i < testword.length(); i++) { if (cforeign.contains(testword.substring(i, i + 1).intern()) == false) { result = false; break; } }

return result; }

public boolean isNotCJK(String testword) { boolean result = true; for (int i = 0; i < testword.length(); i++) { if (Character.UnicodeBlock.of(testword.charAt(i)) == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS) { result = false; break; } }

return result; }

public String segmentLine(String cline, String separator) { StringBuffer currentword = new StringBuffer(); StringBuffer outline = new StringBuffer(); int i, clength; char currentchar; // separator = " ";

clength = cline.length(); for (i = 0; i < clength; i++) { currentchar = cline.charAt(i); if (Character.UnicodeBlock.of(currentchar) == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS || isNumber(cline.substring(i, i + 1)) == true) { // Character in CJK block if (currentword.length() == 0) { // start looking for next // word if (i > 0 && (Character.isWhitespace(cline.charAt(i - 1)) == false)) { outline.append(separator); } currentword.append(currentchar);

} else { if (zhwords.containsKey(new String(currentword.toString() + currentchar).intern()) == true && ((String) (zhwords.get(new String(currentword .toString() + currentchar).intern()))).equals("1") == true) { // word is in lexicon currentword.append(currentchar); } else if (isAllForeign(currentword.toString()) && cforeign.contains(new String( new char[] { currentchar }).intern()) && i + 2 < clength && (zhwords.containsKey(cline.substring(i, i + 2) .intern()) == false)) { // Possible a transliteration of a foreign name currentword.append(currentchar); } else if (isNumber(currentword.toString()) && cnumbers.contains(new String( new char[] { currentchar }).intern()) /* * && (i + 2 < clength) && * (zhwords.containsKey(cline.substring(i, i+2).intern()) == * false) */) { // Put all consecutive number characters together currentword.append(currentchar); } else if ((zhwords.containsKey(new String(currentword .toString() + currentchar).intern())) && (((String) (zhwords.get(new String(currentword .toString() + currentchar).intern()))).equals("2") == true) && i + 1 < clength && (zhwords.containsKey(new String(currentword .toString() + currentchar + cline.charAt(i + 1)) .intern()) == true)) { // Starts a word in the lexicon currentword.append(currentchar);

} else { // Start anew outline.append(currentword.toString()); if (Character.isWhitespace(currentchar) == false) { outline.append(separator); } currentword.setLength(0); currentword.append(currentchar); } }

} else { // Not chinese character // System.err.println("not cjk"); if (currentword.length() > 0) { outline.append(currentword.toString()); if (Character.isWhitespace(currentchar) == false) { outline.append(separator); } currentword.setLength(0); } outline.append(currentchar); } }

outline.append(currentword.toString());

return outline.toString(); // return offsets; }

public static void main(String[] args) throws Exception {

ChineseSegmenter seg = ChineseSegmenter.getGBSegmenter(); System.out.println(seg.segmentLine("Some string in chinese.", " ")); }

}

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。原始发表：2006-03-24，如有侵权请联系 cloudcommunity@tencent 删除publicstringtxt中文分词append

本文标签：中文分词代码(此代码为作者多年经验总结，以前发表过VB，PB版本)

版权声明：本文标题：中文分词代码(此代码为作者多年经验总结，以前发表过VB，PB版本) 内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.betaflare.com/biancheng/1747970648a2784868.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

编程频道|软件玩家 - 软件改变生活！

中文分词代码(此代码为作者多年经验总结，以前发表过VB，PB版本)

中文分词代码(此代码为作者多年经验总结，以前发表过VB，PB版本)

更多相关文章

中文分词代码(此代码为作者多年经验总结，以前发表过VB，PB版本)

发表评论

推荐文章

电子产品设计与电源优化实用策略

如何将自己的照片免费制作成卡通形象手办：从AI到3D打印的全流程指南

最新最全java面试题及答案2025

详解JavaScript中的RegExp.$1

AI不在“云端飘”：我在边缘跑AI的那些事儿

热门文章

Ollama平替！LM Studio本地大模型调用实战

取消Win10开机系统选择倒计时，让电脑秒进系统

Harmony 动态路由框架：TheRouter 开源

30年悬案告破，平均曲率流的奇点真相曝光，揭晓「冰块融化」的数学秘密

Windows7环境下NodeJS环境安装配置（压缩包方式）

人类还在怕鬼，AI已经开始害怕自己了。

嘉为蓝鲸平台V5.4：4 大场景升级 + N 项新能，开启数字化转型新篇

pom.xml出现“java.lang.OutOfMemoryError: Java heap space”问题的解决办法

Java 中的常见并发陷阱

【笔记本电脑升级】20250315笔记本内存条32G DDR4 3200推荐

最新文章

如何防止勒索软件攻击？

如何查看系统中的活动进程？

[oeasy]python083

C#.NET.NET Core优秀项目和框架2025年3月简报

【C++11】右值引用 && 移动语义 && 完美转发

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow

javascript - VS 2015 Angular 2 import modules cannot be resolved - Stack Overflow

javascript - Get the JSON objects that are not present in another array - Stack Overflow

javascript - How to dismiss a phonegap notification programmatically - Stack Overflow

c - Solaris 10 make Error code 1 Fatal Error when trying to build python 2.7.16 - Stack Overflow

清华同方S30i-40 黑参数报价

LG gram Pro 16 2024 Ultra5 125H16GB512GB黑色参数报价

技械骑士HZ60 13代酷睿i732GB1024GB4G独显参数报价

七彩虹将星X17 Pro Max i9 14900HX32G2TBRTX4090参数报价

ThinkPad R490 i5 8265U8GB256GB+2TBRX540X 参数报价

编程频道|软件玩家 - 软件改变生活！

中文分词代码(此代码为作者多年经验总结，以前发表过VB，PB版本)

中文分词代码(此代码为作者多年经验总结，以前发表过VB，PB版本)

更多相关文章

中文分词代码(此代码为作者多年经验总结，以前发表过VB，PB版本)

发表评论

推荐文章

电子产品设计与电源优化实用策略

如何将自己的照片免费制作成卡通形象手办：从AI到3D打印的全流程指南

最新最全java面试题及答案2025

详解JavaScript中的RegExp.$1

AI不在“云端飘”：我在边缘跑AI的那些事儿

热门文章

Ollama平替！LM Studio本地大模型调用实战

取消Win10开机系统选择倒计时，让电脑秒进系统

Harmony 动态路由框架：TheRouter 开源

30年悬案告破，平均曲率流的奇点真相曝光，揭晓「冰块融化」的数学秘密

Windows7环境下NodeJS环境安装配置（压缩包方式）

人类还在怕鬼，AI已经开始害怕自己了。

嘉为蓝鲸平台V5.4：4 大场景升级 + N 项新能，开启数字化转型新篇

pom.xml出现“java.lang.OutOfMemoryError: Java heap space”问题的解决办法

Java 中的常见并发陷阱

【笔记本电脑升级】20250315笔记本内存条32G DDR4 3200推荐

最新文章

如何防止勒索软件攻击？

如何查看系统中的活动进程？

[oeasy]python083

C#.NET.NET Core优秀项目和框架2025年3月简报

【C++11】右值引用 &amp;&amp; 移动语义 &amp;&amp; 完美转发

javascript - Type &#39;undefined&#39; is not assignable to type &#39;menuItemProps[]&#39; - Stack Overflow

javascript - VS 2015 Angular 2 import modules cannot be resolved - Stack Overflow

javascript - Get the JSON objects that are not present in another array - Stack Overflow

javascript - How to dismiss a phonegap notification programmatically - Stack Overflow

c - Solaris 10 make Error code 1 Fatal Error when trying to build python 2.7.16 - Stack Overflow

清华同方S30i-40 黑参数报价

LG gram Pro 16 2024 Ultra5 125H16GB512GB黑色 参数报价

技械骑士HZ60 13代酷睿i732GB1024GB4G独显参数报价

七彩虹将星X17 Pro Max i9 14900HX32G2TBRTX4090参数报价

ThinkPad R490 i5 8265U8GB256GB+2TBRX540X 参数报价

【C++11】右值引用 && 移动语义 && 完美转发

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow

LG gram Pro 16 2024 Ultra5 125H16GB512GB黑色参数报价