读取txt文件可以用逐行扫描方式,提取单词用正则表达式。
前提:出现的连续英文字符就是单词;除了英文字符外地所有字符都不是单词;每行的最后一个单词不能断字,即hel-(提行)lo。
// 读取文件就省略了哈
String s = "I have 5 apples... How much do you have?";
// 以出现1次或多次的非英文符号为单词的分隔
String[] a = s.split("[^a-zA-Z]+");
// 输出结果,总共有8个单词
System.out.println(a.length);