碰巧想到的,用一个分词工具分词,数一下得到的terms,然后用str.length/terms.size()。得到的是多少个字符中有一个term,一般来说小于1.5的就有问题了。因为乱码不能被分词,每个乱码字符都被切割,所以得到的值~1。