代码解读:
import nltk
调用nltk模块
content = open(r'E:\pythondata\test\1987_eng.txt','r',encoding='utf-8').read()
读取1987_eng.txt的内容为一个字符串(.read())
words = nltk.word_tokenize(content)
将上面的字符串进行分词,变成一个词的列表
word_lengths = 0
总词长的初始值为0 一般计算时都会将初始值设为0
for word in words:
对词的列表进行遍历
word_lengths = word_lengths+len(word)
总词长 = 原词长 + 遍历的单词的长度(len(word))
如果第一个词是 the 那么 总词长 = 0 + 3 = 3 依次类推
average_word_length = word_lengths/len(words)
平均词长 = 最后的总词长 / 词表中词的个数(len(words))
最终得到平均词长,本例子中的结果为:
平均词长可以用来解释文本的难度,词长越长文本越难,词长越短文本越容易。