前面有篇文章说到,《纸牌屋》第一季只用了5800个单词(总共9.4万个英语单词),对这个结果我质疑过,但是抽查了剧中几十个生僻词后,我发现结论是经得起检验的。
那篇文章在不同网络平台发表后,评论很多,所以再写一篇后续文章。
一,单词范围不同
调用python的NLTK库,对纸牌屋的5800个单词做词形还原,把动词的过去式、过去分词、进行时、名称的复数还原一个词。
from nltk import word_tokenize, pos_tag
from nltk.corpus import wordnet
from nltk.stem import WordNetLemmatizer
# 获取单词的词性
def get_wordnet_pos(tag):
if tag.startswith('J'):
return wordnet.ADJ
elif tag.startswith('V'):
return wordnet.VERB
elif tag.startswith('N'):
return wordnet.NOUN
elif tag.startswith('R'):
return wordnet.ADV
else:
return None
?
words= open('D:/python/house_of_card_english_words.txt', 'r', encoding = 'utf-8').read()
tokens = word_tokenize(words)
tagged_sent = pos_tag(tokens)
?
wnl = WordNetLemmatizer()
lemmas_sent = []
for tag in tagged_sent:
wordnet_pos = get_wordnet_pos(tag[1]) or wordnet.NOUN
lemmas_sent.append(wnl.lemmatize(tag[0], pos=wordnet_pos))
def save_to_file(file_name, contents):
fh = open(file_name, 'w')
fh.write(contents)
fh.close()
?
save_to_file('D:/python/词形还原.txt', '\n'.join(lemmas_sent))
词形还原后,《纸牌屋》第一季只用了大概4200个单词。
在网上找了个CET6词汇表,大概5500个单词。
在excel里把《纸牌屋》单词和CET6单词放在一列,用countif函数计算重复的单词,结论如下:
《纸牌屋》与CET6有2333个共用单词,《纸牌屋》有1848个单词在CET6词汇表之外,很多是GRE词汇,而CET6比纸牌屋多出来的3222个词汇,应该属于阅读词汇。
这也就是国内即使考过了CET6,也是哑巴口语的原因之一。
CET考试需要改革,应该首先从单词范围改起,应该增加实用的、有利于表达的口语词汇。
二、积累适合自己的高频英语场景库
说英语慢、不流利是因为没有准备这个谈话场景,用中文说你不熟悉的话题时也会卡壳。很多英语口语书就是按照谈话场景分类的。
企业数字化经营有个热词:数字孪生,digital-twin。企业的实际经营是一套体系,经营活动背后产生的所有数字也是一套体系,这两套体系是twin的关系。
说外语,应该也有个language-twin。我们每天说的中文是一套体系,这套中文背后也有一套外语twin体系,只是我们需要找到他,总结他。
回顾一下你昨天都干了什么?如果你习惯写工作日志,看看你的工作日志里的高频活动是什么?你写的报告最常用的句式是什么?找到这些高频活动如何用地道的英语表达。书,B站,油管,Facebook里的小组等,多搜搜。
曾经有个英文面试,面试官让我用英语说下我昨天的流水账,很奇特,也很有意义。
有些场景,如果你日常生活、工作根本用不到,就别学这些场景的英语,因为学了不用肯定忘。