四
1
首先非常抱歉,尤其对于那些信以为真的读者!“我爱自然语言处理”停止更新——只是愚人节的一个小把戏! 阅读全文
四
1
这是52nlp的第200篇文章,很吉利的数字,正好用来宣布这个消息:因种种原因,决定停止更新“我爱自然语言处理”。 阅读全文
三
31
说完了Python中的__call__函数,我们继续来完善segment.py,首先将Pw函数删除: 阅读全文
三
27
上一节我们已经解读了Pdist类中的__init__函数,这一节重点关注一下Python类中的__call__函数。首先简单的回顾一下上一节提到的一段话:缺省的情况,对于未知的单词,其概率均为1/N,但是对于每一个实例,Pdist均提供一个函数重载这个缺省值。为了避免过长 的单词拥有过高的概率,我们从概率10/N出发,对于候选单词的每一个字母都除以10。 阅读全文
三
21
自然语言处理和脚本语言的关系还是很密切的,我一直比较喜欢用Perl,不过因为NLTK的缘故,我学习了一下Python,也立即被Python的严谨所征服。印象《Learning Python》中提到了Perl和Python的一段八卦:Perl的发明者是语言学家,而Python的发明者则是数学科班出身,因此前者崇尚自由,而后者推崇严谨。大意如此,但是对于Perl和Python,我同样受用,该用哪个时就用哪个,没必要比较。 阅读全文
三
14
对于Pw函数,这里稍微多做一点说。首先我们从一元语言模型的文件里读取单词及其计数,如果一个单词在语料库中出现,它的概率就是Count(word)/N,这里N是语料库的单词数目的规模。事实上,相对于使用完整的1千3百万单词(词型)的一元语言模型,Peter Norvig大牛对这个一元语言模型进行了简化:(a) 创建了一个更通用的词汇表,并且其中的单词是大小写不敏感(不区分)的,故“the”,”The”以及“THE”的计数是加在一起作为“the”的计数的;(b)只有由字母(letter)组合的单词才被计入其中,而对于其他包含数字或者标点的“单词”则被过滤,故“+170.002”以及“can’t”都不会被计入;(c)只列出其中最常用的1百万单词中的前1/3,也就是333333个单词。 阅读全文
三
10
本节我们进入《Beautiful Data》中分词的编码阶段,完整的程序及数据大家可以在“Natural Language Corpus Data: Beautiful Data”上下载ngrams.zip,我这里主要做一些解读。程序由python实现,无论在Linux或者Windows平台下,只要安装了相应的python版本,程序均可以通过测试,不过我所使用的是python2.6,注意,在python3.0上会有一些问题。 阅读全文
三
2
现在,我们就可以应用这个方法来进行分词了。首先定义一个函数:segment,其输入是一串没有空格的字符串,而输出则是一个单词列表,既最好的分词结果: 阅读全文
二
26
本节我们开始《Beautiful Data》中的“Word Segmentation”之旅,虽然Peter Norvig大牛从中文分词的需求讲起,但本节事实上讲得是英文分词,毕竟Google语言模型是以英文语料库为基础的,用中文分词举例Google语言模型就无用武之地了。一般说来,英文是不需要分词的,基本上tokenization就够了。但是某些时候,譬如英文网址(URLs)就没有空格,对于搜索引擎或者文字处理程序来说正确的分词就很重要了。不过,无论英文分词还是中文分词,利用统计语言模型来分词的思想本质是一样的。 阅读全文
二
10
这两天“我爱自然语言处理”的一些访问来源于CSDN的推介,于是查了一下,发现与CSDN的一则新闻有关:《Google研发手机翻译软件 人类有望无需学外语》,里面除了原始新闻的简单摘译外,附加了Franz Och的介绍——引用了《统计机器翻译英雄谱一:Franz Josef Och》中的部分内容。 阅读全文