四
1
首先非常抱歉,尤其对于那些信以为真的读者!“我爱自然语言处理”停止更新——只是愚人节的一个小把戏! 阅读全文
四
1
这是52nlp的第200篇文章,很吉利的数字,正好用来宣布这个消息:因种种原因,决定停止更新“我爱自然语言处理”。 阅读全文
三
21
自然语言处理和脚本语言的关系还是很密切的,我一直比较喜欢用Perl,不过因为NLTK的缘故,我学习了一下Python,也立即被Python的严谨所征服。印象《Learning Python》中提到了Perl和Python的一段八卦:Perl的发明者是语言学家,而Python的发明者则是数学科班出身,因此前者崇尚自由,而后者推崇严谨。大意如此,但是对于Perl和Python,我同样受用,该用哪个时就用哪个,没必要比较。 阅读全文
三
18
晚上师弟传给我两篇《中文信息学报》09年第6期的文章:东芝(中国) 研究开发中心王海峰老师的《ACL-IJCNLP 2009 评述》以及中科院计算所米海涛,赵红梅,刘群老师的《第十二届机器翻译峰会和NIST2009 机器翻译评测研讨会简介》,读后感觉写得很不错,估计有些读者还未见到原文,计划在52nlp上分别节选一部分内容,分享一下这些与会专家的感受。 阅读全文
三
6
本文转自哈工大信息检索研究室刘挺老师的博客,是关于创新的,举了两个例子:基于字标注的中文分词方法和搜狗输入法,感觉写得很有启发性,读者也可以对比一下《自然语言处理领域的两种创新观念》。刘老师是国内自然语言处理领域的重量级人物,他的博文估计很多都早已被读者熟悉,这里就不多说了。 阅读全文
二
23
不小心撞上了科学网上李维老师的博客,读了他个人履历和几篇文章,只能用“敬佩”二字对李维老师表示敬意。作为年后开工的第一篇博文,本无转载计划的,但是这里还是选用李维老师的随笔《机器学习和自然语言处理》,这是一位计算语言学学者和自然语言处理实践者多年来的经验之谈,没有相当的积累,纸上是谈不来的。不过,更推荐有兴趣的读者读读《朝华午拾:在美国写基金申请的酸甜苦辣》,虽然很长,我还是一气呵成读完的,除了佩服李维老师的行文能力外,也能看到成功背后的付出和汗水是多么的巨大。 阅读全文
二
11
回家过年,博客暂停更新!
提前祝大家虎年吉祥如意,家人平安幸福!
以下是利用微软对联为52nlp生成的虎年春联,上联选“自然语言处理”,下联是挑来组去自动生成的: 阅读全文
二
9
本节我们进入《Beautiful Data》的正题,将沿着其第14章Peter Norvig大牛的“Natural Language Corpus Data”的轨迹介绍统计语言模型的三个应用:分词、解码及拼写检查。不过《Beautiful Data》中这三个应用依赖着Google的海量语言模型,所以Peter Norvig研究员首先介绍的也是Google语言模型的一些基本情况和背景。 阅读全文
二
4
自然语言处理与医疗健康看起来似乎不搭边,不过如果读者还记着《HMM在自然语言处理中的应用一:词性标注4》中的Philip Resnik教授的话——他利用自然语言处理来提高医用编码(medical coding)的水平——大概也不会太吃惊。而今天看到和讯科技的一则新闻:《多领域IT技术研究推动改善数字健康与医疗》,讲的是“2010微软亚洲研究院数字健康与医疗研讨会”,文中提到了与数字医疗健康相关的领域,其中就包括自然语言处理: 阅读全文
二
3
统计语言模型大概是自然语言处理中最简洁也最漂亮的模型了,在自然语言处理中,统计语言模型的应用包括语音识别、机器翻译、中文分词、拼写检查、语言识别、输入法等等,以至于Google科学家吴军老师的《数学之美》系列第一篇就介绍了统计语言模型。 阅读全文