三
18
晚上师弟传给我两篇《中文信息学报》09年第6期的文章:东芝(中国) 研究开发中心王海峰老师的《ACL-IJCNLP 2009 评述》以及中科院计算所米海涛,赵红梅,刘群老师的《第十二届机器翻译峰会和NIST2009 机器翻译评测研讨会简介》,读后感觉写得很不错,估计有些读者还未见到原文,计划在52nlp上分别节选一部分内容,分享一下这些与会专家的感受。 阅读全文
三
6
本文转自哈工大信息检索研究室刘挺老师的博客,是关于创新的,举了两个例子:基于字标注的中文分词方法和搜狗输入法,感觉写得很有启发性,读者也可以对比一下《自然语言处理领域的两种创新观念》。刘老师是国内自然语言处理领域的重量级人物,他的博文估计很多都早已被读者熟悉,这里就不多说了。 阅读全文
二
23
不小心撞上了科学网上李维老师的博客,读了他个人履历和几篇文章,只能用“敬佩”二字对李维老师表示敬意。作为年后开工的第一篇博文,本无转载计划的,但是这里还是选用李维老师的随笔《机器学习和自然语言处理》,这是一位计算语言学学者和自然语言处理实践者多年来的经验之谈,没有相当的积累,纸上是谈不来的。不过,更推荐有兴趣的读者读读《朝华午拾:在美国写基金申请的酸甜苦辣》,虽然很长,我还是一气呵成读完的,除了佩服李维老师的行文能力外,也能看到成功背后的付出和汗水是多么的巨大。 阅读全文
二
4
自然语言处理与医疗健康看起来似乎不搭边,不过如果读者还记着《HMM在自然语言处理中的应用一:词性标注4》中的Philip Resnik教授的话——他利用自然语言处理来提高医用编码(medical coding)的水平——大概也不会太吃惊。而今天看到和讯科技的一则新闻:《多领域IT技术研究推动改善数字健康与医疗》,讲的是“2010微软亚洲研究院数字健康与医疗研讨会”,文中提到了与数字医疗健康相关的领域,其中就包括自然语言处理: 阅读全文
二
3
统计语言模型大概是自然语言处理中最简洁也最漂亮的模型了,在自然语言处理中,统计语言模型的应用包括语音识别、机器翻译、中文分词、拼写检查、语言识别、输入法等等,以至于Google科学家吴军老师的《数学之美》系列第一篇就介绍了统计语言模型。 阅读全文
一
28
前不久发现了一个“自然语言处理词典(The Natural Language Processing Dictionary)”,觉得很有意思。作者Bill Wilson是澳大利亚新南威尔士大学的一名教授,因为开了一门“人工智能”课程,就为这门课程分别编制了Prolog,人工智能(Artificial Intelligence),机器学习(Machine Learning)以及自然语言处理(Natural Language Processing)的相关术语词典。这几个词典建于1998年,Bill Wilson教授似乎还在进行维护和更新,所以目前仍很有参考价值。 阅读全文
十二
18
3.2 Quasi-Newton Method
Quasi-Newton Method每一步计算过程中仅涉及到函数值和函数梯度值计算,这样有效避免了Newton Method中涉及到的Hessian矩阵计算问题。于Newton Method不同的是Quasi-Newton Method在每点处构建一个如下的近似模型: 阅读全文
十二
15
3.Quasi-Newton Method
在第2节中我们了解了步长的概念,以及从x_k走到x_k+1点使用line search方法计算步长的方法。不过我们在那里忽略了一个重要的概念,即“方向”。从第2节,我们了解到从每一点x_k走到下一点x_k+1时,需要给出要走的“方向”,只有“方向”确定好之后,才能在此基础上应用line search方法找到对应的“步长”,因此在解决了“步长”计算问题之后,这里我们将和大家一起了解一下每一步的“方向”如何确定。本节分为2大部分,首先我们通过newton method引入方向的概念,在此基础上引入quasi-newton method。然后引入quasi-newton method中的一种重要方法BFGS method,并在BFGS method的基础上介绍用于大规模计算的LBFGS method算法,同时以此结束本节的所有内容。 阅读全文
十二
9
2.2 a_k步长的选择
了解了a_k的合理性之后,就相当于获得了标尺,在此基础上我们可以选择合适的策略来求取a_k。所有的line search过程在计算每一步的a_k时,均需要提供一个初始点a_0,然后再此基础上生成一系列的{a_i},直到a_i满足2.1节所规定的条件为止,此时该a_k即被确定为a_i,或者未找到一个合适的a_k。这里我们仅介绍目前常用的策略平方插值和立方插值法。因此本节内容分为两部分,2.2.1节介绍选择a_k常用的平方插值和立方插值法,2.2.2节介绍由x_k点到x_k+1点,方向确定为p_k后,步长a_k具体计算过程。 阅读全文
十二
7
有一段时间没有谈HMM和词性标注了,今天我们继续这个系列的最后一个部分:介绍一个开源的HMM词性标注工具并且利用Brown语料库构造一个英文词性标注器。
上一节借用umdhmm构造的HMM词性标注工具是二元语法(bigram)标注器,因为我们只考虑了前一个词性标记和当前词性标记,算的上是最基本的马尔科夫模型标注器。这个HMM词性标注器可以通过好几种方式进行扩展,一种方式就是考虑更多的上下文,不只考虑前面一个词性标记,而是考虑前面两个词性标记,这样的标注器称之为三元语法(trigram)标注器,是非常经典的一种词性标注方法,在《自然语言处理综论》及《统计自然语言处理基础》中被拿来介绍。 阅读全文