Jan Fan     About     Archive     Feed     English Blog

调研:词性标注(POS Tagging)各主流实现

因为工作上中文“词性标注”(Part-of-Speech Tagging)的需求,笔者对业界开放的几个主流的词法分析器做了一番调研,并结合具体业务的需求,对标注方法做了比较和选择。 具体包括以下实现: jieba:结巴分词,百度员工 fxsjy 的作品 LTP:哈工大社会计算与信息检索研究中心的作品 ICTCLAS:中科院张华平博士的作品 THULAC:清华大学自然语言处...

More

生产与消费,共性与个性

之前笔者写过一篇文章,《劫持我们的社会?》,说到了这样一个概念——富足的社会是基于人与人之间安分守己的分工合作。 但这只是解释一半。只解释了生产,还少了消费。 而看完《富足》这本书,结合之前看过的《后物欲时代的来临》,笔者的观念又得到了进一步的完善——人独特的个性和社会的共性之间的矛盾,决定了未来社会发展的方向,也就是“生产专业化,消费多元化”。 这也是笔者第一次能够自完其说地完整解释这...

More

直男护肤二三事

皮肤护理这种事情要由一个男生,而且还是由一个直男来讲,多少是很奇怪啊。但也许正因为现在这种“粗犷男性”的文化取向,才让男性对皮肤护理的知识近乎真空。女性相对来说可能会好一些,但从身边朋友各种敷面膜的行为来看,关于皮肤护理的知识估计也没好到哪里去。 笔者自己在一开始也只是很单纯地想找一款稍微靠谱的洗面奶,结果发现各种信息各种产品多如繁星,自己屁都不懂,又不愿意盲从,一怒之下就找专业书籍来撸了...

More

函数式编程(Functional Programming)简介

身边的朋友对函数式编程接触得比较少,而我的毕设正好又与它相关,于是便想写一篇文章来介绍一下什么是函数式编程(Functional Programming)。 In computer science, functional programming is a programming paradigm—a style of building the structure and elemen...

More

并发程序设计:杜绝共享变量(Shared Mutability)

并发计算,这是一个之前笔者很少接触的领域。所幸笔者的毕设涉及到了这方面的研究,让笔者对并发模型有了全新的了解。 这篇文章就跟大家分享如何写出更健壮、更简洁的并发程序。 并发计算,大势所趋 并发计算,即多个执行单元的计算同时进行。这篇文章不讨论在多台机器上的并发计算,那属于分布式计算(Distributed Computing)的范畴了,我们仅仅讨论在单个机器上(单核或多核)的并发计算。...

More