Decorative image frame

大嘴怪的小世界

爱睡觉 | 爱吃肉 | 爱学习 | 爱生活

大嘴怪的小世界

YouTube双塔DNN

这篇文章是谷歌的Youtube团队在推荐系统上DNN方面的尝试,发表在16年9月的RecSys会议。YouTube用户数量超19亿日,日观看时长达1.8亿小时,算是世界范围内视频领域的最大的网站。这篇论文从信息检索领域的经典的两阶段——召回、排序——来阐述如何用深度模型做candidate generate 和 rank。文中不但详细介绍了Youtube推荐算法和架构细节,还给了不少实践经验和方法论。

阅读全文...

词对词翻译的那些事儿

当我们有大量平行语料,通过什么方法能快速构建出一个词典呢?今天讲的就是基于这个需求所调研的一些方法总结。基本方法有3种:基于统计、基于词对齐、基于词向量。由于基于词对齐比较好理解,就是使用IBM Model进行词对齐后,将translation table拿出来就可以作为一个词表,因此本文不对此进行介绍。本文重点说明另外两种方法:基于统计和基于词向量方法。

阅读全文...

Lucene搭建搜索引擎初探

最近要做例句搜索的优化,因此重新看一看lucene,边学习边搭demo。由于平时使用惯了python,所以这一次使用pylucene做demo。本文着重于lucene的介绍,一些内容主要参考了niyanchun的博客,并增加了几个pylucene的示例代码。

阅读全文...

如何对文本后处理之:大小写转换

最近工作中文本处理任务特别多,今天特地看一下大小写转换。大小写转换对于文本的后处理很重要,如果做不好,句子看起来很ugly。一开始想通过端到端的方法做,后来想一想感觉不需要上神经网络模型。大小写本身就是跟“是否句子开头”、“是否命名实体”、“是否缩略词”等有关系。因此认为大小写转换过程应该走一个pipeline的流程,看了一些资料发现确实如此。

阅读全文...