这篇文章是谷歌的Youtube团队在推荐系统上DNN方面的尝试,发表在16年9月的RecSys会议。YouTube用户数量超19亿日,日观看时长达1.8亿小时,算是世界范围内视频领域的最大的网站。这篇论文从信息检索领域的经典的两阶段——召回、排序——来阐述如何用深度模型做candidate generate 和 rank。文中不但详细介绍了Youtube推荐算法和架构细节,还给了不少实践经验和方法论。
阅读全文...因式分解机
最近在做推荐系统,Factorization Machine是比较经典的特征组合算法。论文原文在:https://www.csie.ntu.edu.tw/~b97053/paper/Rendle2010FM.pdf。写这篇博客其实借鉴了很多其他人的介绍,记录博客也只是为了自己总结学习使用,在文后参考文献中可以具体看看大佬们的讲解。
阅读全文...CRF学习——基础学习
CRF是NLP中很常用且经典的模型,今天就复习一下CRF模型。
阅读全文...词对词翻译的那些事儿
当我们有大量平行语料,通过什么方法能快速构建出一个词典呢?今天讲的就是基于这个需求所调研的一些方法总结。基本方法有3种:基于统计、基于词对齐、基于词向量。由于基于词对齐比较好理解,就是使用IBM Model进行词对齐后,将translation table拿出来就可以作为一个词表,因此本文不对此进行介绍。本文重点说明另外两种方法:基于统计和基于词向量方法。
阅读全文...Lucene搭建搜索引擎初探
最近要做例句搜索的优化,因此重新看一看lucene,边学习边搭demo。由于平时使用惯了python,所以这一次使用pylucene做demo。本文着重于lucene的介绍,一些内容主要参考了niyanchun的博客,并增加了几个pylucene的示例代码。
阅读全文...EM学习——基础学习
接下来几天将复习Graphical Model的一系列模型。今天先复习一下EM算法。
阅读全文...论文阅读:ALBert
Albert在quora question pair上得分最高,我确始终没看过论文,今天就来补一补。
阅读全文...如何对文本后处理之:大小写转换
最近工作中文本处理任务特别多,今天特地看一下大小写转换。大小写转换对于文本的后处理很重要,如果做不好,句子看起来很ugly。一开始想通过端到端的方法做,后来想一想感觉不需要上神经网络模型。大小写本身就是跟“是否句子开头”、“是否命名实体”、“是否缩略词”等有关系。因此认为大小写转换过程应该走一个pipeline的流程,看了一些资料发现确实如此。
阅读全文...句子对齐开源代码解读
最近需要根据句子对齐,给中英句对进行打分,因此看了一下相关的开源项目。
阅读全文...HMM之——基础学习
最近工作中经常要用到HMM,所以专门来复习下,主要讲解的是HMM的Forward和Backward算法,以及参数估计算法。
阅读全文...