Decorative image frame

大嘴怪的小世界

爱睡觉 | 爱吃肉 | 爱学习 | 爱生活

大嘴怪的小世界

论文阅读:《A Contextual-Bandit Approach to Personalized News Article Recommendation》

这篇文章属于推荐领域采用强化学习方法的文章。与其他推荐算法相比,基于强化学习的推荐算法更多地关注了explore/exploit问题,即探索/利用问题。也就是强调推荐算法不应该仅仅基于历史数据中用户的偏好进行推荐,而应该给用户更多的新鲜事物,引导和发掘用户的爱好。而强化学习恰恰是基于系统采取的动作所接收到的环境的反馈,来不断训练系统的。因此,在强化学习的过程中适度的选择一些探索性的动作,并观察反馈进一步调整后续的动过选择,天然地具有解决该问题的潜质。

阅读全文...

论文阅读:《Ad Click Prediction: a View from the Trenches》

现在做在线学习和CTR常常会用到逻辑回归,而传统的批量算法无法有效地处理超大规模的数据集和在线数据流,google在2010年~2013年从理论研究到实际工程化实现的FTRL算法,在处理诸如逻辑回归之类的带非光滑正则化项(例如L1范数,做模型复杂度控制和稀疏化)的凸优化问题上性能非常出色。

阅读全文...