最近一段时间工作中,急需补充giza、fast align算法的背后原理,因此集中补一补这些令人头大的算法。本来打算看完IBM-Model1~Model5和HMM,但后来卡到了Model-3上,准备在后续的博客中继续更新。因此本篇将重点介绍Model-1~Model2。
阅读全文...论文阅读:《Jointly Learning to Align and Translate with Transformer》
最近在对齐方面看的比较多,这一篇是去年看到的使用多任务学习提高对齐效果的文章。今天仔细读一遍。
阅读全文...论文阅读:《Encode, Tag, Realize_ High-Precision Text Editing》
最近想看一下语法检查的东西,关注到了这一篇谷歌去年出的论文。
阅读全文...字符串模糊匹配的方法都有哪些
工作中经常遇到文本处理上的两个问题,一个是如何在长的文本串中找到跟短文本串最像的子串;另一个是如何将两个文本串进行对齐,忽略掉其中不同的部分。准备专门写一个工具来解决这些问题,因此先调研了模糊匹配和字符串对齐的工具。
阅读全文...论文阅读:《Reformer: The Efficient Transformer》
本论文为谷歌近期发表的对Transformer改进的一篇论文,论文名字中的Efficient Transformer解释了论文的主要目的。过去一些基于Transformer结构的论文,一看到模型的总参数量就让人望而生畏,有些模型在我们的单卡GPU上根本跑不起来,因此就看了一下这篇论文。论文感觉比较偏工程,了解下它的大致思想就好。
阅读全文...一首小诗:做最好的自己
今天看一个纪录片《人生第一次》时听到的小诗,来自美国诗人、短片小说作家——道格拉斯·马拉赫。
阅读全文...