推荐算法之Embeding技术

每个user/item可以表示为一个向量，向量之间的相似度可以用来改善推荐。

1. denoising autoencode

Yahoo Japan的新闻推荐团队利用denoising autoencode的技术来学习新闻的vector表示。Autoencode大家可能比较熟悉，它通过最小化变换前后信号的误差来求解，而denoising则是对输入随机加入一些噪声，再对其进行变换输出，最终是通过最小化加噪声后的输出和原始（不加噪声）输入之间的差异来求解。应用中不少结果表明，这种方法比传统的autoencode学习到的vector效果更好。具体示意图如下。

2.

微软研究院也提出过一种很有趣的得到item表示的方法。作者利用用户的搜索日志，同一个query下，搜索引擎往往返回n篇doc，用户一般会点击相关的doc，不太相关的一般不会点，利用这个反馈信息也可以训练神经网络。具体示意图如下，这里的优化目标就是要求点击的一个doc_i的预测得分p(D_i

Q)要高于不点击的，论文基于这个信息构造除了损失函数，也就得到了最终机器学习可以优化的一个目标。

目前只介绍了如何得到item的vector，实际推荐中要用到的一般是user对一个item的兴趣程度，只有在得到user vector后才能通过算user和item的相似度来度量这个兴趣程度。那么如何得到user的vector呢？了解的同学可能能想到，既然我们已经得到了新闻的item的表示，想办法把他们传到user侧不就行了么？

确实如此，一种简单的做法是把用户近期点过的所有新闻的vector取个平均或者加权平均就可以得到user的vector了。

但这种模式还有优化的空间：1）用户点击是一个序列，每次点击不是独立的，如果把序列考虑进去就有可能得到更好的表示；2）点击行为和曝光是有联系的，点击率更能体现用户对某个或某类新闻的感兴趣程度。

鉴于这两点，我们很容易想到通过深度学习里经典的解决序列学习的RNN方法，Yahoo japan的人使用的就是一个经典的RNN特例：LSTM。训练时将用户的曝光和点击行为作为一个序列，每次有点或不点这样的反馈，就很容易套用LSTM训练得到user的vector，具体做法如下图所示。

微软还发表了《A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems》，文章提出了一种有趣的得到user vector的方法，这是一个典型的multi-view learning的方法。现在很多公司都不仅仅只有一个产品，而是有多个产品线。比如微软可能就有搜索、新闻、appstore、xbox等产品，如果将用户在这些产品上的行为（反馈）统一在一起训练一个深度学习网络，就能很好的解决单个产品上（用户）冷启动、稀疏等问题。

推荐算法之Embeding技术

1. denoising autoencode

2.

CATALOG

FEATURED TAGS

FRIENDS