Zhushilin Blog

Thinking will not overcome fear but action will.

Ensemble

https://mlwave.com/kaggle-ensembling-guide/ 中文翻译版:http://blog.csdn.net/a358463121/article/details/53054686 Uncorrelated submissions clearly do better when ensembled than correlated submissions. B...

EM算法介绍


CRF条件随机场

https://www.zhihu.com/question/35866596 https://www.jianshu.com/p/55755fc649b1

Bootstrap自助采样法

一个盒子里有100个小球(编号1到100),每次从盒子里随机挑选一个小球,记录该球的编号并将小球放回。重复抽样步骤100次,问抽样得到的不重复小球的个数是多少?’ 考虑一个特定的小球A,每次抽样A被抽到的概率为1/100,A没有被抽到的概率为1 - 1/100,则经过100次抽样,A没有被抽到的概率 P =(1 - 1/100) ^ 100 (1 + 1/x) ^ x = e (x取正无...

BM25算法

BM25是基于TF-IDF并做了改进的算法。 BM25中的TF 传统的TF值理论上是可以无限大的。而BM25与之不同,它在TF计算方法中增加了一个常量k,用来限制TF值的增长极限 传统 TF Score : $\sqrt{tf}$ BM25的 TF Score: $((k + 1) * tf) / (k + tf)$ BM25如何对待文档长度 ​ BM25还引入了平均文档长...

推荐算法之大公司的方案

一、Youtube Youtube发表过4篇能够描述这些年YouTube推荐系统变化的论文。 1. Video Suggestion and Discovery for YouTube: Taking Random Walks Through the View Graph 这篇文章从最基本的co-view概念入手,先讲了一个直观的概念 — — item-based collaborat...

推荐算法之SVD

SVD属于“隐语义”方法。有basic SVD, RSVD, ASVD, SVD++ 。 https://blog.csdn.net/evillist/article/details/76269733 1. SVD 和 RSVD 推荐系统的SVD与数学里的SVD有些区别。 用户u对物品i的评分(或者隐性评分)表示为$R_{ui}$ . 用户和物品的评分矩阵可以被表示为$R_{U \t...

推荐算法之E&E

推荐系统的EE问题及Bandit算法 1. 朴素法 先对每个item进行一定次数(如100次)选择尝试,计算item的回报率,接下来选择回报率高的item。算法简单直接,但存在以下问题: item很多导致获取item回报率的成本太大 尝试一定次数(如100次)得到的“高回报”item未必靠谱 item的回报率有可能会随时间发生变化:好的变差、差的变好 2. Epsil...

推荐算法之Embeding技术

每个user/item可以表示为一个向量,向量之间的相似度可以用来改善推荐。 1. denoising autoencode ​ Yahoo Japan的新闻推荐团队利用denoising autoencode的技术来学习新闻的vector表示。Autoencode大家可能比较熟悉,它通过最小化变换前后信号的误差来求解,而denoising则是对输入随机加入一些噪声,再对其进行变换输出,...

SlopeOne协同过滤

Slope One 算法是一个Item-Based 的协同过滤推荐算法。和其它类似算法相比, 它的最大优点在于算法很简单, 易于实现, 执行效率高, 同时推荐的准确性相对较高。 Slope One算法是基于不同物品之间的评分差的线性算法,预测用户对物品评分的个性化算法。主要两步: Step1:计算物品之间的评分差的均值,记为物品间的评分偏差(两物品同时被评分): ​ $N(...