论文链接:Deep Interest Evolution Network for Click-Through Rate Prediction
论文详情:2019年阿里系的推荐系统DIEN
论文收录在AAAI2019的会议上
出发点和贡献
- 和上篇文章一脉相承,这篇针对时序信息的兴趣的变化做了一定的优化
- 主要加了一个额外的loss来建模兴趣的evolution的经过,然后加了一个带auditional update gate的GRU模块,建模序列化的兴趣数据
主要模型
- base model:
- 都一脉相承的,就四种数据,user profile、user behavior、ad、context
- 所有设置都和DIN的base model一样
- 主要是对用户行为数据进行处理,操作包括两块:
- 建模从行为数据中提取时序化的用户兴趣interest extractor layer
- 建模从时序化的用户兴趣中分析兴趣变化趋势的interest evolution layer
- interest extractor layer:
- 使用GRU,主要是GRU能抵御梯度消失问题,且运行比LSTM快
- 由于单独进行最后一个隐藏层特征ht和目标点击行为的监督学习,丢失了前面的序列学习经验,因此增加了辅助的损失函数,即对每一个当前隐藏层特征h(t),都使用e(t+1)进行监督学习
- 同时由于整个序列只有正样本,因此同时对负样本进行采样,同时进行监督预测学习
- 监督损失的优点:更好训练、引入更多语义信息
- interest evolving layer:将interest extractor layer的隐藏层作为序列参数输入该层,设计带attention的GRU来计算兴趣特征,具体的,权重的计算是$\frac{\alpha_t(h_tWe_a)}{\Sigma_{j=1}^Texp(h_jWe_a)}$,其中h是feature extractor layer的隐藏层参数,$e_a$是广告的特征,W是可学习的权重
- AIGRU:对输入进行权重相乘,效果不好,因为zero的输入一样会对权重造成影响,意义不大
- AGRU:借鉴QA领域的思想,使用权重来更新隐藏层,类似动量的那种更新方法
- AUGRU:对GRU的更新门乘以权重—$u_t = \alpha_t * u_t$,其中$u_t$是GRU原本的更新门参数,具体可以参考一下GRU的更新公式
实验
- 数据集:
- amazon:用其中两个子集,books / electronics
- alibabab私有online数据集
- 因为自己目前缺乏工业的经验,这种实验自己看的不仔细,这里先贴一张图,留到后来再慢慢回顾
想法
- 卖点是解决了时序的依赖,挖掘了兴趣的时序数据
- 整体很不错的,GRU的改进也不错,但是辅助loss的ablation study只做了loss的变化,感觉看不出来最后准确率的影响,不过确实说明了加快了训练速度和收敛能力