dyp英文缩写是什么意思

机器之心报道

编辑:小舟、蛋酱

这三位程序员,用 BERT 捧走了 50 万人民币的高额奖金。

8 月 3 日,一年一度的腾讯广告算法大赛在深圳腾讯滨海大厦举办。

一直以来,腾讯广告都在不断寻找更为优秀的数据挖掘和机器学习算法。这场备受瞩目的算法盛事,今年已经是第四届。每一年的比赛都会吸引上万人参加,还催生出一个小型算法社区。

最终,由三位年轻程序员组成的 DYG 团队捧走了冠军 7 万美金(近 50 万人民币)的高额大奖。从初赛冠军、复赛冠军,再到最佳答辩,这三位程序员究竟靠的是什么?

DYG 团队由来自武汉大学计算机科学硕士、算法工程师王贺,中山大学 – 微软研究院联合培养博士生郭达雅以及多次荣获国内 NLP 和数据挖掘比赛 TOP 名次的梁少强组成。值得一提的是,前两位选手同时也是 2019 年腾讯广告算法大赛的冠军得主。

dyp英文缩写是什么意思

bert 在 NLP 能够取得巨大成功的主要原因是预训练,所以在比赛初期 DYG 团队不断尝试将预训练运用到本赛题中。但与 NLP 不同,广告具有稀疏性,使其词表达到七八百万。这就会造成两个问题:第一个问题是这么大的词表很难放入 GPU 中,第二个问题是即使放到 CPU,由于参数过大,也难于训练。针对这些问题,DYG 团队使用了两个阶段的预训练方法对 BERT 进行训练。

预训练:Word2Vector

第一个阶段:使用 word2vec 去预训练广告的 embedding,目标是将类似的广告进行聚类。具体操作如下图所示,DYG 团队首先将用户点击广告序列输入到 embedding 层,然后预测广告 id。

dyp英文缩写是什么意思

使用改进后的 MLM 预测广告时,不仅可以使用最近点击的广告,也可以用其属性来预测,使得不同属性的 embedding 能够在语义空间上对齐。

同时,DYG 团队针对词表过大的问题采用了一个很关键的策略:把词表缩小到 10 万(提取 top10w,其余为 unk),在预训练阶段只预测这 10 万个单词,从而使 bert 能够跑起来。

融合层

dyp英文缩写是什么意思

DYG 团队方案在融合层(Fusion Layer)中,把点击广告的受众人群性别年龄分布融入到网络之中,具体的做法是把人群分为五个部分,假设用户点击 n 个广告并来自第一个人群,那么可以把剩下的作为种子人群,计算出每个广告的性别年龄概率分布,用四层的 transformer 进行融合。

输出层

最后来看下输出层:

dyp英文缩写是什么意思

以上就是本次比赛 DYG 团队解决方案的主要内容。凭借此方案,DYG 团队一路披荆斩棘,最终捧起第四届腾讯广告算法大赛冠军的奖杯。

赛后分析

DYG 团队在赛后对此方案做了分析总结,归纳出其创新的亮点:

1. 改进 BERT 并运用到人口属性预测场景

分阶段预训练,缓解广告稀疏性问题并加快预训练速度 (4*V100 预训练 12 个小时)

改进 MLM 预训练目标,并从多维度学习广告及其属性的语义表示

将 BERT 运用到人口属性预测的场景,从性能上验证了预训练在广告领域的潜力

2. 提出融合后验概率分布的方法及模型

利用受众人群求出每个广告的概率分布

利用多层 Transformer 融合概率分布及 BERT 的语义表示,能有效提升性能

参考链接:https://mp.weixin.qq.com/s/-lizDyP2y357plcG1M64TA

本站部分内容由互联网用户自发贡献,该文观点仅代表作者本人,本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规等内容,请举报!一经查实,本站将立刻删除。
本站部分内容由互联网用户自发贡献,该文观点仅代表作者本人,本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。

如发现本站有涉嫌抄袭侵权/违法违规等内容,请<举报!一经查实,本站将立刻删除。