Joye Cai's Blog

Know more, Do more, Be more

Youtube案例研究

强化学习

Last updated on 2019-03-30… 演讲者:Minmin Chen, Google 国外视频链接、国内视频链接、Chen的主页、Chen的Google AI 引言 历史发展 CF DNN 强化学习 Data Source State 因为是基于用户的交互历史预测下一个用户点击的item,所以文中也采用RNN针对...

搜索的原理

爬虫、索引、排序、检索的过程

Last updated on 2019-03-30… 搜索其实涵盖很多内容,比如排序、数据积累、页面解析、超链分析、上亿量级的站点分级、黄赌毒暴识别、多维度评测等等,每个点都可以做的很细,本文仅以绝对简略的方式探讨一下。 参考链接 核心结构 核心数据主要分为两部分(紫色部分):web网页库、index索引数据。 spider和search&in...

用户画像技术

数仓架构、标签类型、正/倒排索引

Last updated on 2019-4-9… 参考链接 流程图 1.目标解读 在建立用户画像前,首先需要明确用户画像服务于企业的对象,根据业务方需求,未来产品建设目标和用户画像分析之后预期效果; 2.任务分解与需求调研 经过第一阶段的需求调研和目标解读,我们已经明确了用户画像的服务对象与应用场景,接下来需要针对服务对象的需求侧重点,结合产品现有...

深度兴趣演化网络 DIEN

兴趣提取、兴趣演化

Last updated on 2019-5-21… 承接半年多前写过的一篇博客:《匹配&推荐技术》 论文链接、参考链接 业务形态 当我们打开淘宝的时候,首先呈现的是一个banner形式的广告;在首页猜你喜欢场景下,或者购物链路的其他场景下,会出现一些单品的广告:在推荐的商品浏览列表,即信息流场景下,会在列表中穿插广告投放,且投放位置固定,这些广告将和正常推荐...

Shell踩坑

常用指令

随便整理的一些自己实际使用过程中的知识点 不定期整理更新… Linux/windows文件在换行符的区别 换行操作使用两个字符:一个字符<Return>来移到第一列,另一个字符<Line feed>来新增一行。 计算机产生以后,存储较为昂贵,在如何解决回车换行这个老问题上,人们产生了不同的意见: UNIX人认为在到达一行的结尾时新增一行 (L...

2019资本导向

资本寒冬、投资导向、赛道分析

Last updated on 2020-3-8… 本文部分观点整理自《十问华兴王力行:2018冰与火,2019危与机》,其余内容来自网上资料整理。 2018市场 时间维度 其实2018年初包括整个第一季度,市场情绪是挺乐观的,交易也不少。第三、四季度的悲观氛围,在年初大家并没有一致意见。 数据 这里有几个数据可以分享: 2018年,新经济领域私募融资交易总数是近5...

搜索与竞价广告

《计算广告学》第五章 & 谷歌广告系统

Last updated on 2019-02-08… 相关资源整理 计算广告论文、学习资料、业界分享 竞价广告关系图 竞价交易模式的本质:将量的约束从交易过程中去除。 搜索广告 具体产品形态:以上下文查询词为粒度进行受众定向。 技术特点:变现能力高、受众定下标签明显(上下文)、展示形式接近自然结果。 新形势: 丰富文字链创意 利用东区对相关性要...

自然语言处理的发展

Natural Language Processing

Last updated on 2019-5-19… 原文链接,本文仅挑重点进行了梳理,并在关键部分增加了个人理解。 早期的词袋 -> 13年的word2vec -> 18年的BERT 任务与框架 本质上,自然语言理解NLU的核心问题其实就是如何从语言文字的表象符号中抽取出来蕴含在文字背后的真实意义,并将其用计算机能够读懂的方式表征出来——当然这通...

自动机器学习总览

A Survey on Automated Machine Learning

Last updated on 2020-6-19… 元学习博客链接 强化学习博客链接 深度强化学习博客链接 AutoML论文整理:链接。 本文综述方面的内容绝大部分来自于2018年末的论文《Taking Human out of Learning Applications: A Survey on Automated Machine Learning》,文...

强化学习总览

A Survey on Reinforcement Learning

Last updated on 2018-12-07… 元学习博客链接 深度强化学习博客链接 自动机器学习博客链接 强化学习本身是一个非常通用的人工智能范式,在直觉上让人觉得非常适合用来模拟各种时序决策任务,如语音、文本类任务。 当它和深度神经网络这种只要给我足够层和足够多的神经元,可以逼近任何函数的非线性函数近似模型结合在一起简直完美,无怪乎 DeepMind...