Joye Cai's Blog

Know more, Do more, Be more

大规模机器学习

For Data Mining

Last updated on 2018-10-20… 原文来自《美团机器学习实践》,Target:海量数据下的机器学习应用场景 并行计算编程技术 CPU单核:通过向量化技术来提升单核的处理能力 CPU多核:通过多线程技术来充分利用多核处理能力 GPU:通过异构计算来扩充单机的处理能力 多机并行:把多机串联起来组成计算集群 向量化 费林分类法: ...

基于深度学习的OCR

Faster R-CNN、FCN、BLSTM

Last updated on 2018-10-5… 原文来自《美团机器学习实践》,Target:真实场景的OCR任务 面临的挑战 成像复杂:噪声、模糊、光线变化、形变 文字复杂:字体、字号、色彩、磨损、笔画宽度任意、方向任意 场景复杂:版面缺失、背景干扰 传统方法 1.文字行提取:版面分析(连通域分析)+行切分(投影分析) 2.单字识别引擎:Maxout网络结构 ...

深度学习基础

For 面试

Last updated on 2019-12-20… 以下大部分内容来自哈工大(深圳)的HUA Yang同学,非常感谢!个人仅做了少部分的添加和修改。 过拟合与欠拟合 《深度学习》 5.2 容量、过拟合和欠拟合 欠拟合指模型不能在训练集上获得足够低的训练误差; 过拟合指模型的训练误差与测试误差(泛化误差)之间差距过大; 反映在评价指标...

特征工程(文字总结版)

常用特征

Last updated on 2020-2-12… 本文是对《美团机器学习实战》一书中特征工程篇的个人总结,代码实践版见我的另一篇博客:《Python特征工程篇》。文末最后一节为总结出的实际经验。 竞赛中没灵感时候才会稍微看看的文章… 数值特征 数值类型的数据具有实际测量意义,分为连续型(身高体重等)和离散型(计数等),有如下8种处理方法: 1.截断:超出合理范围...

美团点评深度学习架构

Focus on 推荐

Last updated on 2018-10-1… 原文来自《深度学习在美团点评推荐平台排序中的运用》。 1.从整体框架的角度看,当用户每次请求时,系统就会将当前请求的数据写入到日志当中,利用各种数据处理工具对原始日志进行清洗,格式化,落地到不同类型的存储系统中。 2.在训练时,我们利用特征工程,从处理过后的数据集中选出训练、测试样本集,并借此进行线下模型的训练和预估。 ...

常用评价指标

分类、回归、排序

Last updated on 2018-9-29… 原文来自《美团机器学习实践》,Target:使线下指标的变化趋势跟线上指标一致。个人做了一些补充和注解。 这篇有更透彻的理解 分类指标 以二分类为参考的话: Precision 精确率 表示当模型判断一个点属于该类的情况下,判断结果的可信程度。 Recall 召回率 表示模型能够检测到该类的比率。 对于...

感知哈希算法

For 计算图像相似性

Last updated on 2018-9-21… 感知哈希算法(Perceptual hash algorithm),它的作用是对每张图片生成一个”指纹”(fingerprint)字符串,然后比较不同图片的指纹。结果越接近,就说明图片越相似。 方法简述 下面是一个最简单的实现: 第一步,缩小尺寸 将图片缩小到8x8的尺寸,总共64个像素。这一步的作用是去除图片的细节...

Python大文件处理

For Data Mining

Last updated on 2019-3-21… 基础知识 进程与线程 进程在执行过程中拥有独立的内存单元,而多个线程共享内存。 进程切换时,耗费资源较大,效率要差一些。对于一些要求同时进行并且又要共享某些变量的并发操作,只能用线程,不能用进程。 一个程序至少有一个进程,一个进程可以有多个线程。 Python多线程 Python中的多线程是假的多线...

Attention机制

Self-Attention、Multi-Head Attention、Transformer、Position Embedding

Last updated on 2019-11-8… 《细讲Attention Is All You Need》、《Attention is All You Need》浅读(简介+代码)、Self-Attention与Transformer、【NLP】Transformer详解 前言 Attention机制最早是在视觉图像领域提出来的(上世纪90年代),但是真正热门起来...

代价函数

Cost Function

Last updated on 2019-4-11… Cost Function和Loss Function的区别: Cost Function:指基于参数w和b,在所有训练样本上的总成本 Loss Function:指单个训练样本的损失函数 各种概率分布 均方误差 MSE 假设是高斯分布,又名正态分布 均方误差的含义是求一个batch中n个...