Joye Cai's Blog

大规模机器学习

For Data Mining

Last updated on 2018-10-20… 原文来自《美团机器学习实践》，Target：海量数据下的机器学习应用场景并行计算编程技术 CPU单核：通过向量化技术来提升单核的处理能力 CPU多核：通过多线程技术来充分利用多核处理能力 GPU：通过异构计算来扩充单机的处理能力多机并行：把多机串联起来组成计算集群向量化费林分类法： ...

Posted by Jiayue Cai on October 6, 2018

基于深度学习的OCR

Faster R-CNN、FCN、BLSTM

Last updated on 2018-10-5… 原文来自《美团机器学习实践》，Target：真实场景的OCR任务面临的挑战成像复杂：噪声、模糊、光线变化、形变文字复杂：字体、字号、色彩、磨损、笔画宽度任意、方向任意场景复杂：版面缺失、背景干扰传统方法 1.文字行提取：版面分析（连通域分析）+行切分（投影分析） 2.单字识别引擎：Maxout网络结构 ...

Posted by Jiayue Cai on October 5, 2018

深度学习基础

For 面试

Last updated on 2019-12-20… 以下大部分内容来自哈工大（深圳）的HUA Yang同学，非常感谢！个人仅做了少部分的添加和修改。过拟合与欠拟合《深度学习》 5.2 容量、过拟合和欠拟合欠拟合指模型不能在训练集上获得足够低的训练误差；过拟合指模型的训练误差与测试误差（泛化误差）之间差距过大；反映在评价指标...

Posted by Jiayue Cai on October 3, 2018

特征工程（文字总结版）

常用特征

Last updated on 2020-2-12… 本文是对《美团机器学习实战》一书中特征工程篇的个人总结，代码实践版见我的另一篇博客：《Python特征工程篇》。文末最后一节为总结出的实际经验。竞赛中没灵感时候才会稍微看看的文章… 数值特征数值类型的数据具有实际测量意义，分为连续型（身高体重等）和离散型（计数等），有如下8种处理方法： 1.截断：超出合理范围...

Posted by Jiayue Cai on October 2, 2018

美团点评深度学习架构

Posted by Jiayue Cai on October 1, 2018

常用评价指标

分类、回归、排序

Last updated on 2018-9-29… 原文来自《美团机器学习实践》，Target：使线下指标的变化趋势跟线上指标一致。个人做了一些补充和注解。这篇有更透彻的理解分类指标以二分类为参考的话： Precision 精确率表示当模型判断一个点属于该类的情况下，判断结果的可信程度。 Recall 召回率表示模型能够检测到该类的比率。对于...

Posted by Jiayue Cai on September 29, 2018

感知哈希算法

For 计算图像相似性

Last updated on 2018-9-21… 感知哈希算法（Perceptual hash algorithm），它的作用是对每张图片生成一个”指纹”（fingerprint）字符串，然后比较不同图片的指纹。结果越接近，就说明图片越相似。方法简述下面是一个最简单的实现：第一步，缩小尺寸将图片缩小到8x8的尺寸，总共64个像素。这一步的作用是去除图片的细节...

Posted by Jiayue Cai on September 25, 2018

Python大文件处理

For Data Mining

Last updated on 2019-3-21… 基础知识进程与线程进程在执行过程中拥有独立的内存单元，而多个线程共享内存。进程切换时，耗费资源较大，效率要差一些。对于一些要求同时进行并且又要共享某些变量的并发操作，只能用线程，不能用进程。一个程序至少有一个进程,一个进程可以有多个线程。 Python多线程 Python中的多线程是假的多线...

Posted by Jiayue Cai on September 21, 2018

Attention机制

Self-Attention、Multi-Head Attention、Transformer、Position Embedding

Last updated on 2019-11-8… 《细讲Attention Is All You Need》、《Attention is All You Need》浅读（简介+代码）、Self-Attention与Transformer、【NLP】Transformer详解前言 Attention机制最早是在视觉图像领域提出来的(上世纪90年代)，但是真正热门起来...

Posted by Jiayue Cai on September 5, 2018

代价函数

Cost Function

Last updated on 2019-4-11… Cost Function和Loss Function的区别： Cost Function：指基于参数w和b，在所有训练样本上的总成本 Loss Function：指单个训练样本的损失函数各种概率分布均方误差 MSE 假设是高斯分布，又名正态分布均方误差的含义是求一个batch中n个...

Posted by Jiayue Cai on September 4, 2018

Joye Cai's Blog

大规模机器学习

For Data Mining

基于深度学习的OCR

Faster R-CNN、FCN、BLSTM

深度学习基础

For 面试

特征工程（文字总结版）

常用特征

美团点评深度学习架构

Focus on 推荐

常用评价指标

分类、回归、排序

感知哈希算法

For 计算图像相似性

Python大文件处理

For Data Mining

Attention机制

Self-Attention、Multi-Head Attention、Transformer、Position Embedding

代价函数

Cost Function

FEATURED TAGS

ABOUT ME

FRIENDS