Chen Shawn's Blogs

0%

Self-supervised Learning Paper Collection

Posted on 2020-06-22 Edited on 2020-06-23

最近self-supervised learning很火，大佬Kaiming He和Hinton组都有一些成果出来，Yann Lecun也对SSL报以很高的评价；2019年的时候我曾经觉得这个领域旧瓶装新酒没什么意思，但现在SSL的思路已经在包括CV、NLP、语音甚至是RL方面都作出了不错的实验效果，或许未来哪天可能会引发DL理念的革命，就像CV中self-attention超越了卷积，就像NLP中卷积加multi-head attention超越了RNN一样

Collection of Engineering Tricks

Posted on 2020-04-20 Edited on 2020-06-22

各种machine learning工程上会遇到的问题及解决方案收集

Distributed Machine Learning Collection

Posted on 2020-03-18 Edited on 2020-04-18

收集、学习、分析近年来优秀的分布式机器学习工作

本文不讨论单机环境上开多线程共享stack这种“虚假”的分布式：任何一个分布式算法，如果没有办法部署到真正的集群/客户端/云平台，并对scalability有较好的解决方案，即可被定义为“虚假”的分布式算法

Web Server Based Parallel RL Training Framework

Posted on 2020-02-18 Edited on 2020-04-21

一个基于Web Server的的分布式训练架构，开发中，代码见 webserver-based-parallel-rl-training

Notes for Stein Variational Gradient Descent

Posted on 2019-11-12 Edited on 2020-04-18

Stein Variational Gradient Descent: A General Purpose Bayesian Inference Algorithm

MARL调研汇总

Posted on 2019-09-09 Edited on 2020-04-18

调研汇总multi-agent方向的方法

Notes for Multi-Arm Bandit Problems

Posted on 2019-09-03 Edited on 2020-04-18

搬运一些国外讲bandit比较好的博客文章

Note: 与原文相比，数学符号定义会做一些小的修改，使其与RL设定通用

Ubuntu 18.04各种折腾

Posted on 2019-06-29 Edited on 2020-06-08

在ubuntu 18.04上安装微信的问题

游戏AI基础知识梳理

Posted on 2019-06-09 Edited on 2020-04-19

世界范围内，做游戏AI的公司主要就是DeepMind和OpenAI，前者有AlphaZero、IMPALA和AlphaStar，后者有OpenAI Five，本文对这两个公司做游戏的主要知识结构做简单梳理

Details of Generalized Advantage Estimator

Posted on 2019-04-18 Edited on 2020-04-18

记录一点点GAE的细节

5行shell忙等抢占GPU——论如何与流氓公用GPU

Posted on 2019-04-17 Edited on 2020-04-18

几行简单的shell代码，用来在实验室公用的服务器上忙等之前占用GPU的进程，一旦之前的进程退出，马上启动自己的进程来抢占GPU (~~再也不用担心总是排不到空闲GPU了~~

Soft Actor-Critic and MPO

Posted on 2019-04-01 Edited on 2020-04-18

Soft Actor-Critic

Two Papers about the Variance of Policy Gradient on ICLR-2019

Posted on 2019-03-27 Edited on 2020-04-18

总结两篇ICLR上的硬核文章，内容都与policy gradient系列方法的variance estimation有关，一篇来自Pieter Abbeel组，2018年3月起挂在ArXiv上；另一篇出自腾讯AILab，发表于ICLR-2019（~~仰望大佬~~

DeepMind Paper Reading —— How is DeepMind Different from OpenAI

Posted on 2019-03-18 Edited on 2020-04-18

知乎之前有这样一个问题：DeepMind和OpenAI身后的两大RL流派有什么具体的区别?

multiprocessing与threading模块相关踩坑记录

Posted on 2019-02-26 Edited on 2020-04-18

Background

On the Numerical Instablity of Conjugate Gradient

Posted on 2019-02-15 Edited on 2020-04-18

问题描述

RL Resources Collection

Posted on 2019-02-12 Edited on 2020-04-18

Lectures

使用matplotlib绘制带有方差区间的曲线

Posted on 2019-02-10 Edited on 2020-04-18

在强化学习的论文中经常可以看到一条收敛线，周围还有浅浅的范围线，一直比较疑惑这个范围线的实际含义，似乎不同论文中这个范围线的实际含义是不同的

例如有些文章中，范围线随时间变化非常剧烈，表示的是不同random seed下运行结果的标准差，而大部分Berkeley和OpenAI的文章中，范围线都很比较平滑，代表的似乎是标准差的滑动平均

直到看TD3的时候才发现，Figure 5的caption处写明了画图的方式

The shaded region represents half a standard deviation of the average evaluation over 10 trials. Curves are smoothed uniformly for visual clarity.

On Implementing the Reparameterization Trick

Posted on 2019-02-06 Edited on 2020-04-18

第一次接触到reparameterization trick是在variational auto-encder的文章中，由于其中损失函数含有hidden layer真实分布与高斯先验之间的KL divergence项，在实现时将hidden layer重新参数化成一个高斯分布。

Advanced Policy Gradient

Posted on 2019-02-06 Edited on 2020-04-18

本文的主要内容为CS294-112课程中『Advanced Policy Gradient』一节的总结与代码实现。

Applications of Fisher Information Matrix

Posted on 2019-01-19 Edited on 2020-04-18

未完成，待更新。。。

Unfinished, to be updated…

1. Statistical definition

git使用记录

Posted on 2019-01-18 Edited on 2020-04-18

git一些不是很常用的功能经常忘记指令，在这里简单记录

Oral Presentation Notes

Posted on 2019-01-18 Edited on 2020-04-18

The presentation note is used in AAAI-2019 oral presentation

CUDNN_STATUS_NOT_INITIALIZED

Posted on 2019-01-11 Edited on 2020-04-18

错误信息

数据结构类问题总结

Posted on 2019-01-10 Edited on 2020-04-18

基础：堆排序