最近self-supervised learning很火,大佬Kaiming He和Hinton组都有一些成果出来,Yann Lecun也对SSL报以很高的评价;2019年的时候我曾经觉得这个领域旧瓶装新酒没什么意思,但现在SSL的思路已经在包括CV、NLP、语音甚至是RL方面都作出了不错的实验效果,或许未来哪天可能会引发DL理念的革命,就像CV中self-attention超越了卷积,就像NLP中卷积加multi-head attention超越了RNN一样
Collection of Engineering Tricks
各种machine learning工程上会遇到的问题及解决方案收集
Distributed Machine Learning Collection
收集、学习、分析近年来优秀的分布式机器学习工作
本文不讨论单机环境上开多线程共享stack这种“虚假”的分布式:任何一个分布式算法,如果没有办法部署到真正的集群/客户端/云平台,并对scalability有较好的解决方案,即可被定义为“虚假”的分布式算法
Web Server Based Parallel RL Training Framework
一个基于Web Server的的分布式训练架构,开发中,代码见 webserver-based-parallel-rl-training
Notes for Stein Variational Gradient Descent
Stein Variational Gradient Descent: A General Purpose Bayesian Inference Algorithm
MARL调研汇总
调研汇总multi-agent方向的方法
Notes for Multi-Arm Bandit Problems
Ubuntu 18.04各种折腾
游戏AI基础知识梳理
世界范围内,做游戏AI的公司主要就是DeepMind和OpenAI,前者有AlphaZero、IMPALA和AlphaStar,后者有OpenAI Five,本文对这两个公司做游戏的主要知识结构做简单梳理
Details of Generalized Advantage Estimator
记录一点点GAE的细节
5行shell忙等抢占GPU——论如何与流氓公用GPU
几行简单的shell代码,用来在实验室公用的服务器上忙等之前占用GPU的进程,一旦之前的进程退出,马上启动自己的进程来抢占GPU (再也不用担心总是排不到空闲GPU了
Soft Actor-Critic and MPO
Two Papers about the Variance of Policy Gradient on ICLR-2019
总结两篇ICLR上的硬核文章,内容都与policy gradient系列方法的variance estimation有关,一篇来自Pieter Abbeel组,2018年3月起挂在ArXiv上;另一篇出自腾讯AILab,发表于ICLR-2019(仰望大佬
DeepMind Paper Reading —— How is DeepMind Different from OpenAI
知乎之前有这样一个问题:DeepMind和OpenAI身后的两大RL流派有什么具体的区别?
multiprocessing与threading模块相关踩坑记录
On the Numerical Instablity of Conjugate Gradient
RL Resources Collection
使用matplotlib绘制带有方差区间的曲线
在强化学习的论文中经常可以看到一条收敛线,周围还有浅浅的范围线,一直比较疑惑这个范围线的实际含义,似乎不同论文中这个范围线的实际含义是不同的
例如有些文章中,范围线随时间变化非常剧烈,表示的是不同random seed下运行结果的标准差,而大部分Berkeley和OpenAI的文章中,范围线都很比较平滑,代表的似乎是标准差的滑动平均
直到看TD3的时候才发现,Figure 5的caption处写明了画图的方式
The shaded region represents half a standard deviation of the average evaluation over 10 trials. Curves are smoothed uniformly for visual clarity.
On Implementing the Reparameterization Trick
第一次接触到reparameterization trick是在variational auto-encder的文章中,由于其中损失函数含有hidden layer真实分布与高斯先验之间的KL divergence项,在实现时将hidden layer重新参数化成一个高斯分布。
Advanced Policy Gradient
本文的主要内容为CS294-112课程中『Advanced Policy Gradient』一节的总结与代码实现。
Applications of Fisher Information Matrix
git使用记录
git一些不是很常用的功能经常忘记指令,在这里简单记录
Oral Presentation Notes
The presentation note is used in AAAI-2019 oral presentation