Chen Shawn's Blogs

╭(●`∀´●)╯ ╰(●’◡’●)╮

0%

最近self-supervised learning很火,大佬Kaiming He和Hinton组都有一些成果出来,Yann Lecun也对SSL报以很高的评价;2019年的时候我曾经觉得这个领域旧瓶装新酒没什么意思,但现在SSL的思路已经在包括CV、NLP、语音甚至是RL方面都作出了不错的实验效果,或许未来哪天可能会引发DL理念的革命,就像CV中self-attention超越了卷积,就像NLP中卷积加multi-head attention超越了RNN一样

Read more »

收集、学习、分析近年来优秀的分布式机器学习工作

本文不讨论单机环境上开多线程共享stack这种“虚假”的分布式:任何一个分布式算法,如果没有办法部署到真正的集群/客户端/云平台,并对scalability有较好的解决方案,即可被定义为“虚假”的分布式算法

Read more »

世界范围内,做游戏AI的公司主要就是DeepMind和OpenAI,前者有AlphaZero、IMPALA和AlphaStar,后者有OpenAI Five,本文对这两个公司做游戏的主要知识结构做简单梳理

Read more »

在强化学习的论文中经常可以看到一条收敛线,周围还有浅浅的范围线,一直比较疑惑这个范围线的实际含义,似乎不同论文中这个范围线的实际含义是不同的

例如有些文章中,范围线随时间变化非常剧烈,表示的是不同random seed下运行结果的标准差,而大部分Berkeley和OpenAI的文章中,范围线都很比较平滑,代表的似乎是标准差的滑动平均

直到看TD3的时候才发现,Figure 5的caption处写明了画图的方式

The shaded region represents half a standard deviation of the average evaluation over 10 trials. Curves are smoothed uniformly for visual clarity.

Read more »

第一次接触到reparameterization trick是在variational auto-encder的文章中,由于其中损失函数含有hidden layer真实分布与高斯先验之间的KL divergence项,在实现时将hidden layer重新参数化成一个高斯分布。

Read more »

git一些不是很常用的功能经常忘记指令,在这里简单记录

Read more »