Chen Shawn's Blogs

╭(●`∀´●)╯ ╰(●’◡’●)╮

0%

NUMB DAYS

上次更新blog已经是很久以前的事情了,之所以这么久没有更新,主要是工作项目中已经很久没有用到专业领域内的知识了,好不容易有个周末可以逃避不顺心的项目,还要看专业知识只会让自己回想起工作时的痛苦

这半年里发生了什么?

因为组织架构变动成为了鹅厂内部赛马机制的牺牲品,被安排了一个不喜欢的项目,我们做的事情在甲方爸爸们的优先级列表中顺位很低,不仅得不到技术沉淀,而且长时间的闭门造车中每个人都心力交瘁

在九月底到十月底的不到一个月时间里,利用中秋节和公司团建的机会,分别跑了新疆和西藏,完成了自高中起就魂牵梦萦但由于各种原因未能去成的遗憾

两次搬家,从宝安中心搬到了南山书城,两次搬家都让我实实在在地感受到了漂泊的辛酸,没有自己的家,租来的房子哪怕生活过得再好也只是太阳下的泡沫,随时可以戳破——这种想法也终于让我开始比较实际地把买房规划到排期中

当然,没多久这些规划就因为政策原因而破灭

搬家后住处离书城很近,经常周末去看书,近半年来看了不少历史和政治哲学方面的资料,从刘擎的西方思想讲义入门到政治哲学一些永恒的命题,从希腊民主改革到罗马共和国平贵斗争,从十字军东征到三十年战争,包括1949年之后大量在墙内已经文化灭绝的历史资料,都比较详细地过了一遍

我想要知道两个问题:我们现在生活的这个世界为什么是现在这个样子的?我脑子里那些从小到大认为是天经地义的理念能否抵挡外部对立观念的冲击?

第一个问题,虽然我的不少疑惑在书中得到了解答,但第二个问题的答案是否定的,以我为代表的大多数做提价从小就被打上了思想钢印,观念一旦形成,从小到大不会有哪怕一次经受外部观念的冲击,一般也不会收到来自内部理性的审视,这种理念就像温室中的花朵一样不堪一击

十一期间在上海美罗城和小雪一起试玩了PS5,让本来想等买房后再买PS5的我更加心痒难耐,处在现实与理想的夹缝中相当难受。十一月临近双十一,我最终选择与自己和解——其实没有必要为了买房把自己变成苦行僧,西藏一行已经让我开始明白,我高中时期与本科毕业旅行的遗憾,是永远无法被2021年已经参加工作一年多的我弥补的,哪怕以后我再怎么登上唐古拉山口眺望可可西里,再怎么驱车经过日喀则看珠峰日照金山,也不可能再有学生时代的那种情怀了

Btw,PS5真香

闲话休提

九月底参加了一次公司内部的编程大赛,这次参赛时意气风发志在必得,结果下来最后结果并不是很理想,关键问题在于我们把问题想得太理想化了,主办方给了一道赛车的题目,我们觉得自己部门在RL方面的积累底蕴丰厚,想要直接上RL模型解决,殊不知通用化的解决方案在具体的问题上往往不如专用解决方案来得实在靠谱,我们的RL模型三个小时甚至更长的时间才能迭代一个版本,且每个版本的效果如何在训练之初完全不可预测,整个流程太长导致debug花掉大量时间,这些都让RL方案近乎破产,我们并没有走到最终的决赛

赛后也和ysunlin大佬聊了好几次有关这次比赛的失败经验,对于我来讲,除掉上面列举的因素以外,这次比赛让我对model-free RL是通向未来的通用化解决方案这个问题产生了怀疑

这次比赛的题目场景其实和自动驾驶非常相似,赛道信息是提前在静态文件中给出的,gamecore是unity写的,基于三维空间中的真实物理模拟,理论上来说运动方程——至少是局部的近似运动方程是可以写出来的,一旦能够写出运动方程,那么基于LQR甚至是iLQR的model-based方法就可以有用武之地,相比model-free算法而言,LQR可以直接在运行时计算得到结果,所见即所得,只要建模的运动方程足够准确,LQR就可以得到最优的结果,在比赛中这有利于参赛选手把注意力集中在调整行车策略上,而不是在一个巨大无比的分布式系统中为了一些工程问题连续几个小时抓耳挠腮

最近这一年时间里,offline RL也成为了学术界的新欢,在model-free RL大新闻已经做得差不多的情况下,大家发现对于工业界尤其是搜广推业务来说,offline训练才是真正的刚需问题,工业场景中一般离线验证缓解与在线环节一定是分离的,在很多公司中甚至是由两个不同的部门负责,模型效果稳定之前不可能允许模型与用户产生真实的交互数据,离线训练时non-iid数据在extrapolation上的效果又难以保证,这让offline training成为了目前学术界的热点问题

在可以预见的未来,model-free大力出奇迹的方法论应该会被越来越多的现实主义者摒弃,我们在model-free上确实积累深厚,然而在真正的卡脖子问题上却缺乏最基本的探索——吃鸡在地图中大规模的转移行为,很难通过任何间接reward的方式让AI学习到(这有点像去年我们做过的汽油桶引怪问题),最终只能通过Astar来做,这也可以看做是model-free RL的一种失败

IEG很多部门也开始研究基于RL的bot,RL这门技术,至少对于腾讯的游戏部门来说已然不新鲜,制约更多来自于算力成本以及项目组对于不可控因素的抗拒程度。例如APEX项目组最终就放弃RL选择了行为树,策划在文章中说,他对RL bot的未来前景仍然是看好的,但前提是RL可以作为一个通用化的工具集成到游戏引擎中,让不懂RL算法细节与数学细节的游戏工作者也可以以较低的成本调用,而类似这样的事情我们也有做过,最终却以失败告终

十一回来以后终究还得直面现实,拆组以后的我已经没有回头路,以后不可能再回到wzry项目组,即使回去了,wzry项目组也已经不是以前我熟悉的那个项目组了

不仅是wzry项目组,整个部门所有的业务都面临着来自技术层面或者人的层面的挑战,技术部门不再以技术深度为护城河,反而把自己与业务部门的“合作关系”作为部门实际的护城河,这时候的话就已经意识到,是时候应该做出改变了