Parameter sharing between policy and value network

Policy network와 value network가 결합된 Actor-Critic 알고리즘에서 두 network의 parameter를 공유하는 경우가 있다.

[1]에 parameter sharing의 장/단점이 설명되어 있다.
AlphaZero 논문에서는 residual network와 parameter sharing의 유무에 따른 성능 비교를 하였는데 둘 다 존재할 때 가장 성능이 좋았다고 한다. [2]
PPO 논문 [3]에서도 policy function과 value function 간 parameter를 공유하는 neural network 구조를 사용하고, 이를 위해 policy loss (surrogate loss)와 value loss (value function error)를 결합한다.
[4]에서는 5개의 locomotion 환경(HalfCheetah, Hopper, Ant, Walker2D, and Humanoid)과 3개의 robotic manipulation 환경(Reacher, Pusher, and Kuka)에 parameter sharing 유무에 따른 성능 비교 실험을 진행하였다. Pusher를 제외한 나머지 환경에서는 parameter sharing이 더 나쁜 성능을 보였다.
[5], [6] -> 관련 stack overflow 질문

Reference