Reinforcement Learning im Cournot Duopol door Sandro Bahn