如何使用强化学习进行量化投资？

文档中心

如何使用强化学习进行量化投资？

文章目录

- 如何使用强化学习进行量化投资？
- - 直观使用强化学习进行量化投资
  - 使用强化学习进行量化投资
  - 量化投资强化学习流程图
  - - 行为决定（买入、卖出、持有）
    - 执行行动
    - 批量生成训练数据和更新神经网络

直观使用强化学习进行量化投资

强化学习迄今为止主要用于游戏的人工智能。然而，强化学习的应用范围是无限的。在本文中，我们将了解如何将强化学习应用于股票投资。
让我们看看如何将强化学习应用于量化投资，不需要很难的公式或术语。了解将强化学习应用到股票投资，积累经验，在做好的情况下给予积极补偿，在做错的情况下给予消极补偿，从而消除创建每日学习数据的麻烦，同时创建有效的股票投资学习策略。

使用强化学习进行量化投资

强化学习可以应用于股票投资，以决定在任何环境中是买入、卖出还是持有。当强化学习应用于股票投资时，组件如下图。
在这里插入图片描述
由上图可知，在股票投资强化学习中，代理（Agent）充当投资者，作为执行行为（Action）的实体。行为（Action）可以是买入、卖出、持有。行为由神经网络决定，神经网络从投资收益产生的奖励和训练数据中学习。

股票投资强化学习中的环境可以通过多种方式设置，在本文中将一只股票的实时行情图表数据作为环境。神经网络的训练是通过奖励代理执行的行为作而产生的利润或损失来进行训练的。

量化投资强化学习流程图

使用强化学习进行股票投资，执行流程图如下所示：
在这里插入图片描述

行为决定（买入、卖出、持有）

在一个epoch中，必须采取随机行动来获得经验，在流程图中叫做探索。总的来说，在强化学习开始的时候，探索概率较大，学习后期探索概率小。

探索率称为 epsilon。假设100次迭代，在第1个epoch设置epsilon为50%，在第100个epoch逐渐减小epsilon到0%，随着epoch的增加，随机行为减少。你获得的经验越多，你做的随机性就越少。

当行为不是随机的时，由神经网络决定采取行为。神经网络选择具有高输出的动作。

执行行动

无论是随机确定的行动还是神经网络确定的行动，代理都会执行动作。

在行动是购买的情况下，代理检查是否有现金购买股票，如果有，则进行购买，否则等待。当您购买时，您会根据您购买的数量减少现金，并通过您购买的股票数量增加您拥有的股票数量。

在行动是卖出的情况下，代理检查它是否有任何股票，如果有，则执行卖出，否则等待。如果出售，则从持有的股票数量中减去出售的股票数量，并将出售的数量添加到持有的现金中。

在行动是持有的情况下，代理就会计算收益

批量生成训练数据和更新神经网络

这样就确定了投资股票时是否可以提供延迟补偿。例如，我们将盈亏设为 5% 或更多作为延迟补偿的标准。换言之，如果在进行投资时发生了 5% 或更多的利润或 5% 或更多的损失，则将此时的情况和行为创建为学习数据。一次性应用这些训练数据来更新神经网络。这种学习方法称为批量学习。

训练后，更新神经网络的权重，以反映后续投资的更新神经网络结果。低滞后补偿标准更有可能使用小批量训练数据进行频繁训练，而高滞后补偿标准更可能使用大批量训练数据进行不频繁训练

如何使用强化学习进行量化投资？