本项目运用深度确定性策略梯度(DDPG)算法,旨在优化股票交易决策。通过建立模拟交易平台,我们探索了如何使用强化学习技术来指导投资组合的动态调整,以期寻找最佳买卖时机,并评估其在实际市场环境中的表现与稳定性。
在股票买卖的最佳时机问题上应用DDPG(深度确定性策略梯度)算法进行测试建立模型的参考灵感来自原始论文中的代码环境。数据集包括15份2018年1月1日至2018年10月29日的股价记录,以分钟为单位,并包含开盘、收盘、最高价、最低价和成交量等特征信息。
该操作涉及现金头寸以及针对这15只股票分别设置多头和空头仓位。每分钟观察一次股价数据,但每隔7分钟才进行一次交易决策。在每个步骤中,在原有的状态-动作对之外还收集了额外的“推断步骤”状态-动作对,并将其存储于重放内存缓冲区。
这些模型采用时间序列滚动方案构建:使用上个月的数据来建立RL(强化学习)模型,然后在下一个月进行测试验证。该模型从2018年2月1日至2018年10月29日期间实现了大约14%的收益率,相比之下,在同一时间段内采用统一买入并持有这15只股票策略仅获得约5.6%的收益;而采取业绩最佳单支股票买入策略则导致了-16.8%的投资亏损。
值得注意的是,在股票市场中应用RL模型可能会面临高度不稳定性和过度拟合的风险。此外,该模型在实际交易操作时通常只会涉及投资组合的小部分仓位进行买卖决策。