首页 新闻

基于大数据分析的资产投资决策系统V1.0

作者:卢师维

技术背景

建立一个基于大数据分析资产投资决策系统,可以帮助投资者获取乐观稳定的收益。对于投资者而言,知道投资产品的未来走势十分重要,而要预测投资产品将来的走势,可以通过对投资产品的历史数据构造多因子,对多因子进行因子分析,建立多元回归模型,构建投资组合来实现。相对于选择投资产品,择时更为困难。震荡市的存在很容易导致投资者亏损,因此选择合适的时机至关重要。该系统有效地解决了数据提取、投资产品的选择和择时交易的问题,并且可以程序化交易,极大地方便了投资者。

技术内容

本文建立了一个基于大数据分析的资产投资决策系统, 在尽可能地在降低风险的前提下为投资者谋取高收益,系统主要包括三个部分:爬虫部分获取投资产品的各种基本面和行情数据、多因子模型分析和选择投资产品、择时策略的开发和回测获取超额收益。

1. 爬虫程序获取产品数据

1.1获取投资产品列表

网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛应用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。

1.2获取投资产品信息

作为建立模型的第一步,确保使用数据的全面性和合理性是很重要的。首先需要归纳出不同风格的因子种类,再在各个风格大类下细分相关因子,并综合经济含义以及相关参数来确定因子的计算方法。

通过爬虫技术编译函数获取金融产品的信息,构造基本多因子,便于接下来对多因子进行分析和对产品进行选择。

1.3 获取投资产品的历史净值

历史净值是用来计算投资收益的重要指标,同时历史净值也是投资市场用来进行交易的依据。历史净值可以用来构造行情因子,在开发择时策略时使用。

2 多因子选择投资产品

多因子模型是目前应用比较普遍的一种选择投资产品的模型,比如说证券产品,其基本原理是采用一系列的因子综合评价后作为选择证券标准,根据这些因子买入表现较好的证券。多因子模型的优点在于,它能通过有限共同因子来有效地筛选数量庞大的个股,在大幅度降低问题难度的同时,也通过合理预测做出了判断。

本文基于多因子模型选择投资产品的方法是打分法、回归法和机器学习与人工智能方法。

2.1 打分法

打分法的基本步骤:(1)对每类因子赋予不同的权重;(2)对因子标准化打分并筛选;(3)添加约束、二次规划求解权重。

2.2 回归法

假设因变量 Y(预期收益率)是自变量 X1,X2,…,Xk

(候选因子)的线性函数,用方程来表示就是:

Yi =β01X1i +β2X2i +…+βkXxii

其中 Yi表示因变量的第 i 个观测值,而 Xki 则是第 k 个 自变量(解释变量)的第 i 个观测值,是自变量 Xk 的系数, ε是第 i 组观测值的残差项。

通过因子分析来去掉与被因变量相关性差的因子;然后采用主成分分析法来对因子进行降维,便于进行构造方程;而多元线性回归通常采用普通最小二乘法(OLS)进行估计。

2.3 支持向量机分类与神经网络

(1)支持向量机是一种经典的二分类模型,本身也可以转化为一个凸二次规划求解的问题。其基本思想是假设数据线性可分,希望找到一个合适的超平面将不同类别的样本分开,类似二维平面使用 ax+by+c=0 来表示;(2)神经网络是一种运算模型,由大量的神经元之间相互连接构成。神经网络模型主要考虑神经元模型、学习算法、网络拓扑结构。

2.4 机器学习多因子模型实例

实例主要运用支持向量机分类的方法对投资产品的数据进行择时回测,并且从下面的所得数据,可看出模型取得了较好的预测效果。

具体操作为:(1)获取基本数据;(2)指标计算:各日涨幅、K 线均值、乖离率、RSV、OBV 量比等其他指标作为待分析的因子;(3)数据标准化:将训练样本和预测样本归一化(均值标准差法);(4)变量筛选:计算相关系数矩阵,选择相关性较强的因子;(5)训练分类器并分类变量(MATLAB 内置的分类器);(6)训练神经网络模型并进行模型评估(如图 1 所示)。

              正确

http://img.danews.cc/upload/ajax/20230223/a16ace3344dc751735cc94594aab596c.png

错误

                                         1 模型的正确率和错误率

3 择时回测

3.1平滑移动平均线(MACD)指标的择时

MACD 是从双指数移动平均线发展而来的,由快的指数移动平均线(EMA12)减去慢的指数移动平均线(EMA26)得到快线 DIF,再用快线 DIF-DEA 得到 MACD 柱。MACD的意义和双移动平均线相似,即由快、慢均线的离散、聚合来显示当前的多空状态和投资产品可能的发展变化趋势并对买进、卖出时机做出研判。

MACD 的计算:(1)EMA(12)= 前一日 EMA(12)×11/13 +今日收盘价 ×2/13;(2)EMA(26)= 前一日EMA(26)×25/27 + 今日收盘价 ×2/27;(3)DIFF=

今日 EMA(12)- 今日 EMA(26);(4)DEA(MACD)= 前一日 DEA×8/10 +今日 DIF×2/10;(5)BAR=2×(DIFF - DEA)。

MACD 的择时应用:(1)当 MACD 从负数转向正数,即买入信号;(2)当 MACD 从正数转向负数,即卖出信号;(3)当 MACD 以大角度变化,表示快的移动平均线和慢的移动平均线的差距非常迅速地拉开,代表了一个市场大趋势的转变。

3.2

如数学中的一阶导数表征涨跌;二阶导表征凹凸性,体现涨跌速率。模型策略的理论基础是离散数据的多项式拟合。对交易日内某段时间的价格序列{px}进行线性拟合(即一阶多项式拟合),得到连续函数 y1=a1x+b1,通过其一阶导数判断该段时间价格的趋势,当

http://img.danews.cc/upload/ajax/20230223/935cd28fb3ef9d36bfad7217dbd7cf9a.png

> 0 时,价格为上涨趋势;当

http://img.danews.cc/upload/ajax/20230223/935cd28fb3ef9d36bfad7217dbd7cf9a.png

< 0 时,为下跌趋势;当

http://img.danews.cc/upload/ajax/20230223/935cd28fb3ef9d36bfad7217dbd7cf9a.png

=0 时,无趋势。

通过一阶多项式拟合,可以对价格的基本趋势做出判断,但更重要的是还要对趋势的变化情况做出界定,即需要研究由于金融市场的信息不平衡特性所带来的趋势加速或减速的情况,这点可以通过二阶多项式拟合完成。同样是对该段时间的价格序列{px}进行二次拟合,拟合的目标函数形式为y2=a2x2+b2x+c2,当

http://img.danews.cc/upload/ajax/20230223/935cd28fb3ef9d36bfad7217dbd7cf9a.png

 > 0 时,价格曲线为凹;反之当

http://img.danews.cc/upload/ajax/20230223/935cd28fb3ef9d36bfad7217dbd7cf9a.png

< 0 时,价格曲线为凸;结合一阶多项式拟合的结果。

结论

本系统提供了完整的资产投资决策分析框架,包括爬虫获取产品数据、多因子模型评价和选择投资产品、择时策略的开发和回测,以及程序化交易。投资者可以在该系统中根据个人偏好选择不同的策略进行交易,银行和一些金融机构在投资和推荐产品时,可以通过该系统对投资产品进行多维度的评价,在风险和收益之间取得较好的均衡,以期获得稳定收益。


点赞(15712)
收藏(8460)