**分钟级市场情绪指数:**
**涨落的精细结构**
![飞书20220719-174906.jpg](https://dev-media.amazoncloud.cn/5bc3a51cc8994f0c98f7c3d4404ca618_%E9%A3%9E%E4%B9%A620220719-174906.jpg "飞书20220719-174906.jpg")
**超对称技术公司数据库XenonDB 3.0最新发布分钟级市场情绪指数,用于研究高频的市场情绪的精细结构。新版本XenonDB不仅在天和小时级频次的基础上开发了分钟级数据,还研发了全新的NLP算法架构。在注意力机制的基础上,我们建立了能高效处理图文和时间序列数据多模态信息的新型Transformer架构,在新架构上开发大规模参数预训练语言模型。语言模型的强大理解能力稳步推进我们的产品目标:建立市场最底层的认知智能基础设施。**
### **1.数据库XenonDB简介**
超对称技术公司专注于建设支撑产业数字化的算法和数据基础设施。XenonDB数据库是专业的经济金融时间序列数据库。应用自然语言分析和分布式计算技术,我们对大规模混乱的市场数据进行识别,分析和结构化,生成能捕捉到市场和企业各个维度变化的时间序列数据,向工业,商业,经济,金融,政务,教学和科研领域的专业人员提供高质量的结构化数据,快速的信息检索,和基于API的高频数据调用。
XenonDB的算法内核是大规模预训练语言模型和大规模预训练多模态模型。时间序列类数据是金融经济领域常见的数据类型,传统的NLP模型无法结合文本来分析时序数据。我们创造性地提出了融合处理图文和时序数据的预训练语言模型。多模态的预训练算法架构极大提升对文本理解的准确度,提高文本的情绪分析质量。
### **2. 产品概述: 市场情绪指数**
金融市场由企业的基本面,市场参与者的资金的流动和市场情绪的涨落所驱动。市场情绪的涨落是市场的一种内禀属性。市场情绪由市场参与者产生,受到企业基本面的影响,进而影响投资行为和资金的流动,而后者再进一步作用于市场情绪本身,产生一种具有反身性(Reflexivity)的复杂系统。数量化地研究这个复杂系统的内禀属性,是理解市场的第一步。市场参与者包括企业,政府,投资机构,个人投资者。市场情绪反映的是个人和机构对市场主体和以及相关事件的整体预期。社交媒体用户的发帖,研究所发布的研究报告,媒体的文章和政府的公告构成以图文和时序数据为基础的信息环境驱动市场情绪的涨落。我们研发了大规模预训练语言模型用于理解语言信息,通过判断语言的感情色彩,计算出能反映整体市场情绪的数值。市场情绪指数能实时,连续地监测市场的情绪变化,给金融研究人员提供高频的数量化环境来研究市场波动的精细结构。
![1673922329747.jpg](https://dev-media.amazoncloud.cn/e18c9ccd46b54fc1bcf80f9287aa5d59_1673922329747.jpg "1673922329747.jpg")
**使用对象**
* 从事量化投资的个人和机构开发者
* 对金融市场进行数据分析的个人和企业
* 基于证券研究开发金融类产品和解决方案的公司
* 高校经济系、金融系,进行市场研究的科研人员
* 金融,经济,工商业相关的政府部门
* 大型企业和上市公司
**产品示例**
![image.png](https://dev-media.amazoncloud.cn/f962048002c441209df1b6bb84e3300a_image.png "image.png")
### 3. 产品介绍
![b0d1561ae4c3f54d61eeb4365e78b417.jpg](https://dev-media.amazoncloud.cn/d8e0ec6e5db9478dbb1b021cdcf2e123_b0d1561ae4c3f54d61eeb4365e78b417.jpg "b0d1561ae4c3f54d61eeb4365e78b417.jpg")
**3.1. 股吧**
**分钟级情绪指数:**
分钟级情绪指数起始时间:2021-02-01
分钟级情绪指数总条数:626万+
数据产生时间:该分钟之后的第5分钟
![image.png](https://dev-media.amazoncloud.cn/811d64c82c354d66ba3c5b03762d6bd2_image.png "image.png")
注:情绪值0为极负,0.5为中性,1为极正
**小时级情绪指数:**
小时级数据起始时间:2007-01-03
小时级数据总条数:3940万+
数据产生时间:每小时的第17分钟
每小时覆盖量:2000-3000
![image.png](https://dev-media.amazoncloud.cn/4c742e0bb6034340b3391103d4249e3b_image.png "image.png")
**天级情绪指数:**
天级情绪指数起始时间:2007-01-03
天级情绪指数总条数:1000万
覆盖量:4000+A股/天
数据产生时间:每天凌晨4点
![image.png](https://dev-media.amazoncloud.cn/78931c8780974a1b90864847e6ebb45b_image.png "image.png")
**两种情绪指数:**
1\. 平均情绪值,由NLP模型计算出的情绪值的算术平均计算得出;
2\. 加权情绪值,由NLP模型计算出的情绪值基于阅读数、跟帖数的加权平均计算得出。
**3.2.雪球**
**分钟级情绪指数:**
小时级数据起始时间:2021-02-01
小时级数据总条数:130万+
数据产生时间:该分钟之后的第5分钟
![image.png](https://dev-media.amazoncloud.cn/ae3e50cd978940308fdc0e071fdf1f19_image.png "image.png")
注:情绪值0为极负,0.5为中性,1为极正
**小时级情绪指数:**
小时级数据起始时间:2011-10-27
小时级数据总条数:7500万+
数据产生时间:每小时的第15分钟
![image.png](https://dev-media.amazoncloud.cn/2256c1b7f40b4c3db3a75fa78eb6e6a1_image.png "image.png")
**天级情绪指数:**
天级数据起始时间:2011-10-27
天级数据总条数(截止2021.03.31):601万+
覆盖频率:3500+A股
数据产生时间:每天凌晨4点
![image.png](https://dev-media.amazoncloud.cn/df4bd0575a3f4c01bb8dd9ecb4b7e33d_image.png "image.png")
**3.3.新浪微博**
**天级情绪指数:**
天级数据起始时间:2009-09-22
天级数据总条数(截止2021.03.31):196万+
覆盖频率:3500+A股
数据产生时间:每天凌晨4点
### 4. 应用案例
量化基金客户应用市场情绪指数于量化多因子模型。使用单因子策略来做历史回测,可以在过去14年获得年化15%-20%的收益。通过分组分析,可以看到数据有良好的一致性。
**应用案例1 — 情绪单因子模型**
![image.png](https://dev-media.amazoncloud.cn/c4816aa643c94defa35878a2ee3a78c2_image.png "image.png")
**策略:**
**选股:** 情绪指数前一天(t-1)排名前10的股票
**交易:**:在第一个交易日开盘价买入,第N个交易日收盘价卖出。
**应用案例2 — 分组回测**
1.对股吧2020情绪值TOP2000数据进行分组回测:
![image.png](https://dev-media.amazoncloud.cn/b32c2abb68424b688fcdbb69d6f30744_image.png "image.png")
**图例为三天交易日换仓回测累计收益曲线**
**策略:**
**选股:**
情绪指数前一天(t-1)排名500/500-1000/1000/1000-1500/1500-2000的股票
**交易:**
在第一个交易日开盘价买入,第N个交易日收盘价卖出。
2\. 对雪球2020情绪值TOP2000数据进行分组回测:
![0dbfdcce2fa9066142b59dfe1bfa71ee.jpg](https://dev-media.amazoncloud.cn/315c35de97c94a99862383e41876c516_0dbfdcce2fa9066142b59dfe1bfa71ee.jpg "0dbfdcce2fa9066142b59dfe1bfa71ee.jpg")
**图例为三天交易日换仓回测累计收益曲线**
**策略:**
**选股:**
情绪指数前一天(t-1)排名前250/250-500/500-750/750-1000的股票
**交易:**
在第一个交易日开盘价买入,第N个交易日收盘价卖出。
**应用案例3 — 单因子模型**
分组分析TOP 1000 VS TOP 2000
![image.png](https://dev-media.amazoncloud.cn/5b30fd3e937d4a2fb66cec850936e83f_image.png "image.png")
### 5. 情绪指数的技术架构
我们研发的底层大数据和算法基础设施是高质量产品的强力支撑。
![image.png](https://dev-media.amazoncloud.cn/0fc46740461a4a90941805ec8290c01c_image.png "image.png")
# **运维:实时巡检系统**
我们搭建了高效的运维预警系统,保障数据软件系统的稳定和健壮运行。
* **爬虫巡检:**
1. 自主研发的大规模分布式爬虫监控系统
2. 流程化的精准巡检预警,基于统计各业务爬虫的每日数据条数,数据物理占用总量等多维度手段的巡检汇报,对接下发至相应业务人员的消息系统(如邮箱,\*钉报警)
![image.png](https://dev-media.amazoncloud.cn/f1f2cb94b0814e34b38eb1c1a2abedac_image.png "image.png")
* **计算巡检:**
1. 各项业务计算建立在可靠的Azkaban等自动化调度平台之上.
2. 借助Hadoop Ecosystem存储.
3. 分布式Spark计算的高性能、高可用能力,实现了业务响应的快速敏捷.
4. 且对数据安全,稳健计算,灾备服务做了充分保障.
### 6.FAQ
Q1:指数情绪是用个股情绪处理出来的吗?
A1:指数的情绪是指数对应的贴吧\*权重+指数对应的个股贴吧 \* 权重 计算得来的。例如:沪深300指数,对应的沪深300 贴吧 的情绪值 \* 权重 + 沪深300 所对应的个股 (其中个股还要乘上个股在沪深300中所占的权重)\* 权重。
\
Q2:情绪指数的计算规则是什么?
A2:1. 数据源选择:我们在选择文本数据的时候会从以下几个方面考虑:高覆盖率、高频率和长历史记录;
2. 数据预处理:剔除异常文本数据,例如广告帖子,广播帖子等;
3. 标记:使用语言模型对文本进行标记,我们建立了一个1000万+的字典,根据这个字典文本进行分词,然后将分词结果进行标记;
4. 训练集、测试集:我们手工制作了一个数十万的标签集合,确保我们标签的质量和覆盖范围。通过这种方法使我们的模型能够从中受益并摆脱过拟合;
5. 算法模型:在预训练语言模型的基础上做Fine Tuning, 做情绪色彩分类;
6. 将股票对应的所有帖子为正面的概率取平均值,由此得出每支股票的情绪指数。
\
Q3:你们如何区分情绪对应的时间呢?如转发量,评论数等,这些是没有时间戳的。当天抓取跟一年后抓取,数值上会有差别
A3:1. 从2017年8月份起我们抓取的都是事实的数据;
2. 2017年8月以前的历史数据我们训练出一个模型,用来推算每个帖子当时除文本外的数据维度。
\
Q4:情绪指数从0-1,如何理解?是表示指情绪由弱到强吗?它的大小是相对自己的还是相对整个市场的?
A4:1. 0-1是由弱到强,数值越大,正面情绪越强;
2. 我们的情绪指数是通过语义分析算法计算出每只股票下每篇文章为正面的概率,然后去均值作为当时的情绪指数,与市场无关。
\
Q5:如果一只股票几乎没有文章,基本没有点赞,评论,转发的日期,情绪值是不是就不太准确?
A5:1. 某些天部分股票下所属文章会比较少的情况确实存在;
2. 我们提供给您的数据维度包含发帖数、评论数、转发数的维度,您可以根据这些维度对股票进行过滤。
\
Q6:情绪指数是如何实现校验的?
A6:1. 数据监控:监控系统会对每次爬取的原始数据的大小和数据量进行监控,及时发现数据的异常并进行补充;
2. 在模型训练之前我们手工制作了一个数十万的标签集合,以确保标签质量。通过这种方式,我们的模型可避免过拟合;
3. 我们在模型定型之前采用了大量的测试集验证模型准确度,得出准确率在80%以上。
### 7.注册和试用
1. 在超对称技术公司的官方网站www\.ssymmetry.com注册成为API账号用户
2. [联系service@susymmetry.com](mailto:%E8%81%94%E7%B3%BBservice@susymmetry.com) 申请历史数据试用权限
3. 联系客服电话 (+86)400 182 3520,获取价格信息