预训练语言模型：情绪分析的多样化应用场景

人工智能

API

深度学习

机器学习

无监督学习

{"value":"1. 情绪分析API介绍\n我们目前已推出了社交媒体语言情绪分析，新闻情绪分析，两种BBT（BigBang Transformer乾元大模型，详情可见往期文章）大模型情绪类下游任务，后期还会推出研究报告情绪分析，公告情绪分析等多项情绪类的API接口。\n\n图1：产品结构\n![output.png](https://dev-media.amazoncloud.cn/b4145de9b2af4b1aa95dcf02b130460d_output.png)\n\n\n这些接口通过输入的语料来源不同进行区分，以输入为整体进行情绪判断，最长1024个字节输入限制，基本适用各种场景下的文本。\n\n2. 细粒度情绪分析（Aspect Based Sentiment Analysis）：结合BBT语言大模型的主体识别能力，进行细粒度情绪计算\n我们已发布产品的情绪计算默认对文本最主要主体进行情绪判断或不带主体的纯语言内涵情绪判断。我们在研发下游任务的过程中发现，如果以主体+情绪，这样的情绪组为输出会复杂化对情绪分析规则的制定，例如“A公司和B公司合作拿到大笔订单”，那么对于A，B来说都是利好消息，但如果是“A比B抢先拿到大笔订单”，那么对A来说就是利好，对B就是消极消息，但这两句话文本和描述的事件却非常相似。这仅仅是一些还比较明确的规则，当涉及到例如收购，合并等更复杂的商业事件中，多主体将会带来更复杂的规则，使得做到准确的情绪判断更加困难。\n\n图2：多主语复杂语句\n![1280X12802.PNG](https://dev-media.amazoncloud.cn/9c427d9980624d41bd74430cddd11584_1280X1280-2.PNG)\n\n我们在对三分类的情绪（积极，中性，消极）判断准确率已经能达到80-90%的情况下，在尝试研发细粒度情绪指数，即对情绪进行更细致的分类，以产生更加具有特征性的情绪分布。细粒度情绪计算能将文本中与情绪表达相关的主体、类别、色彩偏向进行提取和计算。细粒度情绪分析也能帮助提高多主语复杂语句的分析能力。\n\n图3：细粒度情绪指数\n![1280X1280.PNG](https://dev-media.amazoncloud.cn/b3bc1fa400054b39b86cfd24ed018682_1280X1280.PNG)\n\n3. 金融文本在不同场景下的数据特征\n同为对情绪进行打分的下游任务，为何我们还会细分社交媒体，新闻，研报公告等等。这正是我们的专业金融大模型相对于通用语料训练出来的大模型的优势所在。传统大模型通过无差别的语料训练，训练出来一个通用的语义理解模型，但这种通用因为训练语料的局限性也仅限于对日常生活文本的理解。\n\n图4：社交媒体评论\n![1280X1280.PNG](https://dev-media.amazoncloud.cn/d842618b864547b2b1a813730dbf3d49_1280X1280.PNG)\n\n图5：上市公司公告\n![1280X1280.PNG](https://dev-media.amazoncloud.cn/df6ae39b57434e4c80873151cecc15a4_1280X1280.PNG)\n\n图6：研报文本\n![Unknown.png](https://dev-media.amazoncloud.cn/1b613c567eb245dd8a7dcfce73b13c79_Unknown.png)\n\n如上图所示，同为金融类语料，不同来源之间有很大差距，社交媒体偏口语化，包含更多的语言本身所具有情绪色彩，通用大模型在这种场景下还能适用。当场景逐渐开始复杂起来，如新闻，上市公司公告的一些事件，很多语言本身的情绪色彩就被削弱了，更多的是陈述一个客观事实，而这个时候情绪也实际上非传统意义上的“情绪”，我们要开始对一些事件做定义。如我们知道有例外情况，但大多情况下回购股份代表现金流充裕，会推高股价，当一个专业的分析师看到这一个消息时便会认为这是利好消息，而我们也要让模型学习到分析师的这种能力。研报场景下，那么这种情绪会被进一步演化成平实的，具体专业性的逻辑推理与分析，如果用通用模型，出来的结果可能非常中性，因为这些“情绪”都被包含在了对金融类专业知识的理解当中。\n为了学习到不同场景下的“专业”知识，我们在预训练阶段采用了创新性的预训练方法——来源提示法：对不同来源的语料在预训练阶段给予模型一定的提示，使其在底层就形成了一定的场景化理解能力，在预测过程达到更高的准确率。\n\n同时由于我们的语料库十分庞大，以至于在模型预训练的全过程中也只能采样约百分之十的文本进行训练，因此模型势必要对不同来源的语料进行随机采样，如果对所有语料进行简单随机采样，则事实上是对不同来源的语料按大小规模进行混合，这就会导致少部分规模较大的语料主导整个训练过程，所以针我们对不同来源的预训练语料使用了来源相似度加权采样算法，减少模型重复学习，大大提高了模型的学习效率。\n\n图7：来源提示法\n![Unknown.png](https://dev-media.amazoncloud.cn/8e4e1decc4e24fe19b9258c978b6321c_Unknown.png)\n\n图8：不同数据源的比例带来不同的模型理解能力\n![Unknown.png](https://dev-media.amazoncloud.cn/e0de5491c73c4bc4baa23f1171a7bd73_Unknown.png)\n\n图9 ：基于来源比例法的语言预训练方法，Base 版本模型准确度超过T5模型近10%\n![Unknown.png](https://dev-media.amazoncloud.cn/afc0f50d11c947c3a55062086f0f8a0e_Unknown.png)\n\n“情绪”作为从文本到数字的重要量化媒介，在BBT大模型的金融专业类语料的训练下，已经从简单的判断语言情绪色彩升级到了对专业知识以及逻辑的理解。\n\n4. 预训练语言模型能力随参数变大增强\n传统NLP模型是以任务为导向，是监督学习，每一个具体任务都需要进行具体的数据标注，建立词典进行分词，再做训练和预测。预训练大模型是自监督学习，可以用MLM（mask language model）将海量未标注的语料进行预训练，预训练语言模型可以微调之后应用于大量下游任务，微调过程只需小样本乃至零样本，预训练语言大模型在各项下游任务都达到了SOTA，准确率超出传统NLP模型，这里的样本更多的是起到指导模型任务形式的作用，而真正的语义理解能力并非来源于训练样本数据。这点可以在两个方面得到佐证：\n\n- 下游任务中3w训练集和6w训练集表现相同 \n\n|预训练模型|评估|数据集|\n|-|-|-|\n|data1/PLMs/FinMT5_base|bule_score:0.5822|3w|\n|data1/PLMs/FinMT5_base|bule_score:0.5825|6w|\n\n- 2亿参数模型情绪判断准确度不及10亿\n\n|参数|2亿|10亿|\n|-|-|-|\n|情绪准确率|53%|95%|\n\n5. BBT大模型下游任务评测数据集\n\n图10：模型网站\n![Unknown.png](https://dev-media.amazoncloud.cn/b0ae3e2b31d842fca16738e093762a2d_Unknown.png)\n\nBBT预训练大模型下游任务的训练集，由金融专家制定规则，通过交叉打标签对比得出。BBT大模型官网（[https://www.ssymmetry.com:4433/bbt/index.html](https://www.ssymmetry.com:4433/bbt/index.html)）公布了下游任务评测数据集。欢迎不同的金融语言模型团队应用BBT金融评测数据集测试模型的准确度，一起推动金融人工智能算法的发展。","render":"<ol>\n<li>情绪分析API介绍<br />\n我们目前已推出了社交媒体语言情绪分析，新闻情绪分析，两种BBT（BigBang Transformer乾元大模型，详情可见往期文章）大模型情绪类下游任务，后期还会推出研究报告情绪分析，公告情绪分析等多项情绪类的API接口。</li>\n</ol>\n<p>图1：产品结构<br />\n<img src=\"https://dev-media.amazoncloud.cn/b4145de9b2af4b1aa95dcf02b130460d_output.png\" alt=\"output.png\" /></p>\n<p>这些接口通过输入的语料来源不同进行区分，以输入为整体进行情绪判断，最长1024个字节输入限制，基本适用各种场景下的文本。</p>\n<ol start=\"2\">\n<li>细粒度情绪分析（Aspect Based Sentiment Analysis）：结合BBT语言大模型的主体识别能力，进行细粒度情绪计算<br />\n我们已发布产品的情绪计算默认对文本最主要主体进行情绪判断或不带主体的纯语言内涵情绪判断。我们在研发下游任务的过程中发现，如果以主体+情绪，这样的情绪组为输出会复杂化对情绪分析规则的制定，例如“A公司和B公司合作拿到大笔订单”，那么对于A，B来说都是利好消息，但如果是“A比B抢先拿到大笔订单”，那么对A来说就是利好，对B就是消极消息，但这两句话文本和描述的事件却非常相似。这仅仅是一些还比较明确的规则，当涉及到例如收购，合并等更复杂的商业事件中，多主体将会带来更复杂的规则，使得做到准确的情绪判断更加困难。</li>\n</ol>\n<p>图2：多主语复杂语句<br />\n<img src=\"https://dev-media.amazoncloud.cn/9c427d9980624d41bd74430cddd11584_1280X1280-2.PNG\" alt=\"1280X12802.PNG\" /></p>\n<p>我们在对三分类的情绪（积极，中性，消极）判断准确率已经能达到80-90%的情况下，在尝试研发细粒度情绪指数，即对情绪进行更细致的分类，以产生更加具有特征性的情绪分布。细粒度情绪计算能将文本中与情绪表达相关的主体、类别、色彩偏向进行提取和计算。细粒度情绪分析也能帮助提高多主语复杂语句的分析能力。</p>\n<p>图3：细粒度情绪指数<br />\n<img src=\"https://dev-media.amazoncloud.cn/b3bc1fa400054b39b86cfd24ed018682_1280X1280.PNG\" alt=\"1280X1280.PNG\" /></p>\n<ol start=\"3\">\n<li>金融文本在不同场景下的数据特征<br />\n同为对情绪进行打分的下游任务，为何我们还会细分社交媒体，新闻，研报公告等等。这正是我们的专业金融大模型相对于通用语料训练出来的大模型的优势所在。传统大模型通过无差别的语料训练，训练出来一个通用的语义理解模型，但这种通用因为训练语料的局限性也仅限于对日常生活文本的理解。</li>\n</ol>\n<p>图4：社交媒体评论<br />\n<img src=\"https://dev-media.amazoncloud.cn/d842618b864547b2b1a813730dbf3d49_1280X1280.PNG\" alt=\"1280X1280.PNG\" /></p>\n<p>图5：上市公司公告<br />\n<img src=\"https://dev-media.amazoncloud.cn/df6ae39b57434e4c80873151cecc15a4_1280X1280.PNG\" alt=\"1280X1280.PNG\" /></p>\n<p>图6：研报文本<br />\n<img src=\"https://dev-media.amazoncloud.cn/1b613c567eb245dd8a7dcfce73b13c79_Unknown.png\" alt=\"Unknown.png\" /></p>\n<p>如上图所示，同为金融类语料，不同来源之间有很大差距，社交媒体偏口语化，包含更多的语言本身所具有情绪色彩，通用大模型在这种场景下还能适用。当场景逐渐开始复杂起来，如新闻，上市公司公告的一些事件，很多语言本身的情绪色彩就被削弱了，更多的是陈述一个客观事实，而这个时候情绪也实际上非传统意义上的“情绪”，我们要开始对一些事件做定义。如我们知道有例外情况，但大多情况下回购股份代表现金流充裕，会推高股价，当一个专业的分析师看到这一个消息时便会认为这是利好消息，而我们也要让模型学习到分析师的这种能力。研报场景下，那么这种情绪会被进一步演化成平实的，具体专业性的逻辑推理与分析，如果用通用模型，出来的结果可能非常中性，因为这些“情绪”都被包含在了对金融类专业知识的理解当中。<br />\n为了学习到不同场景下的“专业”知识，我们在预训练阶段采用了创新性的预训练方法——来源提示法：对不同来源的语料在预训练阶段给予模型一定的提示，使其在底层就形成了一定的场景化理解能力，在预测过程达到更高的准确率。</p>\n<p>同时由于我们的语料库十分庞大，以至于在模型预训练的全过程中也只能采样约百分之十的文本进行训练，因此模型势必要对不同来源的语料进行随机采样，如果对所有语料进行简单随机采样，则事实上是对不同来源的语料按大小规模进行混合，这就会导致少部分规模较大的语料主导整个训练过程，所以针我们对不同来源的预训练语料使用了来源相似度加权采样算法，减少模型重复学习，大大提高了模型的学习效率。</p>\n<p>图7：来源提示法<br />\n<img src=\"https://dev-media.amazoncloud.cn/8e4e1decc4e24fe19b9258c978b6321c_Unknown.png\" alt=\"Unknown.png\" /></p>\n<p>图8：不同数据源的比例带来不同的模型理解能力<br />\n<img src=\"https://dev-media.amazoncloud.cn/e0de5491c73c4bc4baa23f1171a7bd73_Unknown.png\" alt=\"Unknown.png\" /></p>\n<p>图9 ：基于来源比例法的语言预训练方法，Base 版本模型准确度超过T5模型近10%<br />\n<img src=\"https://dev-media.amazoncloud.cn/afc0f50d11c947c3a55062086f0f8a0e_Unknown.png\" alt=\"Unknown.png\" /></p>\n<p>“情绪”作为从文本到数字的重要量化媒介，在BBT大模型的金融专业类语料的训练下，已经从简单的判断语言情绪色彩升级到了对专业知识以及逻辑的理解。</p>\n<ol start=\"4\">\n<li>预训练语言模型能力随参数变大增强<br />\n传统NLP模型是以任务为导向，是监督学习，每一个具体任务都需要进行具体的数据标注，建立词典进行分词，再做训练和预测。预训练大模型是自监督学习，可以用MLM（mask language model）将海量未标注的语料进行预训练，预训练语言模型可以微调之后应用于大量下游任务，微调过程只需小样本乃至零样本，预训练语言大模型在各项下游任务都达到了SOTA，准确率超出传统NLP模型，这里的样本更多的是起到指导模型任务形式的作用，而真正的语义理解能力并非来源于训练样本数据。这点可以在两个方面得到佐证：</li>\n</ol>\n<ul>\n<li>下游任务中3w训练集和6w训练集表现相同</li>\n</ul>\n<table>\n<thead>\n<tr>\n<th>预训练模型</th>\n<th>评估</th>\n<th>数据集</th>\n</tr>\n</thead>\n<tbody>\n<tr>\n<td>data1/PLMs/FinMT5_base</td>\n<td>bule_score:0.5822</td>\n<td>3w</td>\n</tr>\n<tr>\n<td>data1/PLMs/FinMT5_base</td>\n<td>bule_score:0.5825</td>\n<td>6w</td>\n</tr>\n</tbody>\n</table>\n<ul>\n<li>2亿参数模型情绪判断准确度不及10亿</li>\n</ul>\n<table>\n<thead>\n<tr>\n<th>参数</th>\n<th>2亿</th>\n<th>10亿</th>\n</tr>\n</thead>\n<tbody>\n<tr>\n<td>情绪准确率</td>\n<td>53%</td>\n<td>95%</td>\n</tr>\n</tbody>\n</table>\n<ol start=\"5\">\n<li>BBT大模型下游任务评测数据集</li>\n</ol>\n<p>图10：模型网站<br />\n<img src=\"https://dev-media.amazoncloud.cn/b0ae3e2b31d842fca16738e093762a2d_Unknown.png\" alt=\"Unknown.png\" /></p>\n<p>BBT预训练大模型下游任务的训练集，由金融专家制定规则，通过交叉打标签对比得出。BBT大模型官网（<a href=\"https://www.ssymmetry.com:4433/bbt/index.html\" target=\"_blank\">https://www.ssymmetry.com:4433/bbt/index.html</a>）公布了下游任务评测数据集。欢迎不同的金融语言模型团队应用BBT金融评测数据集测试模型的准确度，一起推动金融人工智能算法的发展。</p>\n"}

亚马逊云科技解决方案基于行业客户应用场景及技术领域的解决方案

联系亚马逊云科技专家