公开时间:2020-10-27 22:48:43

这是一篇研究计划书,著作权在本人,请勿进行任何转载

并且本人保留关于本文全部内容的一切权利。

基于自然语言处理技术对书籍句段进行情感分析进而推荐适合的阅读背景音乐

研究背景

在如今如此快节奏的时代,信息飞速发展。每一天,全世界会上传超过5亿张图片,每分钟就有20小时时长的视频被分享。然而,即使是人们每天创造的全部信息——包括语音通话、电子邮件和信息在内的各种通信,以及上传的全部图片、视频与音乐,其信息量也无法匹及每一天所创造出的关于人们自身的数字信息量。[L.1] 在如此巨大的信息量后,越来越多的纸质媒介被电子媒介所取代。

随着各类电子书、电纸书的发展与流行,有着便携性与不可替代性,以Amazon推出的Kindle为首的电纸书阅读器迅速席卷了书籍消费市场。越来越多人选择了电子书。但是,可以拥有一段只有一个人的时间来安静地阅读是非常难得的。因此,许多人会选择一边听着轻音乐一边阅读。

如果单纯为了寻找适合读书的音乐,可以随意使用任何一款音乐App,比如Spotify等,搜索关键词“适合读书的音乐”,都会找到很多的不同风格的播放列表。
但是,这样子的方式有一个非常严重的问题。即这些轻音乐歌单的风格迥异,如果不是长时间的接触音乐,或者花很多时间进行歌单曲目的调整,很难非常顺利地找到满足自己喜好的歌单。

同样,找到一个符合故事情节的list也不是一件容易的事情。比如,读者正在阅读一些描述着氛围恐怖的剧情的文字句段,此时由于歌单的不确定性,很有可能会出现非常放松愉快的风格的曲目。另一方面,诸如像推理小说一般的内容,其故事情节转变的部分是非常多样的。因此,无法单一地使用富有悲伤情感的轻音乐作为读书时的背景音乐,也无法单一地使用非常愉快轻松的轻音乐作为读书时播放的背景音乐。想象这样一种场景,你非常喜欢推理小说,并且正在阅读一段情感非常悲伤的内容时,耳机中突然传出来了情感异常欢快的轻音乐的时候,阅读的心情会不会就此消失呢,作者精心营造出来的环境与氛围会不会被轻易毁灭呢。

鉴于上述原因,本课题意在研究利用自然语言处理技术,对于用户正在阅读部分文字内容进行结合前后文的多维度感情情感分析

先行研究

音乐对阅读的影响

2006年,李宁宁、李洪玉对72名中学生为对象进行试验,发现不同类型的背景音乐对于不同年级的被试者产生了不同程度的影响。结论还表示,对于是否拥有阅读时背景音乐偏好的群体,其阅读时背景音乐的影响力不同。对于所有群体来说,旋律柔和的背景音乐拥有明显的促进作用;对于无背景音乐喜好的中学生来说,流行音乐产生了不同程度的负向影响(即削减阅读速度);而对于有背景音乐喜好的群体来说,流行音乐不会产生明显的干扰作用。[13]

2008年,陈丹、隋雪等人对于21名大学生进行试验,通过眼动模式、瞳孔缩放、注视次数等维度的测定,发现先导音乐促进了阅读效率的提升;而对比无音乐条件,拥有北京音乐会对阅读产生负向的影响。[14]

人类的阅读,并不是时刻都可以发生在拥有绝对“安静”的场所。诸如嘈杂的广场、通勤中的电车中等等。但是像图书馆这类相对“相对安静”的场所,也无法保证绝对的安静。并且有试验表明,“相对安静”存在一种“本底噪声”的概念,意思是过于安静会使得突发的峰值噪声(如讲话、咳嗽、桌椅移动等)更为突出,对人脑会产生更为强烈的刺激。而轻微的峰值噪声可以越过音量强度较小的本底噪声,被人立刻感知并分散注意力。而使用背景音乐则可以消除这类干扰。在阅读时播放音量、节奏旋律适宜的背景音乐,可以在覆盖本底噪声的基础上,以“良性噪声”的方式轻微提高本底噪声的强度,稳定在一定的分贝上,降低人类对外界噪声的敏感性,进而以缓解人类对突发噪声的感知所收到的对于大脑的冲击。[15]

文字解析(词语划分)

对于汉语、日语等,这类没有明确的词界标记的语言,其对应标记化的过程不像英语那样琐碎,但是需要进行分词。分词问题是一个顺序标注问题。条件随机场(CRFs)[3]已经应用于这个问题,并且比隐马尔可夫模型和最大熵马尔可夫模型[4], [5], [6]表现更好。近年来,基于嵌入词和深度学习的方法已经被应用到中文分词中。[7], [8]

日语依靠主次或者助动词的黏着来表示每个词语在句子中的成分,对于日语分词可以借助主次和助动词的识别。[10]

日语中动词、形容词、形容动词和助动词均有其对应的活用形式。在句子中词语的活用会影响邻接关系,因此可以借助这一点构建分词算法。

现如今使用广泛的日文开元识别系统有京都大学的黑桥·河原研究室的PyKNP、奈良先端科学技术大学院大学工藤拓主导开发的CaboCha以及Yahoo!公司开发的Yahoo!Dependency Parser等。

情感分析

情感是抽象、模糊、不易描述的。因此,人们更倾向于使用多种隐喻以表述情感。隐喻是建立在人类生理体验之上的,对复杂、抽象情感进行概念化的一种手段,是情感表达的一种重要方式。但时,情感隐喻是不容易识别的,需要大量的高质量情感隐喻语料库,才可以使情感隐喻识别能力提升。[9]

传统的基于注意力的深度学习模型缺乏对待分析语句的主题特征和情感信息等内容的有效关注。因此,针对此问题,再实验基于深层注意力的LSTM的特定主题情感分析中,构建了融合主题特征的深层注意力的LSTM模型,通过共享权重的双向LSTM将主题词向量和文本词向量进行训练,得到的内容是主题特征和文本特征进行特征融合后的产物,然后再经过深层注意力机制的处理,由分类器得到相应主题的情感分类结果。结果表明,再数据SemEval-2014 Task4以及SemEval-2017 Task4中,该分析方式要相较于之前的基于注意力的情感分析模型拥有更高的准确率和稳定性。[12]

而对于同一段文字而言,拥有两类情绪:作者情绪(作者写下这些文字时内心的情绪)和读者情绪(读者在阅读这段文字时内心产生的情绪)

山本湧輝、 熊本忠彦、灘本明代等人在2014年度情報処理学会関西支部 支部大会的《Twitter 特有表現を考慮したツイートの多次元感情抽出手法の提案》中提出对文字提取6个维度的情感轴、从名言警句或者表达情感的用语中提取具体内容。利用这些结果,分析用户所发推文,并且从中选取最适合用户当时情感的名言。[16]

在山本等人的研究中,提到了由于Twitter中人们的推文包含大量口语化的内容(比如口语词和混乱使用的语法等),因此还需要使用由Yahoo!映画的评论所组成的口语词字典。

这一点对于小说等包含口语化内容的文字同样适用,但是由于这样的文字往往是存在口语和书面语混杂的问题,因此需要进一步进行讨论。

多维度情感分析

2017年,姜霖、张麒麟提出了通过选取特定对象,分析其相关评价数据,抽取重点关注,进行细粒度的情感分析,从总体上来评价特定对象。[11]

2019年,朱苏阳等人提出了基于对抗神经网络模型的情绪分类与情绪回归的相关研究。

由于传统情绪分类大多使用情绪分类语料库,而不同情绪语料库往往使用的是不同情绪的分类体系。因而,这些语料库的分类模型往往无法适用于其他语料库中,需要在新的语料上重新进行训练。

在情绪回归方面,其现成的语料库数量极少,并且鲜有规模较大的情绪回归语料库。

研究目的

本研究基于词语之间通过BiLSTM识别得到单独语句的情感,通过多句内容实现结合前后文(句)的句子情感分析方式,意在寻找一种更加高效的以小说文本为例的句子之间的情感分析方式,构建一系列的实验,并同时引入推荐系统,期待可以以最小单位的文本情感推荐符合情感与氛围的声音旋律。

研究计划

  • 选取不同的文本类型,了解不同种类的文本预处理方式。
  • 尝试采用不同方式对文本进行分割(文本向量化),对不同类型的文本找到最适合的分割方案。
  • 逐步以句为最小单位依次进项文本数据化处理。
  • 对句子进行分词处理
  • 通过BiLSTM算法,分析单独句子内部的情感和其包含(或隐含)的情感与场景。
  • 采用多维度方式对句子进行情感评分。
  • 重新以前后文的最小单位句进行迭代化学习,尝试找到最合适的前后文句段长度。
  • 以最合适的前后文句段长度为标准重复迭代学习,检测长度范围的可行性。
  • 以人工标注数据的方式进行验证。
  • 以多维度的情感对文本句段进行分类。
  • 按照相同、相似的标准进行曲库的构建。
  • 整合上述功能,发布为移动设备应用软件,以用户反馈数据、软件自动收集数据进行分析,以检验功能可行性与可改进性。

预期结果

本研究通过对小说、文学等文字进行分析,期望实现符合原文原意或文字、语言中包含的潜在含义的情感界定与分类,根据分类随时无缝衔接式切换与用户当前阅读文字句段含有相同情感的音乐作为用户阅读时的背景音乐。

参考链接

[L.1] 大数据时代下的大数据到底有多大?中国大数据[日期2014-03-06]:http://www.thebigdata.cn/QiTa/8608.html

[L.2] 详解BiLSTM及代码实现:https://zhuanlan.zhihu.com/p/47802053

参考文献

[1] Jacobs, A. (2015). Towards a neurocognitive poetics model of literary reading. In R. Willems (Ed.), Cognitive Neuroscience of Natural Language Use (pp. 135-159). Cambridge: Cambridge University Press. doi:10.1017/CBO9781107323667.007

[2] Shiliang Sun, Chen Luo, Junyu Chen, A review of natural language processing techniques for opinion mining systems, Information Fusion, Volume 36, 2017, Pages 10-25, ISSN 1566-2535, https://doi.org/10.1016/j.inffus.2016.10.004.

[3] J.D. Lafferty, A. McCallum, F.C.N. Pereira, Conditional random fields: probabilistic models for segmenting and labeling sequence data, Proceedings of the 8th International Conference on Machine Learning (2001), pp. 282-289

[4] F. Peng, F. Feng, A. McCallum, Chinese segmentation and new word detection using conditional random fields, Proceedings of the 20th International Conference on Computational Linguistics (2004), pp. 562-568

[5] T. Kudo, K. Yamamoto, Y. Matsumoto. Applying conditional random fields to Japanese morphological analysis. Proceedings of the Conference on Empirical Methods in Natural Language Processing (2004), pp. 230-237

[6] H. Tseng. A conditional random field word segmenter. Proceedings of the 4th SIGHAN Workshop on Chinese Language Processing (2005), pp. 168-171

[7] J. Ma, E. Hinrichs. Accurate linear-time Chinese word segmentation via embedding matching. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (2015), pp. 1733-1743

[8] X. Chen, X. Qiu, C. Zhu, X. Huang. Gated recursive neural network for Chinese word segmentation. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (2015), pp. 1744-1753

[9] 张冬瑜,杨亮,郑朴琪,徐博,林鸿飞.情感隐喻语料库构建与应用[J].中国科学:信息科学,2015,45(12):1574-1587.

[10] 姜尚仆,陈群秀.基于规则和统计的日语分词和词性标注的研究[J].中文信息学报,2010,24(01):117-122.

[11] 侯艳辉,董慧芳,郝敏,崔雪莲.基于本体特征的影评细粒度情感分类[J].计算机应用,2020,40(04):1074-1078.

[12] 胡朝举, 梁宁. 基于深层注意力的 LSTM 的特定主题情感分析[J]. 计算机应用研究, 2019, 5: 1-3.

[13] 李宁宁, 李洪玉. 背景音乐对中学生阅读理解的影响[J]. 心理与行为研究, 2006, 4(2): 149-153.

[14] 陈丹, 隋雪, 王小东, 等. 音乐对大学生阅读影响的眼动研究[J]. 心理科学, 2008, 31(2): 385-388.

[15] 吴佳丽. 图书馆背景音乐应用之初探[J]. 农业图书情报学刊, 2008, 20(7): 196-198.

[16] 山本湧輝, 熊本忠彦, 灘本明代. Twitter 特有表現を考慮したツイートの多次元感情抽出手法の提案[J]. 2014 年度 情報処理学会関西支部 支部大会 講演論文集, 2014, 2014.

基于自然语言处理技术对书籍句段进行情感分析进而推荐适合的阅读背景音乐

研究背景

在如今如此快节奏的时代,信息飞速发展。每一天,全世界会上传超过5亿张图片,每分钟就有20小时时长的视频被分享。然而再过去,即使是一年内人们每天创造的全部信息综合,包括语音通话、电子邮件和信息在内的各种通信,以及上传的全部图片、视频与音乐,其信息量也无法匹及如今一天人类所创造出的关于人们自身的数字信息量。[^L.1] 在如此巨大的信息量后,越来越多的纸质媒介被电子媒介所取代。

随着各类电子书、电纸书的发展与流行,有着便携性与不可替代性,以Amazon推出的Kindle为首的电纸书阅读器迅速席卷了书籍消费市场。越来越多人选择了电子书。但是,可以拥有一段只有一个人的时间来安静地阅读是非常难得的。因此,许多人会选择一边听着轻音乐一边阅读。

如果单纯为了寻找适合读书的音乐,可以随意使用任何一款音乐App,比如Spotify等,搜索关键词“适合读书的音乐”,都会找到很多的不同风格的播放列表。但是,这样子的方式有一个非常严重的问题。即这些轻音乐歌单的风格迥异,如果不是长时间的接触音乐,或者花很多时间进行歌单曲目的调整,很难非常顺利地找到满足自己喜好的歌单。

同样,找到一个符合故事情节的list也不是一件容易的事情。

因此,是否可以让电子阅读器实现自动为读者选择背景音乐呢?面对这个问题,首先要解决的就是对于读者正在阅读部分的内容的情感分析。而同一段文字中,作者要表达的内容往往伴随着多种情感、氛围的变化。这就要对于一段文字中的不同情感进行分析和捕捉。

因此,本课题意在研究利用自然语言处理技术,对于用户正在阅读部分文字内容进行结合前后文的多维度感情情感分析,并根据情感分析的结果,采用推荐系统,智能推荐相关背景音乐。

先行研究

音乐对阅读的影响

人在当今这个快节奏的时代,阅读,并不是时刻都可以发生在拥有绝对“安静”的场所。诸如嘈杂的广场、通勤中的电车中等等。但是像图书馆这类相对“相对安静”的场所,也无法保证绝对的安静。并且有试验表明,“相对安静”存在一种“本底噪声”的概念,意思是过于安静会使得突发的峰值噪声(如讲话、咳嗽、桌椅移动等)更为突出,对人脑会产生更为强烈的刺激。而轻微的峰值噪声可以越过音量强度较小的本底噪声,被人立刻感知并分散注意力。而使用背景音乐则可以消除这类干扰。在阅读时播放音量、节奏旋律适宜的背景音乐,可以在覆盖本底噪声的基础上,以“良性噪声”的方式轻微提高本底噪声的强度,稳定在一定的分贝上,降低人类对外界噪声的敏感性,进而以缓解人类对突发噪声的感知所收到的对于大脑的冲击。[^15]

文字解析(词语划分)

对于汉语、日语等,这类没有明确的词界标记的语言,其对应标记化的过程不像英语那样琐碎,但是需要进行分词。分词问题是一个顺序标注问题。条件随机场(CRFs)[^3]已经应用于这个问题,并且比隐马尔可夫模型和最大熵马尔可夫模型[^4],[^5],[^6]表现更好。近年来,基于嵌入词和深度学习的方法已经被应用到中文分词中。[^7], [^8]>

而日语依靠主次或者助动词的黏着来表示每个词语在句子中的成分,对于日语分词可以借助主次和助动词的识别。^10

在日语中,动词、形容词、形容动词和助动词均有其对应的活用形式。在句子中词语的活用会影响邻接关系,因此可以借助这一点构建分词算法。

现如今使用广泛的日文开元识别系统有京都大学的黑桥·河原研究室的PyKNP、奈良先端科学技术大学院大学工藤拓主导开发的CaboCha以及Yahoo!公司开发的Yahoo!Dependency Parser等。

情感分析

情感是抽象、模糊、不易描述的。因此,人们更倾向于使用多种隐喻以表述情感。隐喻是建立在人类生理体验之上的,对复杂、抽象情感进行概念化的一种手段,是情感表达的一种重要方式。但时,情感隐喻是不容易识别的,需要大量的高质量情感隐喻语料库,才可以使情感隐喻识别能力提升。^9

而传统的基于注意力的深度学习模型缺乏对待分析语句的主题特征和情感信息等内容的有效关注。因此,针对此问题,再实验基于深层注意力的LSTM的特定主题情感分析中,构建了融合主题特征的深层注意力的LSTM模型,通过共享权重的双向LSTM将主题词向量和文本词向量进行训练,得到的内容是主题特征和文本特征进行特征融合后的产物,然后再经过深层注意力机制的处理,由分类器得到相应主题的情感分类结果。结果表明,再数据SemEval-2014 Task4以及SemEval-2017 Task4中,该分析方式要相较于之前的基于注意力的情感分析模型拥有更高的准确率和稳定性。[^12]

并且,同一段文字拥有两种情绪而言,拥有两类情绪,即:作者情绪(作者写下这些文字时内心的情绪)和读者情绪(读者在阅读这段文字时内心产生的情绪)

山本湧輝、 熊本忠彦、灘本明代等人在2014年度情報処理学会関西支部 支部大会的《Twitter 特有表現を考慮したツイートの多次元感情抽出手法の提案》中提出对文字提取6个维度的情感轴、从名言警句或者表达情感的用语中提取具体内容。利用这些结果,分析用户所发推文,并且从中选取最适合用户当时情感的名言。[^16]

在山本等人的研究中,提到了由于Twitter中人们的推文包含大量口语化的内容(比如口语词和混乱使用的语法等),因此还使用了由Yahoo!映画的评论所组成的口语词字典。

因此,可以针对这一成果,进一步对于文字中出现的对话进行分析。但是,正是由于这样的文字往往是存在口语和书面语混杂的文字中,因此针对这类问题,因此需要进一步进行讨论。

多维度情感分析

2017年,姜霖、张麒麟提出了通过选取特定对象,分析其相关评价数据,抽取重点关注,进行细粒度的情感分析,从总体上来评价特定对象。^11

2019年,朱苏阳等人提出了基于对抗神经网络模型的情绪分类与情绪回归的相关研究。

由于传统情绪分类大多使用情绪分类语料库,而不同情绪语料库往往使用的是不同情绪的分类体系。因而,这些语料库的分类模型往往无法适用于其他语料库中,需要在新的语料上重新进行训练。

在情绪回归方面,其现成的语料库数量极少,并且鲜有规模较大的情绪回归语料库。

基于上述原因,本研究首先需要建立新的情绪回归用语料库,以及使用传统语料库扩大训练适用于多种情绪的情绪分类用语料库。

基于扩充建立的语料库,对于同一段文字尝试分析出作者情绪和读者情绪。提取特殊词语,针对作者的其他作品文字进行抽取特征,从而进行细粒度的局部情感分析。

研究目的

本研究基于词语之间通过BiLSTM识别得到单独语句的情感,通过多句内容实现结合前后文(句)的句子情感分析方式,意在寻找一种更加高效的以小说文本为例的句子之间的情感分析方式,构建一系列的实验,以实现更为高效的段落情感变化分析。在识别结果的基础上,尝试引入并同时引入推荐系统,期待可以实现以最小单位的文本情感推荐符合情感与氛围的声音旋律。

研究计划

  • 选取不同的文本类型,了解不同种类的文本预处理方式。
  • 尝试采用不同方式对文本进行分割(文本向量化),对不同类型的文本找到最适合的分割方案。
  • 逐步以句为最小单位依次进项文本数据化处理。
  • 对句子进行分词处理
  • 通过BiLSTM算法,分析单独句子内部的情感和其包含(或隐含)的情感与场景。
  • 采用多维度方式对句子进行情感评分。
  • 重新以前后文的最小单位句进行迭代化学习,尝试找到最合适的前后文句段长度。
  • 以最合适的前后文句段长度为标准重复迭代学习,检测长度范围的可行性。
  • 以人工标注数据的方式进行验证。
  • 以多维度的情感对文本句段进行分类。
  • 按照相同、相似的标准进行曲库的构建。
  • 整合上述功能,发布为移动设备应用软件,以用户反馈数据、软件自动收集数据进行分析,以检验功能可行性与可改进性。

预期结果

本研究通过对小说、文学等文字进行分析,期望实现符合原文原意或文字、语言中包含的潜在含义的情感界定与分类,捕捉到同一段文字中的多种情感变化。,如果可能,根据分类根据识别结果,基于推荐系统智能选择相关类型的背景音乐,并自动剪辑,随时以达到无缝衔接式切换与用户当前阅读文字句段含有相同情感的音乐作为用户阅读时的背景音乐。

参考链接

[^L.1] 大数据时代下的大数据到底有多大?中国大数据[日期2014-03-06]:http://www.thebigdata.cn/QiTa/8608.html

[^L.2] 详解BiLSTM及代码实现:https://zhuanlan.zhihu.com/p/47802053

参考文献

[^3]: J.D. Lafferty, A. McCallum, F.C.N. Pereira, Conditional random fields: probabilistic models for segmenting and labeling sequence data, Proceedings of the 8th International Conference on Machine Learning (2001), pp. 282-289

[^4]: F. Peng, F. Feng, A. McCallum, Chinese segmentation and new word detection using conditional random fields, Proceedings of the 20th International Conference on Computational Linguistics (2004), pp. 562-568

[^5]: T. Kudo, K. Yamamoto, Y. Matsumoto. Applying conditional random fields to Japanese morphological analysis. Proceedings of the Conference on Empirical Methods in Natural Language Processing (2004), pp. 230-237

[^6]: H. Tseng. A conditional random field word segmenter. Proceedings of the 4th SIGHAN Workshop on Chinese Language Processing (2005), pp. 168-171

[^7]: J. Ma, E. Hinrichs. Accurate linear-time Chinese word segmentation via embedding matching. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (2015), pp. 1733-1743

[^8]: X. Chen, X. Qiu, C. Zhu, X. Huang. Gated recursive neural network for Chinese word segmentation. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (2015), pp. 1744-1753

[^12]: 胡朝举, 梁宁. 基于深层注意力的 LSTM 的特定主题情感分析[J]. 计算机应用研究, 2019, 5: 1-3.

[^15]: 吴佳丽. 图书馆背景音乐应用之初探[J]. 农业图书情报学刊, 2008, 20(7): 196-198.

[^16]: 山本湧輝, 熊本忠彦, 灘本明代. Twitter 特有表現を考慮したツイートの多次元感情抽出手法の提案[J]. 2014 年度 情報処理学会関西支部 支部大会 講演論文集, 2014, 2014.

自然言語処理技術で書籍の分・段落への感情分析より読書背景音楽の推薦研究

研究背景

今のテンポの速い時代には、情報技術は急速に発展している。毎日、世界中のインターネットユーザーは5億枚以上の画像をアップロードし、毎分20時間のビデオが共有される。しかし、昔には、音声通話、電子メール、メッセージを含めた様々な通信、及びアップロードした画像、ビデオ、音楽など人々が毎日創造しているすべての情報を加えてであっても、その情報量は現在一日で生成した、人々自身に関するデジタル情報量に匹敵するものではない。[^L.1]このような膨大な情報量の後、多くの紙媒体が電子媒体に取って代わられてきた。

各種の電子書籍や電子ペーパーは携帯性と代替不可能性の特徴でますます普及しており、Amazonが発売したKindleをはじめとする電子書籍リーダーは急速に書籍の消費市場を席巻している。しかし、自分だけの時間を楽しんで静かに読むことは珍しい。そのため、多くの人は軽音楽を聴きながら読むことを選んだ。

読書に適した音楽を探しているだけであれば、Spotifyのような任意の音楽アプリを使ってもいい。「読書に適した音楽」というキーワードを検索すると、いろいろなスタイルのプレイリストがある。しかし、このような方式には非常に深刻な問題もある。即ち、これらの軽音楽プレイリストのスタイルは全く異なり、長い間音楽に触れたり、プレイリストの曲の調整に多くの時間をかけたりしなければ、自分の好みに合ったリストをうまく見つけることは難しい。

同様に、ストーリーに合ったリストを見つけるのも簡単なことではない。

そのため、電子リーダーに自動的に読者のために背景音楽を選択させることができるか。この問題に対して、まず解決しなければならないのは、読者が読んでいる部分の内容に対する感情分析である。同じ章で作者が表現する内容は、多種の感情、雰囲気の変化を伴っている。これはある文字の中の異なる感情を分析し、捕らなければならない。

そこで、本研究は、自然言語処理技術を利用して、ユーザが読んでいる内容について前後の文を結合する多次元感情解析を行い、感情解析の結果に基づいて推薦システムを採用し、関連する背景音楽をスマートに推薦することを目的としている。

先行研究

音楽が読書に与える影響

今のテンポの速い時代に、読書は、絶対的な「静かさ」を持つ場所で常にするわけではない。例えば騒がしい広場や通勤中の電車の中など。しかし、図書館のような「比較的静かな」場所でも、絶対的な静かさを保証することはできない。また、「比較的静か」には「バックグラウンドノイズ」という概念が存在することが実証されており、静かすぎると突発的なピークノイズ(例えば、談話、咳、テーブルや椅子の移動など)がより顕著になり、ヒトの脳により強い刺激を与えることを意味している。そして、軽微なピークノイズは音量強度の小さいバックグラウンドノイズを越え、人にすぐに知覚され、気を取られてしまう。背景音楽を使用すると、このようなノイズを除去できる。読書の時に音量、リズムとメロディーが適切な背景音楽を再生することは、バックグラウンドノイズをカバーした上で、「良性ノイズ」の方式でバックグラウンドノイズの強度を軽く高め、一定のデシベルで安定させ、ヒトの外部ノイズに対する感受性を低下させ、さらにヒトの突発ノイズに対する感知が受ける脳への衝撃を緩和することができる。[^15]

文字解析(単語分割)

中国語、日本語など明確な単語境界タグが付けていない言語に対しては、タグ化に対応する過程が英語ほど些細ではないが、単語分割が必要である。単語分割の問題は順序表記の問題である。条件付き確率場(CRFs)[^3]はすでにこの問題に適用されており、隠れマルコフモデルや最大エントロピーマルコフモデル[^4],[^5],[^6]よりも優れている。近年、埋め込み語と深層学習に基づく方法が中国語の単語分割に適用されている。[^7], [^8]>

日本語は主次または助動詞の膠着によって文中の各単語の成分を表し、日本語の単語分割については主次と助動詞の識別を採用することができる。^10

日本語では、動詞、形容詞、形容動詞、助動詞はそれぞれに対応する活用形態がある。文における単語の活用は隣接関係に影響するため、この点を利用して単語分割アルゴリズムを構築することができる。

現在、広く使われている日本語構文認識システムは、京都大学の黒橋・河原研究室のPyKNP、奈良先端科学技術大学院大学の工藤拓が開発したCaboCha、及びYahoo! 会社が開発したYahoo! DependencyParserなどがある。

感情分析

感情は抽象的で、曖昧で説明しにくいことである。したがって、人々は感情を表現するために多くのメタファーを使用する傾向がある。メタファーは人間の生理体験に基づいて構築されている復雑で抽象的な感情を概念化する手段であり、感情表現の重要な方法である。しかし、感情メタファーは容易には識別できず、感情メタファーの識別能力を向上させるためには大量の高品質な感情メタファーコーパスが必要である。^9

伝統的な注意力に基づく深層学習モデルは「文の主題特徴や感情情報」などのコンテンツ分析に有効な関心が欠けている。そこで、この問題に対して、本研究は深層注意力に基づくLSTMの特定テーマ感情分析において、テーマ特徴の深層注意力を融合させたLSTMモデルを構築し、重みを共有する双方向LSTMで、テーマワードベクトルとテキストワードベクトルを訓練し、テーマ特徴とテキスト特徴を特徴融合したものを得え、深層注意力機構の処理を経て、分類器で対応するテーマの感情分類結果を得る。その結果、データSemEval-2014Task4およびSemEval-2017Task4において、この分析方式は従来の注意力に基づく感情分析モデルと比べて、よりも高い精度と安定性を有していることが分かった。 [^12]

また、同じ文字には二つの感情がある。即ち、作者の感情(作者がこの文字を書いたときの感情)と読者の感情(読者がこの文字を読んだときの感情)

山本涌輝、熊本忠彦、灘本明代らは2014年度情報処理学会関西支部大会の『Twitter特有表現を考慮したツイートの多次元感情抽出手法の提案』で、文字に対して6次元の感情軸を抽出し、名言警句や感情表現の用語から具体的な内容を抽出することを提案した。これらの結果を利用して、ユーザーの投稿したツイートを分析し、その中からユーザーの当時の感情に最適な名言を選択する。
[^16]

山本らの研究では、Twitterにおけるユーザーの投稿したツイートに口語化された内容(例えば話し言葉や混乱に使われる文法など)が多く含まれているため、Yahoo! 映画のコメントからなる口語辞書が使われていると述べていた。

したがって、この成果について文字に現れる会話をさらに分析することができるが、このような文字は話し言葉と書き言葉が混ざった文字に存在することが多いため、このような問題についてはさらに検討する必要がある。

多次元の感情分析

2017年、姜霖、張麒麟は特定の対象を選び、その関連評価データを分析し、重点注目を抽出し、細粒度感情解析を行い、全体的に特定の対象を評価することを提案した。^11

2019年、朱蘇陽らは敵対的生成ネットワークモデルに基づく情緒分類と情緒回帰に関する研究を発表した。

従来の情緒分類は情緒分類コーパスを使用することが多い、情緒コーパスによって異なる情緒分類体系が使用される。したがって、これらのコーパスの分類モデルは他のコーパスには適用されない場合が多く、新しいコーパスで訓練を行い直す必要がある。

情緒回帰の面では、既成のコーパスの数が極めて少なく、規模の大きい情緒回帰コーパスはあまりない。

上記の理由を踏まえ、本研究ではまず新しい情緒回帰用コーパスを作成し、伝統的なコーパスを用いて訓練を拡張し、多様な情緒に適した情緒分類用コーパスを作成する必要がある。

拡張作成したコーパスに基づいて、同じ文字に対して著者の感情と読者の感情を分析してみる。特殊な語句を抽出し、著者の他の作品の文字に対して特徴を抽出し、局所の細粒度感情解析を行う。

研究目的

本研究は、単語の間のBiLSTM認識によって得られた単独の文の感情に基づいて、複数の文の内容で前後の段落(文)を結合する文の感情分析方式を実現して、小説のテキストを例にした文間の感情分析のより効率的な方法を探し、一連の実験を構築し、より効率的な段落の感情変化分析を実現することを意図している。認識結果に基づいて推薦システムの導入を試み、最小単位のテキスト感情で感情と雰囲気に合った音楽メロディーを推薦できることを期待する。

研究計画

  • 異なるテキストのタイプを選択して、異なる種類のテキスト前処理方法を理解する。
  • テキストを異なる方法で分割(テキストベクトル化)し、異なるタイプのテキストに対して最適な分割スキームを見つける。
  • 段階的に文を最小単位として、順次テキストデータ化処理を行う。
  • 文に単語分割をする。
  • BiLSTMアルゴリズムにより、個別の文内部の感情とそれに含まれる(または暗示する)感情とシーンを分析する。
  • 多次元的な方法を用いて文を感情的に採点する。
  • 前後文の最小単位文に再び反復学習をし、最適な前後文の分・段落の長さを見つけることを試みる。
  • 最適な前後文の分・段落の長さを基準に反復学習を繰り返し、長さ範囲の実行可能性を検出する。
  • データを人手でマークするように検証する。
  • 多次元的な感情でテキストの分・段落を分類する。
  • 同じな、似たような基準でライブラリの構築を行う。
  • 上記の機能を統合し、モバイルデバイスアプリケーションとして配布し、ユーザーフィードバックデータ、ソフトウェア自動収集データで分析し、機能の実行可能性と向上性を検証する。

予期結果

本研究では、小説、文学などの文字を分析することによって、原文の原意や文字、言語に含まれる潜在的な意味に合致する感情の定義と分類を実現し、同じ文字に含まれる多くの感情の変化を捉えることを期待している。可能であれば、認識結果を踏まえ、推薦システムに基づいて関連するタイプの背景音楽をインテリジェントに選択し、自動的に編集して、ユーザが現在読んでいる文字と同じ感情を持つ音楽を背景音楽としてシームレスに切り替えるように自動的にクリップする。

参考链接

[^L.1] 大数据时代下的大数据到底有多大?中国大数据[日期2014-03-06]:http://www.thebigdata.cn/QiTa/8608.html

[^L.2] 详解BiLSTM及代码实现:https://zhuanlan.zhihu.com/p/47802053

参考文献

[^3]: J.D. Lafferty, A. McCallum, F.C.N. Pereira, Conditional random fields: probabilistic models for segmenting and labeling sequence data, Proceedings of the 8th International Conference on Machine Learning (2001), pp. 282-289

[^4]: F. Peng, F. Feng, A. McCallum, Chinese segmentation and new word detection using conditional random fields, Proceedings of the 20th International Conference on Computational Linguistics (2004), pp. 562-568

[^5]: T. Kudo, K. Yamamoto, Y. Matsumoto. Applying conditional random fields to Japanese morphological analysis. Proceedings of the Conference on Empirical Methods in Natural Language Processing (2004), pp. 230-237

[^6]: H. Tseng. A conditional random field word segmenter. Proceedings of the 4th SIGHAN Workshop on Chinese Language Processing (2005), pp. 168-171

[^7]: J. Ma, E. Hinrichs. Accurate linear-time Chinese word segmentation via embedding matching. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (2015), pp. 1733-1743

[^8]: X. Chen, X. Qiu, C. Zhu, X. Huang. Gated recursive neural network for Chinese word segmentation. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (2015), pp. 1744-1753

[^12]: 胡朝举, 梁宁. 基于深层注意力的 LSTM 的特定主题情感分析[J]. 计算机应用研究, 2019, 5: 1-3.

[^15]: 吴佳丽. 图书馆背景音乐应用之初探[J]. 农业图书情报学刊, 2008, 20(7): 196-198.

[^16]: 山本湧輝, 熊本忠彦, 灘本明代. Twitter 特有表現を考慮したツイートの多次元感情抽出手法の提案[J]. 2014 年度 情報処理学会関西支部 支部大会 講演論文集, 2014, 2014.