这是一篇研究计划书,著作权在本人,请勿进行任何转载

并且本人保留关于本文全部内容的一切权利。

利用生成对抗网络技术的平面动漫角色形象生成的研究

研究背景

近些年来,日本的AGC行业发展迅猛,无论是漫画还是动画,在其制作的过程中少不了需要人工绘制大量的图片。

但是现如今,随着时间的推移和社会的发展,伴随着少子化问题和劳动力短缺越来越严重的问题,根据日本帝国数据库发布的报告《动画制作业界动向调查(2019年)》^L.4中数据表明,在大环境下插画师和动画师人才不足的问题越发突显,企业不得不通过人才培养和设备投资来提高生产效率,并通过单价谈判等方面,来确保稳定的收益。另一方面,工作量的增加也让制作安排过密等问题出现,劳动环境的改善也是当务之急。此外,在海外市场方面,近年中国企业和其他海外新兴企业的制作水平不断提升,日本的动画制作企业也面临着挑战。并且,日本企业还得密切留意海外播放平台的流动性。

并且对于这类作品,消费者的要求在逐渐提升,具体表现在观众们对于动漫中作画水准的需求愈渐增长。因此一部作品的完成比起过去来说就会需要更多的更高质量的中间画。

举个例子,在中国,新海诚导演的作品,有着“每一帧截图都能做背景”的说法。完成这样一部复杂的作品,如19年在日本上映的有着很高人气的《天气之子》,其作画相比前作有着更高质量的内容。全部靠人工来完成这样一部作品的话,很明显是需要着非常久的制作时间和资金以及人员投入的。

因此如果可以借助一些技术,快速地自动化(或半自动化)完成中间画等内容的制作(或者辅助制作),使画师更加投入于创作,将需要重复、非常耗时的工作完全交给计算机去处理,不但会提升作品整体的完成效率,更能提升作品的精良程度,从而降低从业者的工作压力。

先行研究

Create Anime Characters With A.I.

来自复旦大学、纽约州立大学石溪分校和同济大学的一些研究者打造了一个基于GAN的动漫人物面部图像生成器。该项目尝试解决了通过模型生成的动漫人物面部图像会出现模糊、扭曲、变形等问题,提出了一种可以相当成功地生成高质量动漫人物面部图像的模型。[^1]

由于要建立一个高质量的模型,因此该实验使用了在Getchu上销售的游戏的立绘图像作为数据集。其立绘具有足够的多样性,由于它们具有不同的风格,来自不同主题的游戏;又由于全部都是人物图像,因此具有很好的一致性。

实验采用了Illustration2Vec进行数据集的分类与特征提取[^L.1], [^L.2]

Illustration2Vec: A Semantic Vector Representation of Illustrations

来自日本东京大学的Masaki Saito提出一种可以帮助绘画初学者快速找到符合自己想法的绘画参考。该项目提出了如何对二次元角色图片进行语义定义,使基于海明距离的最近邻查找成为了可能。[^2]该实验还实现了根据给出的两张图片寻找结语所给出图片之间的绘画风格的作品。

在机器学习框架Keras中,可以直接使用ImageNet中预先训练好的模型,取出其中的后几层输出,即可实现图片的向量化。但在该实验中,作者选取了1539个标签,并由此训练出了一个多标签的分类模型。其中模型的特征提取部分服用了VGG16,但是作者考虑到标签预测需要更多地着眼于图片的细节部分,因此作者使用NIN网络代替了VGG网络。激活函数使用Sigmoid函数,损失函数使用交叉熵损失函数

作者在以上多标签分类网络的基础上,在最后一层输出之前,再插入一个sigmoid层,为的是得到图片的二进制向量表示,即对输入图片的特征值进行归一化。如果需要得到01向量,只需要将sigmoid层的值做阈值为0.5的二值化即可。

DCNNによるマンガキャラクターの顔パーツ検出

TadaoYamaoka提出了一种基于DCNN的检测漫画角色脸部的方法。^L.5

dlib方式对于真实人脸的表现良好[^3],但是对于漫画人物的面部识别无效。因此作者对于DCNN方式进行了实验,由于DCNN对于各种图像均具有通用性,因此采用该方法。

作者采用16个过滤器(即卷积核),内核尺寸4×44 \times 4;32个过滤器(即卷积核),内核尺寸5×55 \times 5;64个过滤器(即卷积核),内核尺寸5×55 \times 5。其最大采样层均为2×22 \times 2,激活函数均为ReLU。节点数为400的全连接网络。输出层为 特征点数 × 2个节点。

考虑使用两种算法进行模型学习[^4]

SGD

SGD每次更新时对每个样本进行梯度更新,对于很大的数据集来说,可能会有相似的样本,SGD一次只进行一次更新,就没有冗余,而且比较快,并且可以新增样本。

θ=θηθI(θ;  xi;yi)\theta=\theta-\eta\cdot\nabla_\theta\mathfrak I(\theta;\;x^i;y^i)

缺点:

  • SGD 因为更新比较频繁,会造成 cost function 有严重的震荡。
  • BGD 可以收敛到局部极小值,当然 SGD 的震荡可能会跳到更好的局部极小值处。
  • 当我们稍微减小 learning rate,SGD 和 BGD 的收敛性是一样的。

RMSprop

RMSprop 是 Geoff Hinton 提出的一种自适应学习率方法,是为了解决 Adagrad 学习率急剧下降问题的,其梯度更新规则:
使用的是指数加权平均,旨在消除梯度下降中的摆动,某一维度的导数比较大,则指数加权平均就大,某一维度的导数比较小,则其指数加权平均就小,这样就保证了各维度导数都在一个量级,进而减少了摆动。允许使用一个更大的学习率η

E[g2]t=0.9E[g2]t1+0.1gt2{\mathrm E\lbrack}\mathrm g^2\rbrack_t=0.9{\mathrm E\lbrack}\mathrm g^2\rbrack_{t-1}+0.1g_t^2

θt+1=θtηE[g2]t+εgt\theta_{t+1}=\theta_{t}-\frac\eta{\sqrt{E{\lbrack g^2\rbrack}_t+\varepsilon}}g_t

超参数设定值:Hinton 建议设定 γ 为 0.9, 学习率 η 为 0.001。

使用SGD作为学习算法进行模型训练,采用均方误差作为损失函数,结果发现在输入图片条件不同情况下会出现监测点偏差位置较大等问题,因此使用RMSprop作为学习算法进行重新训练,损失函数值大幅度下降,因此可以快速收敛。

在检测结果上发现在RMSprop算法上有着比SGD算法更好的结果精确性,眼睛和嘴巴的位置可以较为精确地被检测出来。

研究目的

基于深度学习和生成对抗网络技术,通过学习现有原画的作画风格以及人物特点,并提取相应的特定的特征,生成动漫角色的全身画像,在所生成全身画像的基础上,提高生成画像的精细程度,实现可以输出不同动作和不同着装的人物画像。提升所生成人物的作画细节,进而提升所生成人物角色画像的总体质量。

研究计划

  • 尝试复现PI-REC方法[^5]
  • 对于生成的图像进行筛选,尝试调整PI-REC方法
  • 尝试使用基于PSGAN的方式,结合pose生成角色的全身像。[^7]
  • 修改上述PI-REC方法,使之可以生成较高质量的线稿。
  • 将生成的全身像去除涂色,保留线稿,与PSGAN方式所生成线稿进行结合
  • 尝试使用基于风格迁移的方式对线稿进行上色。[^8]
  • 以基于全自动精确瞳色上色[^6]对生成角色的头像中瞳色进行重新调整。
  • 寻找一种可以将生成结果高质量放大的算法。
  • 整合上述方法。

预期结果

可以由给定的Hand drawn draft、color domain以及pose信息,基于PI-REC方法[^5]进行AI自动绘画,结合PSGAN技术,实现生成完整的较高分辨率的全身像。

[^L.1]: Illustration2Vec: A Semantic Vector Representation of Illustrations:https://joshualeung.github.io/2019/01/10/20181218-illustration2vec/

[^L.2]: 二次元イラストの特徴を検出する[illustration2vec]:https://qiita.com/8128/items/c7d53507f23f72daea69

[^1]: Jin Y, Zhang J, Li M, et al. Towards the automatic anime characters creation with generative adversarial networks[J]. arXiv preprint arXiv:1708.05509, 2017.

[^2]: Saito M, Matsui Y. Illustration2vec: a semantic vector representation of illustrations[M]//SIGGRAPH Asia 2015 Technical Briefs. 2015: 1-4.

[^3]: Kazemi V, Sullivan J. One millisecond face alignment with an ensemble of regression trees[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 1867-1874.

[^4]: Ruder S. An overview of gradient descent optimization algorithms[J]. arXiv preprint arXiv:1609.04747, 2016.

[^5]: You S, You N, Pan M. PI-REC: progressive image reconstruction network with edge and color domain[J]. arXiv preprint arXiv:1903.10146, 2019.

[^6]: Akita K, Morimoto Y, Tsuruno R. Fully automatic colorization for anime character considering accurate eye colors[M]//ACM SIGGRAPH 2019 Posters. 2019: 1-2.

[^7]: Jiang W, Liu S, Gao C, et al. Psgan: Pose and expression robust spatial-aware gan for customizable makeup transfer[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 5194-5202.

[^8]: Zhang L, Ji Y, Lin X, et al. Style transfer for anime sketches with enhanced residual u-net and auxiliary classifier gan[C]//2017 4th IAPR Asian Conference on Pattern Recognition (ACPR). IEEE, 2017: 506-511.

基于深度学习和生成对抗网络技术的平面动漫角色形象生成研究

研究背景

近些年来,日本的 AGC 行业发展迅猛,无论是漫画还是动画,在其制作的过程中都少不了需要人工绘制大量的图片。

但随着时间的推移和社会的发展,少子化和劳动力短缺等问题越来越严重,根据日本帝国数据库发布的《动画制作业界动向调查(2019 年)》^L.4报告可知,大环境下的插画师和动画师人才不足的问题越发突显,企业不得不通过人才培养和设备投资来提高生产效率,且通过单价谈判等来确保收益的稳定。另一方面,工作量的增加也导致了制作安排过密等问题的出现,劳动环境的改善也已成为当务之急。此外,在海外市场方面,近年中国企业和其他海外新兴企业的制作水平不断提升,日本的动画制作企业也面临着挑战。

更为显著的是,观众对于动漫中作画水准的要求越来越高,因此一部作品的完成比起过去来说就会需要更多的更高质量的中间画。

例如,在中国,新海诚导演的作品,有着 “每一帧截图都能做背景” 的说法。完成这样一部复杂的作品,如2019 年在日本上映的高人气电影《天气之子》,其作画相比前作质量更高,很明显,如果全部靠人工来完成这样一部作品的话,很明显会耗费很长的时间、资金和人力成本。

因此如果可以借助一些技术,快速地自动化(或半自动化)完成中间画等内容的制作(或者辅助制作),将需要重复且非常耗时的工作完全交给计算机去处理的话,画师们就能更加全身心地投入于创作,这样不但可以提升作品整体的完成率,更能提升作品的品质,降低从业者的工作压力。

先行研究

来自复旦大学、纽约州立大学石溪分校和同济大学的一些研究者打造了一个基于 GAN 的动漫人物面部图像生成器。该项目尝试解决了通过模型生成的动漫人物面部图像会出现模糊、扭曲、变形等问题,提出了一种可以相当成功地生成高质量动漫人物面部图像的模型。[^1]

由于要建立一个高质量的模型,因此该实验使用了在Getchu上销售的游戏的立绘图像作为数据集。其立绘具有足够的多样性,由于它们具有不同的风格,来自不同主题的游戏;又由于全部都是人物图像,因此具有很好的一致性。

实验采用了Illustration2Vec进行数据集的分类与特征提取[^L.1], [^L.2]

来自日本东京大学的Masaki Saito提出一种可以帮助绘画初学者快速找到符合自己想法的绘画参考。该项目提出了如何对二次元角色图片进行语义定义,使基于海明距离的最近邻查找成为了可能。[^2]该实验还实现了根据给出的两张图片寻找结语所给出图片之间的绘画风格的作品。

在机器学习框架Keras中,可以直接使用ImageNet中预先训练好的模型,取出其中的后几层输出,即可实现图片的向量化。但在该实验中,作者选取了1539个标签,并由此训练出了一个多标签的分类模型。其中模型的特征提取部分服用了VGG16,但是作者考虑到标签预测需要更多地着眼于图片的细节部分,因此作者使用NIN网络代替了VGG网络。激活函数使用Sigmoid函数,损失函数使用交叉熵损失函数

作者在以上多标签分类网络的基础上,在最后一层输出之前,再插入一个sigmoid层,为的是得到图片的二进制向量表示,即对输入图片的特征值进行归一化。如果需要得到01向量,只需要将sigmoid层的值做阈值为0.5的二值化即可。

TadaoYamaoka提出了一种基于DCNN的检测漫画角色脸部的方法。^L.5

dlib方式对于真实人脸的表现良好[^3],但是对于漫画人物的面部识别无效。因此作者对于DCNN方式进行了实验,由于DCNN对于各种图像均具有通用性,因此采用该方法。

作者采用16个过滤器(即卷积核),内核尺寸4×44 \times 4;32个过滤器(即卷积核),内核尺寸5×55 \times 5;64个过滤器(即卷积核),内核尺寸5×55 \times 5。其最大采样层均为2×22 \times 2,激活函数均为ReLU。节点数为400的全连接网络。输出层为 特征点数 × 2个节点。

考虑使用两种算法进行模型学习[^4]

SGD

SGD每次更新时对每个样本进行梯度更新,对于很大的数据集来说,可能会有相似的样本,SGD一次只进行一次更新,就没有冗余,而且比较快,并且可以新增样本。

θ=θηθI(θ;  xi;yi)\theta=\theta-\eta\cdot\nabla_\theta\mathfrak I(\theta;\;x^i;y^i)

缺点:

  • SGD 因为更新比较频繁,会造成 cost function 有严重的震荡。
  • BGD 可以收敛到局部极小值,当然 SGD 的震荡可能会跳到更好的局部极小值处。
  • 当我们稍微减小 learning rate,SGD 和 BGD 的收敛性是一样的。

RMSprop

RMSprop 是 Geoff Hinton 提出的一种自适应学习率方法,是为了解决 Adagrad 学习率急剧下降问题的,其梯度更新规则:
使用的是指数加权平均,旨在消除梯度下降中的摆动,某一维度的导数比较大,则指数加权平均就大,某一维度的导数比较小,则其指数加权平均就小,这样就保证了各维度导数都在一个量级,进而减少了摆动。允许使用一个更大的学习率η

E[g2]t=0.9E[g2]t1+0.1gt2{\mathrm E\lbrack}\mathrm g^2\rbrack_t=0.9{\mathrm E\lbrack}\mathrm g^2\rbrack_{t-1}+0.1g_t^2

θt+1=θtηE[g2]t+εgt\theta_{t+1}=\theta_{t}-\frac\eta{\sqrt{E{\lbrack g^2\rbrack}_t+\varepsilon}}g_t

其中超参数设定值:Hinton 建议设定 γ 为 0.9, 学习率 η 为 0.001。

使用SGD作为学习算法进行模型训练,采用均方误差作为损失函数,结果发现在输入图片条件不同情况下会出现监测点偏差位置较大等问题,因此使用RMSprop作为学习算法进行重新训练,损失函数值大幅度下降,因此可以快速收敛。

在检测结果上发现在RMSprop算法上有着比SGD算法更好的结果精确性,眼睛和嘴巴的位置可以较为精确地被检测出来。

DeNA公司发布一项研究,研究街而过表明其成功通过PSGAN(渐进结构式条件生成对抗网络)实现生成全身动漫人物图像,并制作简单动画。[^10]

综合上述内容,将会在日后的研究中寻找一种相较于PSGAN方式更具备优势的网络以及训练方法,进而实现可以生成更高分辨率,更多细节的平面形象,借助面部检测,可以更好地对作色进行优化,使用Masaki Saito提出的方法,找到与生成图像相似风格地现有作品,以及生成相似作品,使为创作者提供更多参考成为可能,弥补全身像生成这部分研究的缺失,为后人研究做铺垫。

研究目的

基于深度学习和生成对抗网络技术,通过学习现有原画的作画风格以及人物特点,并提取相应的特定的特征,生成动漫角色的全身画像,在所生成全身画像的基础上,提高生成画像的精细程度,实现可以输出不同动作和不同着装的人物画像。提升所生成人物的作画细节,进而提升所生成人物角色画像的总体质量。

研究计划

  • 尝试复现PI-REC方法即采用基于GAN的渐进式训练方法,从超稀疏二值边缘以及色块中换源重建真实图像。包括初始化网络模拟阶段,重构初始图像的生成阶段以及微调初始图像以最终生成详细输出的微调阶段。
  • 对于生成的图像进行筛选,尝试调整PI-REC方法
  • 尝试使用基于PSGAN的方式,结合pose生成角色的全身像。
  • 修改上述PI-REC方法,使之可以生成较高质量的线稿。
  • 将生成的全身像去除涂色,保留线稿,与PSGAN方式所生成线稿进行结合
  • 尝试使用基于风格迁移的方式对线稿进行上色。
  • 以基于全自动精确瞳色上色对生成角色的头像中瞳色进行重新调整。
  • 寻找一种可以将生成结果高质量放大的算法。
  • 整合上述方法。

预期结果

可以由给定的Hand drawn draft、color domain以及pose信息,基于PI-REC方法[^5]进行AI自动绘画,结合PSGAN技术,实现生成完整的较高分辨率的全身像。

[^L.1]: Illustration2Vec: A Semantic Vector Representation of Illustrations:https://joshualeung.github.io/2019/01/10/20181218-illustration2vec/

[^L.2]: 二次元イラストの特徴を検出する[illustration2vec]:https://qiita.com/8128/items/c7d53507f23f72daea69

[^1]: Jin Y, Zhang J, Li M, et al. Towards the automatic anime characters creation with generative adversarial networks[J]. arXiv preprint arXiv:1708.05509, 2017.

[^2]: Saito M, Matsui Y. Illustration2vec: a semantic vector representation of illustrations[M]//SIGGRAPH Asia 2015 Technical Briefs. 2015: 1-4.

[^3]: Kazemi V, Sullivan J. One millisecond face alignment with an ensemble of regression trees[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 1867-1874.

[^4]: Ruder S. An overview of gradient descent optimization algorithms[J]. arXiv preprint arXiv:1609.04747, 2016.

[^5]: You S, You N, Pan M. PI-REC: progressive image reconstruction network with edge and color domain[J]. arXiv preprint arXiv:1903.10146, 2019.

[^10]: Jiang W, Liu S, Gao C, et al. Psgan: Pose and expression robust spatial-aware gan for customizable makeup transfer[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 5194-5202.

深層学習と生成対抗ネットワーク技術に基づく平面アニメキャラクターイメージの生成研究

研究背景

近年以来、日本のAGC業界は急速に発展しており、漫画でもアニメでも、その製作過程で大量の写真を手で作成する必要がある。しかし、時間の経過と社会の発展に伴い、少子化や労働力不足などの問題はますます深刻化しており、日本の帝国データベースが発表した「アニメ制作業界動向調査(2019年)」^L.4の報告によると、大環境でのイラストレーターやアニメーターの人材不足の問題はますます顕著になり、企業が人材育成や設備投資によって生産効率を高め、単価交渉などで収益を確保しなければならない。一方、仕事量の増加は製作の手配が過密になるなどの問題を招き、労働環境の改善も急務となっている。また、海外市場では、近年中国企業や他の海外新興企業の製作レベルが高まっており、日本のアニメ製作企業も挑戦を直面している。

さらに顕著なのは、アニメの中で絵を描くレベルに対する視聴者の要求が高まっているため、1つの作品の完成には従来よりも多くの高品質な中間画が必要になる。

例えば、中国では、新海誠監督の作品は、「どのフレームのスクリーンショットもパソコンの背景を作ることができる」という説がある。このような復雑な作品を完成させなら、2019年に日本で公開された人気映画「天気の子」のように、前作品よりも品質がもっと高くになった。すべて仕事を人手で完成させると、明らかに長い時間、資金、人件費がかかる。

従って、いくつかの技術を利用して、中間画などのコンテンツの製作(または補助製作)を迅速に自動化(または半自動化)し、繰り返して非常に時間のかかる仕事を完全にコンピューターに任せることができれば、画家たちがより全身的に創作に没頭することができ、作品全体の完成率を高めるだけでなく、作品の品質の高め、従業員の仕事ストレスを低減することもできる。

先行研究

復旦大学、ニューヨーク州立大学石渓校、同済大学から来た研究者は、GANに基づくアニメキャラクター顔画像生成器を作った。このプロジェクトは、モデルによって生成されたアニメキャラクターの顔画像中のぼやけ、ねじれ、変形などの問題を解決できるために、高品質なアニメキャラクターの顔画像をかなり成功させるモデルを纏めた。[^1]

高品質なモデルを作成するため、この実験ではGetchuで販売されているゲームの立絵図像をデータセットとして用いた。その立絵は異なるスタイルを持って、異なるテーマのゲームから来て、十分な多様性を持っておる。 また、すべては人物画像であるため、統一性が良い。

実験はIllustration2Vecを用いてデータセットの分類と特徴抽出を行った[^L.1], [^L.2]

東京大学のMasaki Saitoは、絵画初心者が自分の考えに合う絵画の参考を素早く見つけるのに役立つことを提案した。このプロジェクトでは、二次元キャラクター画像をどのように意味定義するかを提案し、ハミング距離に基づく最近傍検索を可能にした。[^2]この実験では、与えられた2枚の画像から結語で与えられた画像間の絵画風作品の探すも実現した。

機械学習フレームワークKerasでは、ImageNetで事前訓練されたモデルをそのまま使用し、その中の下位層の出力を取り出すことで、画像のベクトル化を実現することができる。しかし、この実験では、著者が1539個のラベルを選択し、それによってマルチラベルの分類モデルを訓練した。このうちモデルの特徴抽出部分はVGG16を服用しているが、著者はタグ予測を考慮して画像の細部にもっと着目する必要があるため、VGGネットワークの代わりにNINネットワークを用いた。活性化関数はSigmoid関数を用い、損失関数はクロスエントロピー損失関数を用いた。

著者は以上のマルチタグ分類ネットワークに基づいて、画像のバイナリベクトル表現、すなわち入力画像の特徴値を帰一化するために、最終層出力の前にsigmoid層を挿入した。01ベクトルを得る必要があれば、sigmoid層の値を閾値0.5の二値化をすればよい。

Tadao YamaokaはDCNNに基づく漫画キャラクターの顔を検出する方法を提案した。^L.5

dlib方式は実際の人の顔に対する表現は良好である[^3],。しかし、漫画の人物に対する顔認識は無効である。そこで著者はDCNN方式について実験を行い、DCNNが様々な画像に対して泛用性があるため、この方法を採用した。

著者は16個のフィルター(畳み込み核)を採用した:カーネルサイズ 4×44 \times 4;32個のフィルタ(畳み込み核);カーネルサイズ5×55 \times 5;64個のフィルタ(畳み込み核)、カーネルサイズ5×55 \times 5。その最大サンプリング層はすべて2×22 \times 2,であり、活性化関数はすべてReLUである。ノード数が400の全接続ネットワーク。出力層は特徴点数× 2ノードである。

2つのアルゴリズムを用いてモデル学習を行う。[^4]

SGD

SGDは更新するたびにサンプルごとに勾配更新を行う。大きなデータセットには類似したサンプルがあるかもしれない。SGDは一度に更新するだけで冗長性がなく、比較的速く、サンプルの追加もできる。

θ=θηθI(θ;  xi;yi)\theta=\theta-\eta\cdot\nabla_\theta\mathfrak I(\theta;\;x^i;y^i)

欠点:

  • SGDの更新が比較的頻繁であるため、cost functionに大きな振動を齎すことがある。
  • BGDは局所極小値に収束できるが、当然SGDの振動がより良い局所極小値にジャンプする可能性がある。
  • learning rateを少し小さくすると、SGDとBGDの収束性は同じだ。

RMSprop

RMSpropはGeoff Hintonが提案した適応学習率の方法で、Adagradの学習率が急激に低下する問題を解決するために、勾配更新規則は以下である:
指数加重平均を使用して、勾配降下中の振動を解消することを目的としており、ある一次元度の導関数の大小と指数加重平均が正相関関係を呈して、これにより各次元導関数が同じ量級にあることを保証して、振動を減少できた。より大きな学習率ηを使うことができる。

E[g2]t=0.9E[g2]t1+0.1gt2{\mathrm E\lbrack}\mathrm g^2\rbrack_t=0.9{\mathrm E\lbrack}\mathrm g^2\rbrack_{t-1}+0.1g_t^2

θt+1=θtηE[g2]t+εgt\theta_{t+1}=\theta_{t}-\frac\eta{\sqrt{E{\lbrack g^2\rbrack}_t+\varepsilon}}g_t

その中で超パラメータ設定値:Hintonはγを0.9、学習率ηを0.001に設定することを推薦した。

SGDを学習アルゴリズムとしてモデル訓練を行い、平均誤差を損失関数とした結果、入力画像条件によっては監視点のずれ位置が大きいなどの問題が発見でき、RMSpropを学習アルゴリズムとして再訓練を行い、損失関数値が大幅に低下したため、迅速に収束できた。

検査の結果、RMSpropアルゴリズムにはSGDアルゴリズムよりも良い結果精度性があり、目と口の位置をより正確に検出できることが分かった。

DeNA社は、PSGAN(漸進構造式条件生成対抗ネットワーク)による全身アニメキャラクター画像の生成と簡単なアニメーションを作成することに成功したことを発表した。[^10]

以上で、PSGAN方式よりも優れたネットワークやトレーニング方法を将来の研究で探し、より高解像度、より細部の平面イメージを生成し、顔検査により色をより良く最適化し、Masaki Saitoが提案した方法を用いて、画像の生成と似たスタイルの既存の作品を見つけ、類似した作品を生成することで、クリエイターにもっと多くの参考を提供することが可能になり、全身像生成という研究の欠落を補う。

研究目的

深層学習と生成対抗ネットワーク技術に基づいて、既存の原画の作画スタイルと人物の特徴を学習し、それに応じた特定の特徴を抽出することでアニメキャラクターの全身画像を生成し、生成した全身画像に基づいて、生成画像の精細度を高め、異なる動作と異なる服装の人物画像を出力できるようにする。生成人物の作画ディテールを向上させ、生成人物キャラクタ画像の全体的な品質を向上させる。

研究计划

  • GANプログレッシブトレーニング手法を用いて、超疎二値エッジおよびカラーブロックから実画像を再構成するPI-REC方法の再現を試みる。 ネットワークシミュレーションを初期化する段階、初期画像を再構成する生成段階、初期画像の微調整を経て、最終的に詳細な出力の微調整段階を生成する。
  • 生成された画像をフィルタリングし、PI-REC方法を調整してみる。
  • PSGANの方式を使って、poseと合わせてキャラクターの全身像を生成してみる。
  • 上記のPI-REC方法を修正して、高品質な線稿を生成できるようにする。
  • 元全身像の涂色を除去し、線稿を残し、PSGAN方式で生成した線稿と結合する。
  • スタイルマイグレーションに基づいた方法で線稿を涂色する。
  • 全自動精密の色づけに基づいて、生成されたキャラクタの瞳色を再調整する。
  • 生成結果を高品質に拡大できるアルゴリズムを探す。
  • 上記の方法を統合する。

予想結果

与えられたHand drawn draft、color domainおよびpose情報から、PI-REC法[^5]に基づいてAI自動描画を行い、PSGAN技術と連携して、完全な高解像度の全身像を生成する。

[^L.1]: Illustration2Vec: A Semantic Vector Representation of Illustrations:https://joshualeung.github.io/2019/01/10/20181218-illustration2vec/

[^L.2]: 二次元イラストの特徴を検出する[illustration2vec]:https://qiita.com/8128/items/c7d53507f23f72daea69

[^1]: Jin Y, Zhang J, Li M, et al. Towards the automatic anime characters creation with generative adversarial networks[J]. arXiv preprint arXiv:1708.05509, 2017.

[^2]: Saito M, Matsui Y. Illustration2vec: a semantic vector representation of illustrations[M]//SIGGRAPH Asia 2015 Technical Briefs. 2015: 1-4.

[^3]: Kazemi V, Sullivan J. One millisecond face alignment with an ensemble of regression trees[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 1867-1874.

[^4]: Ruder S. An overview of gradient descent optimization algorithms[J]. arXiv preprint arXiv:1609.04747, 2016.

[^5]: You S, You N, Pan M. PI-REC: progressive image reconstruction network with edge and color domain[J]. arXiv preprint arXiv:1903.10146, 2019.

[^10]: Jiang W, Liu S, Gao C, et al. Psgan: Pose and expression robust spatial-aware gan for customizable makeup transfer[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 5194-5202.