コミックのセリフと発話者対応付けデータセットの構築とその困難性

阿部 和樹; 中村 聡史

Abstract

本研究では，我々がこれまで実現した Manga109 を対象としてセリフと発話者を対応づけるデータセット構築システムを利用し，147,918件のセリフと発話者の対応付けデータセットを構築した．また構築したデータセットをWeb 公開した．さらに，構築したデータセットを分析することにより，人手によるデータセット構築の困難性(2 人による一致率 86.9%など)についても明らかにした．一方，セリフがあるコマとキャラクタおよび発話者の存在に関する分析を行うとともに，吹き出しの位置やしっぽの方向のみならず，一人称や語尾といった特性を利用した簡易的な自動推定手法を提案し，組み合わせた手法により70%程度で推定できたことが分かった．

Artifacts

Information

Book title

第3回コミック工学研究会

Pages

7-12

Date of issue

2020/03/27

Keywords

セリフ / 話者 / 自動推定 / データセット構築 / 公開 /

Citation

阿部和樹, 中村聡史. コミックのセリフと発話者対応付けデータセットの構築とその困難性, 第3回コミック工学研究会, pp.7-12, 2020.

Links

https://nkmr.io/comic/speaker-dataset/