xiangze's sparse blog

機械学習、ベイズ統計、コンピュータビジョンと関連する数学について

ニコニコ動画 『スナップショット検索API』によるキャラクター共起性の可視化(東方&艦これ)


ニコニコ動画 『スナップショット検索API』 に触ってみた - 唯物是真 @Scaled_Wurm

こちらの記事を参考にニコニコ動画における東方プロジェクト(東方)、艦隊これくしょん(艦これ)の各キャラクターごとの動画投稿数の共起性を取得し、グラフとしてCytoscapeで可視化してみました。

動画数上位のキャラクター

id:sucroseさんの結果でチルノが多い結果になってしまったのはフルネームのタグが少ないからと予想し、キャラクターのFirst nameをキーワードとしました。
また一般名詞とかぶってしまう名前があるので”東方”も検索キーワードに追加しました(キーワードはタグに部分一致するだけでよい)。また検索対象をタグのみにしています*1
。その結果が以下になります。

霊夢 1636
魔理沙 1257
アリス 1024
咲夜 965
レミリア 892
さとり 699
チルノ 681
670
早苗 668
フランドール 660

f:id:xiangze:20150104210639p:plain

同様に艦これに関しても”艦隊これくしょん or 艦これ”を検索キーワードに追加しています。
キャラクター(艦娘)名は艦これWiki(http://wikiwiki.jp/kancolle/?%B4%CF%C1%A5)のものを使いました。ただし外国艦船(ビスマルクなど)の名前はカタカナに変換し、甲、航、改のついたものは除外してあります。

金剛 820
島風 592
大和 558
那珂 481
449
榛名 430
夕立 403
390
時雨 363
359

f:id:xiangze:20150104210647p:plain

キャラクターの共起性と可視化

共起性の指標としては上記ブログと同じNMPI(Normalized Pointwise Mutual Information)を用いています。

ナズーリン 寅丸 0.6463504194
神奈子 諏訪子 0.6178683921
0.5932701637
ミスティア リグル 0.5452556934
妹紅 慧音 0.5416718338
射命丸文 0.5078045903
咲夜 美鈴 0.5051725223
こころ マミゾウ 0.4936972158
一輪 聖白蓮 0.4934065437
パルスィ 勇儀 0.4925527622

艦これでの共起性の大きなペアは以下のようになっています。

千代田 千歳 0.7850259059
深雪 白雪 0.7530860805
能代 阿賀野 0.7445190869
熊野 鈴谷 0.7438196489
加古 古鷹 0.7424526269
摩耶 鳥海 0.741641327
0.7365672818
大潮 満潮 0.7360904951
村雨 白露 0.7263970181
大潮 荒潮 0.7209450321
愛宕 高雄 0.7177045548
Z1 Z3 0.716093312
阿武隈 鬼怒 0.7080852086
大潮 0.7026031255
伊58 伊8 0.6998377271
瑞鶴 翔鶴 0.6910295254
名取 長良 0.6908156375
蒼龍 飛龍 0.687039042
由良 鬼怒 0.6860486752
伊勢 日向 0.6830418283

ある意味当然ですが、姉妹艦の共起性が高いです*2

今回のような共起性データの可視化には次元削減系の手法(紹介されているIsomap,MDS)を用いる他にネットワーク可視化の手法があります。
ここではCytoscapeを用いました。単に2次元に射影するだけでは見えなくなってしまう情報も可視化に含むことができます。
一方でここで用いた手法ではedgeの有無のしきい値の取り方で恣意性が生まれてしましいす。
しきい値を大きく取るとグラフは疎になり強い関係性を見出すのが容易になる一方で情報は欠落してしまいます。
しきい値を小さく取ればグラフは密になり可視性は落ちますが、中心性やクラスター解析を行うことで詳細な情報を取り出すことが出来そうです。
配置方法としてLayoutのEdge weighted Spring Embeddedを用いています。

東方ではid:sucroseさんの結果と同様紅魔郷メンバーが独立したクラスターを形成しています。他にもややわかりにくいですが、作品ごとのクラスターがあるようです。
f:id:xiangze:20150104034117p:plain
NPMIのしきい値=0.1の場合

艦これの方がキャラクター数が多いこともありグラフが密集していることは見て取れます。
ドメイン知識がない者としては外国艦娘(等)がクラスターを形成しているのではないかと予想していたのですが、実際にそのようになっていました。
Верный(ヴェールヌイ)は元々は日本海軍のものですが、ソ連に引き渡されたという経緯から日本の艦娘と同じまとまりに入っています*3
ドイツ艦娘の中でプリンツ・オイゲンだけが離れたところにあり、野分と共起性が高いのは声優が同じ(小澤亜李さん)だからのようです*4

f:id:xiangze:20150104034131p:plain
NPMIのしきい値=0.1の場合

グラフが密になりぎているのでEdgeを減らしてみると以下のようになります。
f:id:xiangze:20150104034150p:plain
NPMIのしきい値=0.2の場合

f:id:xiangze:20150104034155p:plain
中心部拡大

中心性とクラスター係数

Tools->NetoworkAnalyzerを使うとクラスター係数や中心性の解析、可視化を行うことが出来ます。
ここでは以下のようにクラスター係数をNodeの大きさ、媒介中心性(betweeness centrality)を色で、Edgeの共起性を色であらわしています(説明がわかりづらいですが、赤が大きな値、緑が小さな値です)。
f:id:xiangze:20150104135923p:plain
グラフの中央に媒介中心性が高く、クラスター係数が小さいノードがあるのは自然な配置です。
にとりの媒介中心性が特に高く、%%紅魔郷メンバーとつながっているためと思われます%%どちらかというと紅魔郷メンバー以外と幅広くつながっているからのようです。
f:id:xiangze:20150108231851p:plain

f:id:xiangze:20150104034219p:plain


同様に艦これの結果です。
f:id:xiangze:20150104034225p:plain

f:id:xiangze:20150104034229p:plain
中心部拡大

綾波の媒介中心性が特に高く、黒潮、霞、長波、千代田、千歳などが続いています。
千代田、千歳は相互に共起性が高く、媒介中心性も高い一方で動画数はそれほど多くないのは興味深いです。

作品ごとにキャラクターがまとまっている東方に対し、姉妹艦、所属国以外のまとまりがない艦これという比較が出来ると思っていたのですが、以下のクラスター係数、媒介中心性の分布を見ると東方の方が凝集性が高いという結果になっていました。

東方 クラスター係数の分布
f:id:xiangze:20150104214409p:plain
艦これ クラスター係数の分布
f:id:xiangze:20150104214414p:plain


コミュニティー分割とその分析はCytoscapeのMCODE (Molecular Complex Detection)アドインまたはRのigraphなどを用いればできそうです。

Reference

キャラクターがもう少し少ないタイトルの解析、グラフ可視化をされています。
20140308 第四回 ニコニコ学会β データ研究会 アニメ・声優・二次創作における百合ネットワーク
【集計】pixiv小説タグでアイカツの人間関係ネットワークを描いてみた - 今私は小さな魚だけれど
pixivなど他サービスのデータとの比較、女性に人気のあるタイトル、指向性のあるグラフの解析なども興味深い課題です。
【Python】【pixiv】pixivAPIから、アニメキャライラストのタグデータをcsvで出力する - 歩いたら休め
PixivAPIを使った検索とソートソフトの配布:ブロマガのタイトル * - ブロマガ

C86 久幸繙文新刊『東方コミュニティ白書 2014』特設ページ
4年にわたって東方の二次創作、SNS同人誌即売会における影響などを統計的に調査されています。艦これの統計に関する本もあるそうです。


ネットワーク可視化プラットフォームCytoscapeの現状まとめ - Qiita

cyREST API で R と Cytoscape の連携を試す - でたぁっ 感動と失敗の備忘録
RからCytoscapeにデータが送れるらしいです。

http://christophergandrud.github.io/networkD3/
networkD3 Rmarkdown,Shiny,RpubsなどでインタラクティブなD3.jsのグラフを書いてくれるらしいです。

ある作品内のキャラクター間の関係ではなく、WebサービスSNS内のコンテンツ、人物の関係の解析に関しては既に多くの研究がされています。ここでは日本のサービス(mixi,ニコニコ動画)に関するものをあげます。
http://www.slideshare.net/hirokoonari/r-15447585
http://ymatsuo.com/papers/jsai07.pdf

CiNii 論文 -  ソーシャル・ネットワーキング・サービスにおける人的ネットワークの構造(事例分析,<特集>ネットワーク生態学〜生命現象から社会文化現象の新しいパースペクティブ〜)


CiNii 論文 -  動画共有サイトにおける大規模な協調的創造活動の創発のネットワーク分析 ニコニコ動画における初音ミク動画コミュニティを対象として:ニコニコ動画における初音ミク動画コミュニティを対象として

No.8『ニコニコ動画のコメントデータを用いたネットワーク構造解析』ryouiti62 | 第5回ニコニコ学会βシンポジウム
http://www.slideshare.net/kynbit/nicovideo-239920


ニコニコ動画のタグネットワークを描画してみた - Hive Color

今回用いたデータは百合ネットワーク等よりは大きく、Webサービスのコンテンツ全体よりは小さい中程度のデータセットということになります。

*1:当初の結果ではアリスが最も多かったのですが、これは動画説明文内の"上海アリス幻楽団"に引っかかっていた為でした。同様に艦これでは説明文内の"雷装"のせいで雷が一位になっていました。

*2:艦これに登場する姉妹艦については【艦これ】姉妹艦についてなんとなくまとめてみた 他カラオケ大会 : 艦これまとめ速報~かん速~がまとまっています

*3:初めて知りました

*4:これも初めて知りました