ニコニコ動画 『スナップショット検索API』によるキャラクター共起性の可視化(東方&艦これ)
ニコニコ動画 『スナップショット検索API』 に触ってみた - 唯物是真 @Scaled_Wurm
こちらの記事を参考にニコニコ動画における東方プロジェクト(東方)、艦隊これくしょん(艦これ)の各キャラクターごとの動画投稿数の共起性を取得し、グラフとしてCytoscapeで可視化してみました。
動画数上位のキャラクター
id:sucroseさんの結果でチルノが多い結果になってしまったのはフルネームのタグが少ないからと予想し、キャラクターのFirst nameをキーワードとしました。
また一般名詞とかぶってしまう名前があるので”東方”も検索キーワードに追加しました(キーワードはタグに部分一致するだけでよい)。また検索対象をタグのみにしています*1
。その結果が以下になります。
霊夢 | 1636 |
魔理沙 | 1257 |
アリス | 1024 |
咲夜 | 965 |
レミリア | 892 |
さとり | 699 |
チルノ | 681 |
紫 | 670 |
早苗 | 668 |
フランドール | 660 |
同様に艦これに関しても”艦隊これくしょん or 艦これ”を検索キーワードに追加しています。
キャラクター(艦娘)名は艦これWiki(http://wikiwiki.jp/kancolle/?%B4%CF%C1%A5)のものを使いました。ただし外国艦船(ビスマルクなど)の名前はカタカナに変換し、甲、航、改のついたものは除外してあります。
金剛 | 820 |
島風 | 592 |
大和 | 558 |
那珂 | 481 |
電 | 449 |
榛名 | 430 |
夕立 | 403 |
雷 | 390 |
時雨 | 363 |
暁 | 359 |
キャラクターの共起性と可視化
共起性の指標としては上記ブログと同じNMPI(Normalized Pointwise Mutual Information)を用いています。
ナズーリン | 寅丸 | 0.6463504194 |
神奈子 | 諏訪子 | 0.6178683921 |
橙 | 藍 | 0.5932701637 |
ミスティア | リグル | 0.5452556934 |
妹紅 | 慧音 | 0.5416718338 |
射命丸文 | 椛 | 0.5078045903 |
咲夜 | 美鈴 | 0.5051725223 |
こころ | マミゾウ | 0.4936972158 |
一輪 | 聖白蓮 | 0.4934065437 |
パルスィ | 勇儀 | 0.4925527622 |
艦これでの共起性の大きなペアは以下のようになっています。
千代田 | 千歳 | 0.7850259059 |
深雪 | 白雪 | 0.7530860805 |
能代 | 阿賀野 | 0.7445190869 |
熊野 | 鈴谷 | 0.7438196489 |
加古 | 古鷹 | 0.7424526269 |
摩耶 | 鳥海 | 0.741641327 |
霞 | 霰 | 0.7365672818 |
大潮 | 満潮 | 0.7360904951 |
村雨 | 白露 | 0.7263970181 |
大潮 | 荒潮 | 0.7209450321 |
愛宕 | 高雄 | 0.7177045548 |
Z1 | Z3 | 0.716093312 |
阿武隈 | 鬼怒 | 0.7080852086 |
大潮 | 霰 | 0.7026031255 |
伊58 | 伊8 | 0.6998377271 |
瑞鶴 | 翔鶴 | 0.6910295254 |
名取 | 長良 | 0.6908156375 |
蒼龍 | 飛龍 | 0.687039042 |
由良 | 鬼怒 | 0.6860486752 |
伊勢 | 日向 | 0.6830418283 |
ある意味当然ですが、姉妹艦の共起性が高いです*2。
今回のような共起性データの可視化には次元削減系の手法(紹介されているIsomap,MDS)を用いる他にネットワーク可視化の手法があります。
ここではCytoscapeを用いました。単に2次元に射影するだけでは見えなくなってしまう情報も可視化に含むことができます。
一方でここで用いた手法ではedgeの有無のしきい値の取り方で恣意性が生まれてしましいす。
しきい値を大きく取るとグラフは疎になり強い関係性を見出すのが容易になる一方で情報は欠落してしまいます。
しきい値を小さく取ればグラフは密になり可視性は落ちますが、中心性やクラスター解析を行うことで詳細な情報を取り出すことが出来そうです。
配置方法としてLayoutのEdge weighted Spring Embeddedを用いています。
東方ではid:sucroseさんの結果と同様紅魔郷メンバーが独立したクラスターを形成しています。他にもややわかりにくいですが、作品ごとのクラスターがあるようです。
NPMIのしきい値=0.1の場合
艦これの方がキャラクター数が多いこともありグラフが密集していることは見て取れます。
ドメイン知識がない者としては外国艦娘(等)がクラスターを形成しているのではないかと予想していたのですが、実際にそのようになっていました。
Верный(ヴェールヌイ)は元々は日本海軍のものですが、ソ連に引き渡されたという経緯から日本の艦娘と同じまとまりに入っています*3。
ドイツ艦娘の中でプリンツ・オイゲンだけが離れたところにあり、野分と共起性が高いのは声優が同じ(小澤亜李さん)だからのようです*4。
NPMIのしきい値=0.1の場合
グラフが密になりぎているのでEdgeを減らしてみると以下のようになります。
NPMIのしきい値=0.2の場合
中心部拡大
中心性とクラスター係数
Tools->NetoworkAnalyzerを使うとクラスター係数や中心性の解析、可視化を行うことが出来ます。
ここでは以下のようにクラスター係数をNodeの大きさ、媒介中心性(betweeness centrality)を色で、Edgeの共起性を色であらわしています(説明がわかりづらいですが、赤が大きな値、緑が小さな値です)。
グラフの中央に媒介中心性が高く、クラスター係数が小さいノードがあるのは自然な配置です。
にとりの媒介中心性が特に高く、%%紅魔郷メンバーとつながっているためと思われます%%どちらかというと紅魔郷メンバー以外と幅広くつながっているからのようです。
同様に艦これの結果です。
中心部拡大
綾波の媒介中心性が特に高く、黒潮、霞、長波、千代田、千歳などが続いています。
千代田、千歳は相互に共起性が高く、媒介中心性も高い一方で動画数はそれほど多くないのは興味深いです。
作品ごとにキャラクターがまとまっている東方に対し、姉妹艦、所属国以外のまとまりがない艦これという比較が出来ると思っていたのですが、以下のクラスター係数、媒介中心性の分布を見ると東方の方が凝集性が高いという結果になっていました。
コミュニティー分割とその分析はCytoscapeのMCODE (Molecular Complex Detection)アドインまたはRのigraphなどを用いればできそうです。
Reference
キャラクターがもう少し少ないタイトルの解析、グラフ可視化をされています。
20140308 第四回 ニコニコ学会β データ研究会 アニメ・声優・二次創作における百合ネットワーク
【集計】pixiv小説タグでアイカツの人間関係ネットワークを描いてみた - 今私は小さな魚だけれど
pixivなど他サービスのデータとの比較、女性に人気のあるタイトル、指向性のあるグラフの解析なども興味深い課題です。
【Python】【pixiv】pixivAPIから、アニメキャライラストのタグデータをcsvで出力する - 歩いたら休め
PixivAPIを使った検索とソートソフトの配布:ブロマガのタイトル * - ブロマガ
C86 久幸繙文新刊『東方コミュニティ白書 2014』特設ページ
4年にわたって東方の二次創作、SNSや同人誌即売会における影響などを統計的に調査されています。艦これの統計に関する本もあるそうです。
ネットワーク可視化プラットフォームCytoscapeの現状まとめ - Qiita
cyREST API で R と Cytoscape の連携を試す - でたぁっ 感動と失敗の備忘録
RからCytoscapeにデータが送れるらしいです。
http://christophergandrud.github.io/networkD3/
networkD3 Rmarkdown,Shiny,RpubsなどでインタラクティブなD3.jsのグラフを書いてくれるらしいです。
ある作品内のキャラクター間の関係ではなく、Webサービス、SNS内のコンテンツ、人物の関係の解析に関しては既に多くの研究がされています。ここでは日本のサービス(mixi,ニコニコ動画)に関するものをあげます。
http://www.slideshare.net/hirokoonari/r-15447585
http://ymatsuo.com/papers/jsai07.pdf
CiNii 論文 - ソーシャル・ネットワーキング・サービスにおける人的ネットワークの構造(事例分析,<特集>ネットワーク生態学〜生命現象から社会文化現象の新しいパースペクティブ〜)
No.8『ニコニコ動画のコメントデータを用いたネットワーク構造解析』ryouiti62 | 第5回ニコニコ学会βシンポジウム
http://www.slideshare.net/kynbit/nicovideo-239920
ニコニコ動画のタグネットワークを描画してみた - Hive Color
今回用いたデータは百合ネットワーク等よりは大きく、Webサービスのコンテンツ全体よりは小さい中程度のデータセットということになります。