集合知のアルゴリズムを考える ニコニコ動画 はてなブックマーク

先日のエントリ(ニコニコ動画の自作自演をグラフにするプログラム - WebLab.ota)で,ニコニコ動画のユーザごとのコメント量に格差(偏り)が観られるといったことを書いた.
下に,8月25日におけるニコニコ動画のランキング1位から100位までの自二係数(先エントリを参照)を測定していただいた*1ので,一部を示す.

第1位 堕落の花・改(ダラクノハナ・カイ) ひぐらしのなく頃に sm904431 46.9
第2位 さよなら絶望先生 比較動画まとめ(仮) sm884433 52
第3位 さよなら絶望魔人ネウロOP【手書きMAD】 sm900778 48.9
第4位 マコトシシオは大変なものをフタエノキワミ、アッー!【動画版】ver0.9 sm903509 52.4
第5位 Help meHARUCHINNNNNN!! sm898831 52.3
第6位 ひぐらしのなく頃に お嫁にしなさいっ! 手書き sm904946 55.2
第7位 ひぐらしのなく頃に解 第8話 皆殺し編 其の参 「揺らぎ」 フルver sm905105 60.5
第8位 【遊戯王MAD】カードしない人たち【修正版】 sm900039 56.9
第9位 東方風神録 (原曲ver.) sm904439 65
第10位 手書きMAD 奈落の花遊戯王 sm903405 38.9
第11位 ひぐらしのシンクロする頃に sm900016 60.1
第12位 さよなら絶望先生人として軸がぶれている』 超音質Ver Full sm904090 50.9
第13位 こんな遊戯王は嫌だ〜王様いじめ編〜 sm905249 47.5
第14位 デジモンアドベンチャー ぼくらのウォーゲーム! sm888908 64.5
第15位 武器娘 画像集 sm904404 47.7
第16位 【神】最強のエロゲデモ動画集 フルセット版その(1) 解説つき sm884037 56.2
第17位 うめぇwww きめぇwww と思ったら死亡。 sm903630 55.5
第18位 とみ☆たけOP-撮ってけ!富竹フラッシュ sm497773 63.3
第19位 A dear child PV sm899041 36.1
第20位 ひぐらしのなく頃に解奈落の花』 超音質 修正版 sm900954 60.9

自二係数は”社会における所得分配の不平等さを測る指標”であるジニ係数と同じ方法で求めていて,ユーザごとのコメント量の格差(不平等さ)を測る指標だ.上記のデータは,この自二係数をジニ係数に習って

  • 〜0.1 平準化が仕組まれる人為的な背景がある
  • 0.1〜0.2 相当平等だが向上への努力を阻害する懸念がある
  • 0.2〜0.3 社会で一般にある通常の配分型
  • 0.3〜0.4 少し格差があるが、競争の中での向上には好ましい面もある
  • 0.4〜0.5 格差がきつい
  • 0.5〜 特段の事情がない限り是正を要する

という区分けをしている.
そうすると,たった二つの動画だけ(10位と19位)が正常な値を示し,他はすべて「格差がきつい」,「是正を要する」といった評価が出た.ランキング全体(1〜100位)でみても,0.4以下の自二係数を取っているのは15個の動画だけで,後はすべて非常に高い値を示している


ここで問題なのは,「自作自演がひどすぎる」とかそういったモラルに関するものでなく,ニコニコ動画のランキングのアルゴリズム上,ユーザごとのコメント量の不平等さがそのまま,ユーザごとのランキングに対する影響力の不平等になってしまう点にある.
つまり,ごく少数の人々(自作自演者やコメント職人や支援コメントを大量にする人)のランキングに対する影響力と,大多数の人々(動画に対して数個しかコメントしない人)のランキングに対する影響力との格差があまりにも激しすぎる点に問題がある.
(図:ユーザごとのコメント量の差.参照→*2

私はこれを完全な平等にしろと言っているわけではない.(つまりコメントの数ではなく,コメントをしたユーザ数でランキングしろというわけではない)
コメント職人ががんばっているのもランキングに影響を与えるべきだし,自作自演にだって多少の効力を持たせるべきだし,支援コメントを大量にする人の努力や愛情だってランキングに反映されるべきであると考えている.
しかし,それにしてもあまりに格差がありすぎる…のではなかろうか?
確かに,誰でもランキングに影響力を持ちたければ努力すれば持ちえるのだが,これには膨大な時間と労力を必要とし,コメント職人や自作自演者のように睡眠時間を削ってまでコメントをすることを要求するのは酷である.(ジニ係数に習って例えるならば(強引だが),年収200万の人に「努力すれば年収1億ぐらい稼げるよ?」と言っているのと同じだ.)

他の集合知

ニコニコ動画には「コメント数でのランキング」のほかにマイリスト登録数でのランキングも使われている.
これは先ほどの自二係数で測るならば,完全に平等な状態(ユーザごとにマイリストには一回しか登録できない)であり,自二係数は0だ.
このジニ係数”0”の集合知は他に,はてなブックマークなんかもある.
しかし,この状態では「すっごく良い!!」,「まぁまぁ良い」,「良い」といった意味さえ取得できない.これはこれで問題なわけである.
ジニ係数0(完全に平等)ではなく,ジニ係数0.4以上(格差が激しい)でもない,ジニ係数0.2〜0.4ぐらいの情報で集合知を計算するのがいいのかもしれない.


このジニ係数以外に集合知アルゴリズムを評価できそうな考え方,計算方法,評価方式などがあったら教えてください.
正直このジニ係数だけでは,説得力が無い.いろいろな検証をしてみて妥当性を確かめてみたい.



参考
テクノロジー : 日経電子版
http://www.nihonkaigaku.org/ham/eacoex/100econ/120doms/122dist/1224inc/gini/gini.html
ニコニコ動画の運営はミスを犯した? - LEMON IN THE BOOKSTORE
ニコニコ動画の自作自演をグラフにするプログラム - WebLab.otaのコメントもろもろ