MENU



更新履歴

取得中です。

mixiランキングについての考察

※上記の広告は60日以上更新のないWIKIに表示されています。更新することで広告が下部へ移動します。



コミュで拾ったランキング生成のアルゴリズムについて
http://alpha.mixi.co.jp/blog/?p=25

  • 日記の本文を自然言語処理(形態素解析)して名詞のみを抽出する。
  • 特定の名詞が頻繁に連続する場合、それを複合名詞として合体させる。
  • 頻度が高い語を選ぶ。
  • そうすると一般語ばかり選ばれてしまうので、対象日以外の日の頻度に応じてペナルティをかける。
  • そうすると顔文字や絵文字などの無意味な語が多く選ばれるので、字種や長さに応じてペナルティをかける。
  • 表記揺れで集計がぶれることがあるので、似たような文字列は頻度を合算する。

ここで「話題」という概念が出てきますが、何をもって話題を構成する塊(クラスタ)を作るかが問題となります。そこで、機械的に言葉や文書やいろいろなものを分類する「クラスタリング」という技術を使うことになります。具体的な手法の説明は複雑になりすぎるので割愛しますが、共起関係(ある語と別の語が同じ文または文章で表れたという事実)に着目した様々な技法を組み合わせるのが一般的なようです。

以上を踏まえた上で考えられるのは、IRIYAMADAIというワードを選択した我々の行動は間違っていなかったということになる。

しかしここで、私は重大なミスに気づいた。

最後に出てくる「話題」という概念である。

ランキング生成プログラムの図を眺めていて思った事…それは、入山大コミュメンバーが、おのおの独自のネタとして日記を書き続けてもあまり意味がないのではないかということである。

つまり、話題に共通性を持たせる必要性があると私は考える。

以前1位を獲得した「レアル」という言葉を例にすると、あの日レアルについて書かれた日記はみな共通して「サッカー」の「レアル」というチームの優勝について書かれていただろう。

よって今後の対策として、まずVIP等で同士を募り、さらにIRIYAMADAIについての話題に共通性を持たせ、かつ「IRIYAMADAI」というワードを頻出させる必要性があるだろう。また、「昨日のIRIYAMADAIすごかったよね!」とか「IRIYAMADAIの最終回見た?」とか「IRIYAMADAIが電撃移籍」というように、文や文章に意味を持たせる事も大事になってくるだろう。

以上、私見ではあるが参考になれば幸いだ。

(文責:けけろ)

名前:
コメント:


|新しいページ|検索|ページ一覧|RSS|@ウィキご利用ガイド | 管理者にお問合せ
|ログイン|