webdesignStatioひとまず完成

webdesignStatioへのリンク前回取りあえずプロトタイプを作って晒したwebdesignStatioが、当初描いていたモノが一通り形になったので、これまでの経緯(努力?)を記す。

2ヶ月間稼働させてみた所感
検索対象のタグの種類を増やしたこと、また、収集間隔を3時間から徐々に1時間→30分→最終的に10分間隔まで縮めたことにより、(勝手に)ベンチマークにしている、同種のサイトと同じくらいの収集量に近づいてきた。単純にブログ単位でRSSフィードを購読していたら、決して見つけられないようなブログ記事などに出会うこともできた。
しかし、こういう多種多量のデータを取り扱う仕組みは、動かしてみないと気付かないことが多く、実際多くの気付きが得られた。

  • ページ内容とは全く無関係のタグを付けている(スパムに近い)ソーシャルブックマークにより、アフィリエイトやドロップシッピング、果てにはエロサイトまでが収集されてしまっている
  • 情報を得るためのニュース記事やTIPSではなく、「きれいに作られた」だけの企業サイトやキャンペーンサイトを、ブックマークするという使い方が混じっている
  • ウェブ制作に関わる記事じゃなく、ウェブ制作会社のサイトが混じる。
  • はてブと同じ内容になってしまうと「はてブ読んだ方が早いやん」ってなっちゃうのだが、他のブックマークサイト(特にYahoo、Buzzurlあたり)には結構ノイズが多い

で、その対策として最終的にベイジアンフィルタ(Wikipedia)に落ち着いたのだが、それが「モノになる」までの軌跡がこちら。

  • 収集し記事について、私が「読みたい」か「読みたくない」か全くの主観のみでひたすら分類
  • それらの記事をYahoo!ディベロッパーネットワーク日本語形態素解析にかけて、単語レベルにまで落とし込んで分類
  • さらに迷惑メールの判定に使われるベイジアンフィルタリングのアルゴリズムに分類結果を流し込んで学習させる
  • 気に入った学習結果が得られるまで上記を繰り返し。

その結果、収集総数約8,000ページ、学習ページ1,000ページ、分類キーワード数15,000種にまで膨れ上がってきたあたりで、ようやく納得のいくものになってきた。最後の1ヶ月間は、ひたすらこの学習を繰り返してばかりだった。もうあと組み込むとしたら再学習の手間を軽減させるくらいかな。「重複したりノイズが混じるRSSを読みたくない」というなんともアマノジャクな動機で始めたのに、よくもまぁここまで私のモチベーションが枯れなかったものだ。

要はこれ、何がしたいのかと言うと
当初の趣旨どおり、このサイトは、今でも私自身のための情報収集を目的にすることに全く変わりはない。いや、はっきり言って「みんなの声を取り入れた、みんなのためのサイト」なんかにするつもりは毛頭ない。むしろ「私の趣味趣向」を学習したエージェントが「半自動的」に情報をかき集めてくることに意味が見いだせるものだと思っている。

実は、私自身インターネットを使う時間が長くなるにつれ、「情報に溺れている/踊らされている」感覚がずっと付きまとって、インターネットでの情報収集にモヤモヤしたものを感じていた。ところが、twitterやtumblrで出てきた「follow」という枠組みを知って、このモヤモヤ感が少し整理ができた気がした。

ウェブデザイン関連のブログを書いていらっしゃる方たちは、海外サイトを翻訳されてらっしゃる方が多いのだが、それこそものすごい数の情報を、それぞれのブロガーさんの視点で「選別して」記事にされてらっしゃる。すると、過去の記事の履歴や閲覧体験から、読者が「この人が選ぶニュースなら『チェックしておこう』もしくは『(ネガティブな見方だけれど)時間の無駄にならない』」という、発信者と読者との間での暗黙的な信頼関係が成り立った上に、すんごい数の購読者がいらっしゃる。
つまり、私達を取り巻く情報が多すぎるため、「何を探してきたか」ではなく「誰の目線で探してきたか」という観点から収集する情報を絞り込むことが、今のインターネットでは非常に有用なんだと思い始めている。

ウェブ制作に関するいわゆるTips系の記事だけに限ると、今ではようやく量も速さも個人的には十分満足がいくレベルになってきているし、私自身最近はここからしか情報収集していない。
どなたかが海外サイトの翻訳記事をアップする前に元サイトが収集されてきたりしてるし、日本語のまとめ記事はまとめ記事としてもちろん収集できてる。ブロガーさんの「ブログ書いた」とツイートを発見して30分後にはきちんとこちらでも捕捉できているのを確認して、ひとりニヤニヤするのを毎日続けてきたんやから^^

今まで通り、こいつはいきなりテストでTLが埋まるほどツイートしたりもするし、まだまだ学習されてない予期せぬカテゴリの記事が載っかってくる事もある。私のためだけのツールだけど、一応bit.lyでクリックされた記事の数はモニタしてるし、もしかしたら誰かの役に立ててるかも知れないとも思うので、頑張ってしばらくこいつに私の関心を教え続けていこうと思う。

This entry was posted in 当サイトについて. Bookmark the permalink.

Comments are closed.