9月30日(米国時間)に新興企業Vivisimoの検索エンジン
Clusty.com が
デビューしたようです。クエリーにキーワードを入れて、検索するわけですが、ポチっと押すボタンが「search」でなく、、、
clusterなところが、そのこだわりを感じさせてくれます。w
そのクエリーに対して、もっと具体的なカテゴリーリストが表示されるという戦略が良いのでしょうね。最初っから日本語にも対応してますし。
さて、昨今のバイオに関わる人々にとってクラスタリングとは切っても切れない関係にあることはいうまでもありません。もともと生物学自体がクラスタリングすなわち分類から始まったという側面がありますしね。
で、このClusty.comは、Googleなど有名検索エンジンと比べて巡回しているwebページ数が圧倒的に少ないそうです。いや、これから増えるのかもしれないですが。Clusty.comが500万〜1000万ページに対し、Googleは約43億のWebページを巡回しているのだとか。VivisimoのCEOラウル・バルデス−ペレス氏によると、ページ数は問題ではないと。結局、ユーザは限られた少数の検索結果しか見られないのだからということ。
これって、マイクロアレイに代表されるハイスループットなデータに関する解析にも通ずる部分を激しく感じます。ほとんどクソのデータ (ノイズ)の中から意味あるものを取り出す、すなわち重要度 (ユーザが必要とする尺度) でランキングし上からリストアップすることが第一の使命といっても過言ではないですからね。だからといって、そのままニューラルネットに代表されるようなクラスタリング技術が最適かというとそうではないところが生物 (ナマモノ)なんでしょうね。
すいません、何言ってるのか自分でわからなくなってきました。(^^;
オレのココロをまずクラスタリングせねばっ。
posted by soreyuke at 00:21|
Comment(0)
|
TrackBack(1)
|
search engine
|

|