2005年01月27日

wgetで快適ダウンロード

ハイスループットデータの解析を行った論文ではSupplementary dataなどでraw dataが公表されていることが少なくないと思います。そのデータを根こそぎとって検証したい、あるいは自分の実験に役立てたいなどといった場合もあるでしょう。しかしながら、指定されたURLのページを見て、そこにある大量のデータにビビってしまうこともあるかもしれません。ブラウザで、いちいちリンク先をマウスで一個一個「対象をファイルに保存」とやるには忍耐がいることでしょう。

そこで登場するのがダウンロード支援ソフツです。Windowsであればこのようにいっぱいありますし、Unix/Linux上にもいくつかあります。そのうちの一つがwgetと呼ばれるものになります。wgetは主にUnix/Linux上のコマンドラインで使われ、URL(httpでもftpでも可)で指定したページ (or ファイル) を自分のコンピュータのHDD内にダウンロードしてくれる小粋なツールです。なお、wgetはWindowsでも使えます (Cygwinにもあります)。


wgetの利点が以下のように"Wgetを使おう的ページさんで挙げられています。

○GNUプロジェクトで作られている。
○ダウンロードが確実である。
○プロクシ指定ができる。
○軽い
○多くのカスタマイズができる
○左手だけでコマンドが打てる ←w
○UNIX上で使える
○FTPだけでなく、HTTPもまるごと持って来れる


[使い方例]
ftp://ftp.ncbi.nih.gov/genomes/Arabidopsis_thaliana/
にある各データを全部ダウンロードしたい
---
以下のようにシェル (bash: $)で一行コマンドを打ちます。


$ wget -r -np --wait=10 --no-host-directories ftp://ftp.ncbi.nih.gov/genomes/Arabidopsis_thaliana/


このコマンドオプションの意味を軽く説明しますと、、、「リトライ時間を10秒間にして (ネットワークに負荷がかかっている場合は大きめに設定)、ftp://ftp.ncbi.nih.gov/genomes/Arabidopsis_thaliana/ 以下 (-np: --no-parent, 親ディレクトリを再帰的に回収しない) を再帰的に (-r) 回収します (ドメイン名のディレクトリは作りません)」となります。

こうすることでカレントディレクトリ以下に指定したftpサイトのデータがそのまま保存されます。


なお、genomenet にNCBIのミラーがあります。。
ftp://ftp.genome.jp/pub/db/ncbi/





関連サイト

GNU wget - GNU Project - Free Software Foundation (FSF)
http://wget.sunsite.dk/

wget ダウンロード先
ftp://ftp.gnu.org/pub/gnu/wget/

Wgetを使おう的ページ
http://www.geocities.jp/horiuchimasaru/wget.html

wget tips
http://hnw.jp/documents/unixmemo/wget.html
posted by soreyuke at 16:46| Comment(0) | TrackBack(0) | programing | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:


この記事へのトラックバック
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。