WgetでWebサイトをまるごとダウンロードする
目次
Wgetとは
Wgetとは、Unix系のOSでファイルをダウンロードするために使用されるコマンドラインツールです。
Wgetを使用すると、通常のファイルダウンロードの他に、再帰的なダウンロードや複数のファイルを一度にダウンロードすることも可能です。
WindowsでのWget使用方法
Wgetのダウンロード
Windows版のWgetを配布サイトからダウンロードします。
説明では以下サイトからダウンロードしたものを使用しています。
Wgetのインストール
ダウンロードしたファイルを解凍し、wget.exe
のあるフォルダーを環境変数のPATH
に追加します。
PATH
追加後、コマンドプロンプトでwget --version
を実行し、バージョンが表示されればインストールは完了です。
> wget --version
GNU Wget 1.21.4 built on mingw32.
(以下略)
Wgetの使用方法
Wgetの構文は以下のとおりです。
wget [options] [URL]
「https://example.com/example.zip
」をダウンロードするには以下を実行します。
wget https://example.com/example.zip
Webサイトをまるごとダウンロードする
Webサイトをまるごとダウンロードするには、以下を実行します。
(※ オプションは一例ですので適宜変更してください)
wget --no-check-certificate -m -np -k -p [URL]
上記構文のオプションは以下の通りです。
--no-check-certificate
:サーバ証明書を検証しない-m
:ミラーリングする(-N -r -l 0 --no-remove-listing
の省略形)-np
:親ディレクトリを取得対象にしない-k
:HTML中のリンクをローカルを指すように変更する-p
:HTMLを表示するのに必要なすべての画像等も取得する
「https://example.com/
」をまるごとダウンロードする場合は、コマンドプロンプトで以下を実行します。
wget --no-check-certificate -m -np -k -p https://example.com/
参考
Wgetのオプションについて
Wgetのオプションはwget --help
で確認できます。
> wget --help
非対話的ネットワーク転送ソフト
使い方: wget [オプション]... [URL]...
長いオプションで不可欠な引数は短いオプションでも不可欠です。
スタートアップ:
-V, --version バージョン情報を表示して終了する
-h, --help このヘルプを表示する
-b, --background スタート後にバックグラウンドに移行する
-e, --execute=COMMAND `.wgetrc'形式のコマンドを実行する
ログと入力ファイル:
-o, --output-file=FILE ログを FILE に出力する
-a, --append-output=FILE メッセージを FILE に追記する
-d, --debug デバッグ情報を表示する
-q, --quiet 何も出力しない
-v, --verbose 冗長な出力をする (デフォルト)
-nv, --no-verbose 冗長ではなくする
-i, --input-file=FILE FILE の中に指定された URL をダウンロードする
-F, --force-html 入力ファイルを HTML として扱う
-B, --base=URL 相対 URL(-F -i 使用時) のベース URL を指定する
ダウンロード:
-t, --tries=NUMBER リトライ回数の上限を指定 (0 は無制限).
--retry-connrefused 接続を拒否されてもリトライする
-O, --output-document=FILE FILE に文書を書きこむ
-nc, --no-clobber 存在しているファイルをダウンロードで上書きしない
-c, --continue 部分的にダウンロードしたファイルの続きから始める
--progress=TYPE 進行表示ゲージの種類を TYPE に指定する
-N, --timestamping ローカルにあるファイルよりも新しいファイルだけ取得する
-S, --server-response サーバの応答を表示する
--spider 何もダウンロードしない
-T, --timeout=SECONDS 全てのタイムアウトを SECONDS 秒に設定する
--dns-timeout=SECS DNS 問い合わせのタイムアウトを SECS 秒に設定する
--connect-timeout=SECS 接続タイムアウトを SECS 秒に設定する
--read-timeout=SECS 読み込みタイムアウトを SECS 秒に設定する
-w, --wait=SECONDS ダウンロード毎に SECONDS 秒待つ
--waitretry=SECONDS リトライ毎に 1..SECONDS 秒待つ
--random-wait ダウンロード毎に 0.5*WAIT...1.5*WAIT 秒待つ
-Y, --proxy プロキシを使う
--no-proxy プロキシを使わない
-Q, --quota=NUMBER ダウンロードするバイト数の上限を指定する
--bind-address=ADDRESS ローカルアドレスとして ADDRESS (ホスト名か IP) を使う
--limit-rate=RATE ダウンロード速度を RATE に制限する
--no-dns-cache DNS の問い合わせ結果をキャッシュしない
--restrict-file-names=OS OS が許しているファイル名に制限する
-4, --inet4-only IPv4 だけを使う
-6, --inet6-only IPv6 だけを使う
--prefer-family=FAMILY 指定したファミリ(IPv6, IPv4, none)で最初に接続する
--user=USER ftp, http のユーザ名を指定する
--password=PASS ftp, http のパスワードを指定する
ディレクトリ:
-nd, --no-directories ディレクトリを作らない
-x, --force-directories ディレクトリを強制的に作る
-nH, --no-host-directories ホスト名のディレクトリを作らない
--protocol-directories プロトコル名のディレクトリを作る
-P, --directory-prefix=PREFIX ファイルを PREFIX/ 以下に保存する
--cut-dirs=NUMBER リモートディレクトリ名の NUMBER 階層分を無視する
HTTP オプション:
--http-user=USER http ユーザ名として USER を使う
--http-password=PASS http パスワードとして PASS を使う
--no-cache サーバがキャッシュしたデータを許可しない
-E, --html-extension HTML 文書は `.html' 拡張子で保存する
--ignore-length `Content-Length' ヘッダを無視する
--header=STRING 送信するヘッダに STRING を追加する
--proxy-user=USER プロキシユーザ名として USER を使う
--proxy-password=PASS プロキシパスワードとして PASS を使う
--referer=URL Referer を URL に設定する
--save-headers HTTP のヘッダをファイルに保存する
-U, --user-agent=AGENT User-Agent として Wget/VERSION ではなく AGENT を使う
--no-http-keep-alive HTTP の keep-alive (持続的接続) 機能を使わない
--no-cookies クッキーを使わない
--load-cookies FILE セッションの前にファイルからクッキーをロードする
--save-cookies FILE セッションの後にクッキーをファイルに保存する
--keep-session-cookies セッションだけで用いるクッキーを保持する
--post-data=STRING POST メソッドを用いて STRING を送信する
--post-file=FILE POST メソッドを用いて FILE の中味を送信する
HTTPS (SSL/TLS) オプション:
--secure-protocol=PR セキュアプロトコルを選択する (auto, SSLv2, SSLv3, TLSv1)
--no-check-certificate サーバ証明書を検証しない
--certificate=FILE クライアント証明書として FILE を使う
--certificate-type=TYPE クライアント証明書の種類を TYPE (PEM, DER) に設定する
--private-key=FILE 秘密鍵として FILE を使う
--private-key-type=TYPE 秘密鍵の種類を TYPE (PEM, DER) に設定する
--ca-certificate=FILE CA 証明書として FILE を使う
--ca-directory=DIR CA のハッシュリストが保持されているディレクトリを指定する
--random-file=FILE SSL PRNG の初期化データに使うファイルを指定する
--egd-file=FILE EGD ソケットとして FILE を使う
FTP オプション:
--ftp-user=USER ftp ユーザとして USER を使う
--ftp-password=PASS ftp パスワードとして PASS を使う
--no-remove-listing `.listing' ファイルを削除しない
--no-glob FTP ファイル名のグロブを無効にする
--no-passive-ftp "passive" 転送モードを使わない
--retr-symlinks 再帰取得中に、シンボリックリンクでリンクされた先のファイルを取得する
--preserve-permissions リモートファイルのパーミッションを保存する
再帰ダウンロード:
-r, --recursive 再帰ダウンロードを行う
-l, --level=NUMBER 再帰時の階層の最大の深さを NUMBER に設定する (0 で無制限)
--delete-after ダウンロード終了後、ダウンロードしたファイルを削除する
-k, --convert-links HTML 中のリンクをローカルを指すように変更する
-K, --backup-converted リンク変換前のファイルを .orig として保存する
-m, --mirror -N -r -l 0 --no-remove-listing の省略形
-p, --page-requisites HTML を表示するのに必要な全ての画像等も取得する
--strict-comments HTML 中のコメントの処理を厳密にする
再帰ダウンロード時のフィルタ:
-A, --accept=LIST ダウンロードする拡張子をコンマ区切りで指定する
-R, --reject=LIST ダウンロードしない拡張子をコンマ区切りで指定する
-D, --domains=LIST ダウンロードするドメインをコンマ区切りで指定する
--exclude-domains=LIST ダウンロードしないドメインをコンマ区切りで指定する
--follow-ftp HTML 文書中の FTP リンクも取得対象にする
--follow-tags=LIST 取得対象にするタグ名をコンマ区切りで指定する
--ignore-tags=LIST 取得対象にしないタグ名をコンマ区切りで指定する
-H, --span-hosts 再帰中に別のホストもダウンロード対象にする
-L, --relative 相対リンクだけ取得対象にする
-I, --include-directories=LIST 取得対象にするディレクトリを指定する
-X, --exclude-directories=LIST 取得対象にしないディレクトリを指定する
-np, --no-parent 親ディレクトリを取得対象にしない