インターネットアーカイブで大量のURLをアーカイブする方法

その他
記事内に広告が含まれています。

本記事ではInternet Archiveで大量のURLを自動でアーカイブする方法について解説します。

スポンサーリンク

アカウントの準備

Googleスプレッドシートを使用するため、Googleアカウント及びInternet Archiveアカウントが必要になります。

Internet Archiveアカウントの作成はこちら。

インターネットアーカイブと連携

Batch process Google Sheets using archive.org servicesにアクセス。

スプレッドシートからアーカイブ出来る公式サービスです。

sign in to archive.orgをクリックしてサインイン。

サインイン後に先ほどのページへ戻ると、上の画像のように表示が変わっています。

Sign in with Googleをクリック。

確認画面が表示されるので、続行をクリックしスプレッドシートと連携。

連携に成功すると下の画面になります。

スプレッドシートの作成

Googleスプレッドシートにアクセス。

空白から新規作成し、アーカイブしたいURLを画像のように入れる。

一度に処理できるURLの数は5万件までです。それ以降は無視されます。

スプレッドシートを保存後、右上の共有から「リンクを知っている全員」に変更し、リンクをコピーする。

アーカイブの実行

Archive URLsをクリック。

Google Spreadsheet URLにコピーしたURLを貼り付け。

オプションを設定し(よく分からない場合はそのままでOK)、Archiveをクリックする。

アーカイブが開始されるのでしばらく待つ(途中で停止したい場合はAbortボタンを押してください)

Done!と表示されたら完了です。

オプションと制限事項

オプションの説明

オプションの各項目について

  • Capture outlinks
    • 指定したWebページ内のURLも保存する。
  • Capture screen shot
    • Webページのスクリーンショットも保存する。
  • Save also in my web archive
    • archive.orgのマイページに保存したWebページを追加する。
  • Save results in a new Sheet
    • 新しいスプレッドシートを作成し、結果を書き込む。
  • Capture only if not archived within
    • 指定した時間の間、アーカイブされていない場合のみ保存(6hoursの場合、過去6時間アーカイブされていない場合のみ保存)
  • Delay the availability of new captures for ~10 hours
    • アーカイブが利用できるようになる時間を最大10時間遅らせる。

制限事項

  • 実行できるのは1度に1つのスプレッドシートのみ
  • 1つのスプレッドシートで処理できるのは5万件まで
  • 1日あたり処理できるのは10万件まで

どの位で制限に達するかはArchive URLsのページ上部から確認可能です。

コメント

タイトルとURLをコピーしました