本記事ではInternet Archiveで大量のURLを自動でアーカイブする方法について解説します。
アカウントの準備
Googleスプレッドシートを使用するため、Googleアカウント及びInternet Archiveアカウントが必要になります。
Internet Archiveアカウントの作成はこちら。
インターネットアーカイブと連携
Batch process Google Sheets using archive.org servicesにアクセス。
スプレッドシートからアーカイブ出来る公式サービスです。
![](https://denshigomi.com/wp/wp-content/uploads/2022/10/archive1.png)
sign in to archive.orgをクリックしてサインイン。
![](https://denshigomi.com/wp/wp-content/uploads/2022/10/archive2.png)
サインイン後に先ほどのページへ戻ると、上の画像のように表示が変わっています。
Sign in with Googleをクリック。
![](https://denshigomi.com/wp/wp-content/uploads/2022/10/archive3.png)
確認画面が表示されるので、続行をクリックしスプレッドシートと連携。
連携に成功すると下の画面になります。
![](https://denshigomi.com/wp/wp-content/uploads/2022/10/archive7.png)
スプレッドシートの作成
Googleスプレッドシートにアクセス。
空白から新規作成し、アーカイブしたいURLを画像のように入れる。
![](https://denshigomi.com/wp/wp-content/uploads/2022/10/archive5.png)
スプレッドシートを保存後、右上の共有から「リンクを知っている全員」に変更し、リンクをコピーする。
![](https://denshigomi.com/wp/wp-content/uploads/2022/10/archive6-1.png)
アーカイブの実行
![](https://denshigomi.com/wp/wp-content/uploads/2022/10/archive4.png)
Archive URLsをクリック。
Google Spreadsheet URLにコピーしたURLを貼り付け。
オプションを設定し(よく分からない場合はそのままでOK)、Archiveをクリックする。
![](https://denshigomi.com/wp/wp-content/uploads/2022/10/archiv8.png)
アーカイブが開始されるのでしばらく待つ(途中で停止したい場合はAbortボタンを押してください)
Done!と表示されたら完了です。
![](https://denshigomi.com/wp/wp-content/uploads/2022/10/archive11.png)
オプションと制限事項
オプションの説明
オプションの各項目について
- Capture outlinks
- 指定したWebページ内のURLも保存する。
- Capture screen shot
- Webページのスクリーンショットも保存する。
- Save also in my web archive
- archive.orgのマイページに保存したWebページを追加する。
- Save results in a new Sheet
- 新しいスプレッドシートを作成し、結果を書き込む。
- Capture only if not archived within
- 指定した時間の間、アーカイブされていない場合のみ保存(6hoursの場合、過去6時間アーカイブされていない場合のみ保存)
- Delay the availability of new captures for ~10 hours
- アーカイブが利用できるようになる時間を最大10時間遅らせる。
制限事項
- 実行できるのは1度に1つのスプレッドシートのみ
- 1つのスプレッドシートで処理できるのは5万件まで
- 1日あたり処理できるのは10万件まで
どの位で制限に達するかはArchive URLsのページ上部から確認可能です。
![](https://denshigomi.com/wp/wp-content/uploads/2022/10/archive12.png)
コメント