chyvack (chyvack) wrote,
chyvack
chyvack

Categories:

Как скачать файлы по маске с сайта, с помощью wget

wget скачать файлы с сайта по маске:

wget -с -r -k -l 5 -p -E -nc -np -A pdf --random-wait -U mozilla http://example.com/

-c, --continue — докачивать частично полученные файлы, в случае обрыва связи во время предыдущей закачки.
-r, --recursive — рекурсивное скачивание (ходим по ссылкам)
-k, --convert-links — преобразовываем ссылки к локальному виду
-p, --page-requisites — скачивание ресурсов необходимых для отображения html-страницы (стили, картинки и т.д.)
-l — глубина скачивания, 0 - бесконечная вложенность ссылок. по-умолчанию глубина 5.
-nc — не перезаписывать существующие файлы
-np, --no-parent — не подниматься выше начального адреса при рекурсивной загрузке
-nd, --no-directories — Не создавать иерархию каталогов во время рекурсивной выборки. При использовании этой опции, все получаемые файлы будут сохраняться в текущем каталоге без разрушения (если имя файла будет встречаться более одного раза, то имена файлов будут расширяться суффиксом «.n»).
-A pdf - скачивать файлы с расширением pdf. Можно указывать несколько: wget -A png,jpg http://example.com/
-A acclist, --accept acclist, -R rejlist, --reject rejlist — имена файлов через запятую которые следует загрузить или исключить. Можно указать маски в posix-стиле.
--restrict-file-names=windows — убирает из имён файлов и директорий запрещённые символы для ОС Windows.
--limit-rate=50k — ограничение скорости скачивания
--no-check-certificate — не проверять сертификат сервера.
--user-agent=agent-string или -U agent-string — представляться как agent-string при запросах к серверу.
По-умолчанию wget исполняет инструкции из файла robots.txt, например, сайт может запретить роботам посещать все либо определённые страницы. Чтобы wget игнорировал эти инструкции, нужно добавить параметр:
-e robots=off

--random-wait -U mozilla

Скачать сайт целиком:
wget -r -k -l 7 -p -E -c -np -nc --no-check-certificate https://breed.hackpascal.net


wget --no-parent -nd -k -p -H -E -K --restrict-file-names=windows https://example.com/path/index.html

wget -r -l1 -k -p --restrict-file-names=ascii --user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64; rv:26.0) Gecko/20100101 Firefox/26.0" https://example.com/path/index.html

wget -r -k -l 7 -p -E -nc --user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64; rv:26.0) Gecko/20100101 Firefox/26.0" https://example.com/path/index.html

wget -A "*page=*" -r -np -nc -l2 --no-check-certificate -e robots=off https://example.com/path/index.html

wget --no-check-certificate -nc -r -A 'article/*-[0-9]*.html','category/news/?page=*' -R 'archhive/old/*/*.html' https://example.com/path/index.html

wget --no-check-certificate -nc https://example.com/path/index.html

Шпаргалка по wget аргументам команды

-k, —convert-links — после завершения скачивания преобразовать все абсолютные ссылки на скачанные документы в относительные. Если загружен файл, на который есть ссылка, то ссылка будет указывать на него, если нет — ссылка будет указывать на его адрес в интернете.

-nc, —no-clobber — запрещает перезапись существующих файлов, на случай если нужно возобновить остановленную загрузку.

-N, —timestamping — скачивать файлы с более поздней датой, чем уже имеющиеся. С помощью этого флага можно обновить только изменённые страницы.

-K, —backup-converted — конвертировать ссылки обратно, убирать расширение .orig, изменяет поведение опции -N.

-l depth, —level=depth — максимальная глубина вложенности страниц, по-умолчанию depth = 5. Если указать 0 — то wget будет скачивать по всем найденным ссылкам. Если указать 1 — будут скачана указанная страница и все те страницы, на которые она ссылается.

—restrict-file-names=windows — убирает из имён файлов и директорий запрещённые символы для ОС Windows.

-E, —adjust-extension — сохранит файлы с mime-type application/xhtml+xml или text/html с расширением .html, нужно в случае выкачивания динамических сайтов с расширениями .php или .asp. До версии wget 1.12 назывался html-extension.

—domains example.com — разрешает переход по ссылкам только указанных доменов.

-H, —span-hosts — разрешает переходить на любые доменные имена на которые будут указывать ссылки.

-nv, —non-verbose — выводит краткий журнал об обработанных страницах.

-e command, —execute command — выполнить command как если бы она была частью .wgetrc. Команда будет выполнена после команд
в .wgetrc.
Как заставить wget игнорировать robots.txt?


Альтернатива wget — HTTrack

Помимо wget, существует ещё одна консольная утилита упрощающая выкачку сайтов целиком — HTTrack.

httrack https://example.com/path/index.html -* +*page=* +*/article/*-*[0-9].html -O . --continue

-O, —path — директория в которую будут сохраняться скаченные файлы.

-i, —continue — продолжить прерванную процедуру скачивания.

-* — запретить скачивание любых файлов, кроме прямо разрешённых.

+1_[a-z].doc — скачать файлы соответствующие маске, например 1_a.doc, 1_b.doc.
Читайте также

wget --random-wait -r -p -e robots=off -U mozilla http://www.example.com
-p parameter tells wget to include all files, including images. -e robots=off you don't want wget to obey by the robots.txt file -U mozilla as your browsers identity. --random-wait to let wget chose a random number of seconds to wait, avoid get into black list. Other Useful wget Parameters: --limit-rate=20k limits the rate at which it downloads files. -b continues wget after logging out. -o $HOME/wget_log.txt logs the output

wget --random-wait -r -p -e robots=off -U mozilla http://www.example.com — выкачать весь сайт.

Скачиваем весь веб сайт

wget –random-wait -r -p -e robots=off -U mozilla http://www.example.com

-p параметр указывающий для wget необходимость скачивать все файлы, включая изображения.
-e robots=off вы не хотите, чтобы wget подчинялся правилам файла robots.txt
-U mozilla идентификатор вашего браузера.
–random-wait указывает wget делать случайные интервал задержек между скачиваниями, своеобразная защита от возможного попадания в бан
Еще несколько полезных параметров wget:
–limit-rate=20k ограничение скорости закачки
-b продолжает выполнять wget даже после выхода из консоли
-o $HOME/wget_log.txt выводим в лог выходные сообщения
Tags: aria2c, download, hack, internet, linux, software, torrent, wget, windows, youtube-dl, софт, хозяйке на заметку
Subscribe

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 3 comments