Tradução: Felipe Machado Cardoso Ultima modificação: 2 de 3 de 2012 IntroduçãoPermite baixar arquivos sem riscos, ou seja,mantém um resumo do que foi baixado referências
autenticar no proxywget --proxy-user=YOUR-USERNAME-HERE --proxy-password=YOUR-PASSWORD-HERE http://file.tar.bz2 # podemos ainda configurar o proxy para o wget assim # se desejar configurar o proxy para o wget em um script faça assim PROXY="192.168.1.11:8080" sed -ri "s,^#([hf]tt?ps?_proxy\s+=\s+http://).*,\1${PROXY}/,g" /etc/wgetrc sed -ir '/^#use_proxy = on/s/^#//g' /etc/wgetrc baixando as fontes do googlewget -A *.ttf -r -c -nd -np https://googlefontdirectory.googlecode.com/hg # baixando pdf's wget -r -A .pdf -l 5 -nH --no-parent http://example.com baixe a gplv3 para seu projetowget -O LICENSE.txt http://www.gnu.org/licenses/gpl-3.0.txtSe desejar baixar um arquivo com o wget direto para um local faça: wget http://endereco/do/arquivo/vimrc -O ~/.vimrc wget --limit-rate=15k -i links.txt baixando um script e tornando o mesmo executávelwget -c http://url-do-script -O /local/nome-que-deseja && chmod 0755 !#:4 # no comando abaixo $_ corresponde ao último parâmetro do primeiro comando (antes do &&) wget -c http://url-do-script -O /local/nome-que-deseja && chmod 0755 $_ pegando seu ip externowget -qO- ifconfig.me/ip # lembrando que para pegar o ip externo é mais fácil com o curl curl ifconfig.me agendando um downloadecho 'wget -c url' | at 12:00 tradutortranslate(){ wget -qO- "http://ajax.googleapis.com/ajax/services/language/translate?v=1.0&q=$1&langpair=$2|${3:-en}" | sed 's/.*"translatedText":"\([^"]*\)".*}/\1\n/'; } translate <phrase> <source-language> <output-language> ignorando robotswget -m -nd -A.avi -erobots=off -i urls.txt baixar uma página inteirawget --random-wait -r -p -e robots=off -U mozilla http://www.example.com # Use wget to download one page and all it's requisites for offline viewing wget -e robots=off -E -H -k -K -p http://<page>Para deixar os links locais use a opção -k Baixando e descompactando sem deixar o tarball no discowget -qO - http://example.com/path/to/blah.tar.gz | tar xzf - Algumas opções do Wget: * Fazer mirror de site: wget -m http://www.site.com * Fazer mirror de site que possui o arquivo robots.txt não permitindo esta ação (*): wget -e robots=off -m http://www.site.com wget -r -erobots=off -A “.gif” http://www.umsitequalquer.com.etc wget –header=”User-Agent: Mozilla/4.0 (compatible; MSIE 5.0; WindowsNT; DigExt)” http://so.url.msie/aqui wget -P Slides -r -nd -t5 -H --domains=.blogger.com,kaspere.blogpost.com http://kaspere.blogspot.com/ -A.jpg,.jpeg,.jpg.1,.jpeg.1 -erobots=off wget -P /tmp/pastaespecifica -r -p http://www.unicamp.br –accept=JPG,jpg,GIF,gif,png,PNG baixando arquivos por extensãowget -r -l1 -A *.jpg www.urldosite.com.br -r recursividade -l1 nível 1 (profundidade) -A *.jpg extensão aceita Veja também o comando curlcurl --limit-rate 15k http://learnrealenglish.com/AudioVideo/Tip%20[1-7].zip -o tip_#1.zip curl --limit-rate 15k http://learnrealenglish.com/AudioVideo/tips/Tip_[1-7].pdf -o tip_#1.pdf baixando conteúdo ftpwget –ftp-user=ftp-user –ftp-password=ftp-password ftp.servidor.com:/ -r –limit-rate=60k Man page traduzidafonte: http://www.dicas-l.com.br/dicas-l/19991119.phpColaboração: Felipe Machado Cardoso Data de Publicação: 19 de Novembro de 1999 GNU Wget 1.5.3.1, um recuperador não interativo de rede. Uso: WGET [OPCAO]... [URL]... Argumentos exigidos para opções longas são exigidos para opções curtas também. Inicialização: -V, --version exibe informação de versão do Wget e sai. -h, --help imprime esse help. -b, --background executa em segundo plano. -e, --execute=COMMAND executa um comando `.wgetrc'. Logging e arquivo de entrada: -o, --output-file=FILE loga a saída em FILE. -a, --append-output=FILE acrescenta saída em FILE. -d, --debug exibe informações de debug. -q, --quiet quieto (sem saída). -v, --verbose ser detalhista na saída (padrão). -nv, --non-verbose não ser nem detalhista nem 'quieto'. -i, --input-file=FILE ler URL-s de entrada a partir de FILE. -F, --force-html tratar entrada como HTML. Download: -t, --tries=NUMBER configurar tentativas igual a NUMBER (0=ilimitado). -O --output-document=FILE gravar documento como FILE. -nc, --no-clobber don't clobber existing files. -c, --continue continuar arquivo existente. --dot-style=STYLE ajusta estilo de exibição da recuperação (retrieve). -N, --timestamping não recuperar arquivos remotos mais antigos que os locais. -S, --server-response exibir as respostas do servidor. --spider não baixar (download) nada. -T, --timeout=SECONDS ajusta o tempo de expiração para SECONDS. -w, --wait=SECONDS aguarda SECONDS entre retentativas. -Y, --proxy=on/off torna o proxy ligado/desligado. -Q, --quota=NUMBER ajusta a cota de recuperação para NUMBER. Diretórios: -nd --no-directories não criar diretorios. -x, --force-directories força criação de diretorios. -nH, --no-host-directories não criar diretorio do hospedeiro (host). -P, --directory-prefix=PREFIX salvar arquivos em PREFIX/... --cut-dirs=NUMBER ignorar NUMBER componentes de diretorios remotos. Opções HTTP: --http-user=USER ajustar usuário http para USER. --http-passwd=PASS ajustar senha http para PASS. -C, --cache=on/off permite/inibe dados de cache do servidor (normalmente permitido). --ignore-length ignorar campo de cabeçalho `Content-Length'. --header=STRING inserir STRING entre o cabeçalho. --proxy-user=USER ajusta USER como usuario proxy. --proxy-passwd=PASS ajusta PASS como senha proxy. -s, --save-headers salvar cabeçalhos HTTP para arquivo. -U, --user-agent=AGENT idtentifica-se como AGENT em vez de Wget/VERSION. Opções FTP: --retr-symlinks recuperar links simbólicos do FTP. -g, --glob=on/off turn file name globbing on or off. --passive-ftp usar modo de transferência "passivo". Recuperação recursiva: -r, --recursive chupador-web recursivo -- use com cuidado!. -l, --level=NUMBER nível máximo de profundidade (0=ilimitado). --delete-after excluir arquivos após baixar. -k, --convert-links converter links não relativos para relativos. -m, --mirror ligar opções apropriadas para espelhamento. -nr, --dont-remove-listing não remover arquivos `.listing'. Opções de aceitação/rejeição recursivas: -A, --accept=LIST lista de extensões aceitas. -R, --reject=LIST lista de extensões rejeitadas. -D, --domains=LIST lista de domínios aceitos. --exclude-domains=LIST lista (separada por vírgula) de domínios rejeitados. -L, --relative seguir apenas links relativos. --follow-ftp seguir links FTP a partir de documentos HTML. -H, --span-hosts ir para hospedeiros estrangeiros quando em modo recursivo. -I, --include-directories=LIST lista de diretórios permitidos. -X, --exclude-directories=LIST lista de diretórios excluídos. -nh, --no-host-lookup não faça a procura de DNS. -np, --no-parent não subir para diretórios pais. Envie relatórios de erros ee sugestões para |
--level=profundidade
Onde "profundidade" é até que ponto o wget desta na árvore do site a ser baixado.
Tradução: Felipe Machado Cardoso Ultima modificação: 2 de 3 de 2012 IntroduçãoPermite baixar arquivos sem riscos, ou seja,mantém um resumo do que foi baixado referências
autenticar no proxywget --proxy-user=YOUR-USERNAME-HERE --proxy-password=YOUR-PASSWORD-HERE http://file.tar.bz2 # podemos ainda configurar o proxy para o wget assim # se desejar configurar o proxy para o wget em um script faça assim PROXY="192.168.1.11:8080" sed -ri "s,^#([hf]tt?ps?_proxy\s+=\s+http://).*,\1${PROXY}/,g" /etc/wgetrc sed -ir '/^#use_proxy = on/s/^#//g' /etc/wgetrc baixando as fontes do googlewget -A *.ttf -r -c -nd -np https://googlefontdirectory.googlecode.com/hg # baixando pdf's wget -r -A .pdf -l 5 -nH --no-parent http://example.com baixe a gplv3 para seu projetowget -O LICENSE.txt http://www.gnu.org/licenses/gpl-3.0.txtSe desejar baixar um arquivo com o wget direto para um local faça: wget http://endereco/do/arquivo/vimrc -O ~/.vimrc wget --limit-rate=15k -i links.txt baixando um script e tornando o mesmo executávelwget -c http://url-do-script -O /local/nome-que-deseja && chmod 0755 !#:4 # no comando abaixo $_ corresponde ao último parâmetro do primeiro comando (antes do &&) wget -c http://url-do-script -O /local/nome-que-deseja && chmod 0755 $_ pegando seu ip externowget -qO- ifconfig.me/ip # lembrando que para pegar o ip externo é mais fácil com o curl curl ifconfig.me agendando um downloadecho 'wget -c url' | at 12:00 tradutortranslate(){ wget -qO- "http://ajax.googleapis.com/ajax/services/language/translate?v=1.0&q=$1&langpair=$2|${3:-en}" | sed 's/.*"translatedText":"\([^"]*\)".*}/\1\n/'; } translate <phrase> <source-language> <output-language> ignorando robotswget -m -nd -A.avi -erobots=off -i urls.txt baixar uma página inteirawget --random-wait -r -p -e robots=off -U mozilla http://www.example.com # Use wget to download one page and all it's requisites for offline viewing wget -e robots=off -E -H -k -K -p http://<page>Para deixar os links locais use a opção -k Baixando e descompactando sem deixar o tarball no discowget -qO - http://example.com/path/to/blah.tar.gz | tar xzf - Algumas opções do Wget: * Fazer mirror de site: wget -m http://www.site.com * Fazer mirror de site que possui o arquivo robots.txt não permitindo esta ação (*): wget -e robots=off -m http://www.site.com wget -r -erobots=off -A “.gif” http://www.umsitequalquer.com.etc wget –header=”User-Agent: Mozilla/4.0 (compatible; MSIE 5.0; WindowsNT; DigExt)” http://so.url.msie/aqui wget -P Slides -r -nd -t5 -H --domains=.blogger.com,kaspere.blogpost.com http://kaspere.blogspot.com/ -A.jpg,.jpeg,.jpg.1,.jpeg.1 -erobots=off wget -P /tmp/pastaespecifica -r -p http://www.unicamp.br –accept=JPG,jpg,GIF,gif,png,PNG baixando arquivos por extensãowget -r -l1 -A *.jpg www.urldosite.com.br -r recursividade -l1 nível 1 (profundidade) -A *.jpg extensão aceita Veja também o comando curlcurl --limit-rate 15k http://learnrealenglish.com/AudioVideo/Tip%20[1-7].zip -o tip_#1.zip curl --limit-rate 15k http://learnrealenglish.com/AudioVideo/tips/Tip_[1-7].pdf -o tip_#1.pdf baixando conteúdo ftpwget –ftp-user=ftp-user –ftp-password=ftp-password ftp.servidor.com:/ -r –limit-rate=60k Man page traduzidafonte: http://www.dicas-l.com.br/dicas-l/19991119.phpColaboração: Felipe Machado Cardoso Data de Publicação: 19 de Novembro de 1999 GNU Wget 1.5.3.1, um recuperador não interativo de rede. Uso: WGET [OPCAO]... [URL]... Argumentos exigidos para opções longas são exigidos para opções curtas também. Inicialização: -V, --version exibe informação de versão do Wget e sai. -h, --help imprime esse help. -b, --background executa em segundo plano. -e, --execute=COMMAND executa um comando `.wgetrc'. Logging e arquivo de entrada: -o, --output-file=FILE loga a saída em FILE. -a, --append-output=FILE acrescenta saída em FILE. -d, --debug exibe informações de debug. -q, --quiet quieto (sem saída). -v, --verbose ser detalhista na saída (padrão). -nv, --non-verbose não ser nem detalhista nem 'quieto'. -i, --input-file=FILE ler URL-s de entrada a partir de FILE. -F, --force-html tratar entrada como HTML. Download: -t, --tries=NUMBER configurar tentativas igual a NUMBER (0=ilimitado). -O --output-document=FILE gravar documento como FILE. -nc, --no-clobber don't clobber existing files. -c, --continue continuar arquivo existente. --dot-style=STYLE ajusta estilo de exibição da recuperação (retrieve). -N, --timestamping não recuperar arquivos remotos mais antigos que os locais. -S, --server-response exibir as respostas do servidor. --spider não baixar (download) nada. -T, --timeout=SECONDS ajusta o tempo de expiração para SECONDS. -w, --wait=SECONDS aguarda SECONDS entre retentativas. -Y, --proxy=on/off torna o proxy ligado/desligado. -Q, --quota=NUMBER ajusta a cota de recuperação para NUMBER. Diretórios: -nd --no-directories não criar diretorios. -x, --force-directories força criação de diretorios. -nH, --no-host-directories não criar diretorio do hospedeiro (host). -P, --directory-prefix=PREFIX salvar arquivos em PREFIX/... --cut-dirs=NUMBER ignorar NUMBER componentes de diretorios remotos. Opções HTTP: --http-user=USER ajustar usuário http para USER. --http-passwd=PASS ajustar senha http para PASS. -C, --cache=on/off permite/inibe dados de cache do servidor (normalmente permitido). --ignore-length ignorar campo de cabeçalho `Content-Length'. --header=STRING inserir STRING entre o cabeçalho. --proxy-user=USER ajusta USER como usuario proxy. --proxy-passwd=PASS ajusta PASS como senha proxy. -s, --save-headers salvar cabeçalhos HTTP para arquivo. -U, --user-agent=AGENT idtentifica-se como AGENT em vez de Wget/VERSION. Opções FTP: --retr-symlinks recuperar links simbólicos do FTP. -g, --glob=on/off turn file name globbing on or off. --passive-ftp usar modo de transferência "passivo". Recuperação recursiva: -r, --recursive chupador-web recursivo -- use com cuidado!. -l, --level=NUMBER nível máximo de profundidade (0=ilimitado). --delete-after excluir arquivos após baixar. -k, --convert-links converter links não relativos para relativos. -m, --mirror ligar opções apropriadas para espelhamento. -nr, --dont-remove-listing não remover arquivos `.listing'. Opções de aceitação/rejeição recursivas: -A, --accept=LIST lista de extensões aceitas. -R, --reject=LIST lista de extensões rejeitadas. -D, --domains=LIST lista de domínios aceitos. --exclude-domains=LIST lista (separada por vírgula) de domínios rejeitados. -L, --relative seguir apenas links relativos. --follow-ftp seguir links FTP a partir de documentos HTML. -H, --span-hosts ir para hospedeiros estrangeiros quando em modo recursivo. -I, --include-directories=LIST lista de diretórios permitidos. -X, --exclude-directories=LIST lista de diretórios excluídos. -nh, --no-host-lookup não faça a procura de DNS. -np, --no-parent não subir para diretórios pais. Envie relatórios de erros ee sugestões para |
--level=profundidade
Onde "profundidade" é até que ponto o wget desta na árvore do site a ser baixado.
Comentários