recursos do wget

#Download onde não aceita cache, de origem interna ao domínio, com robots.txt desativado, se passando por Mozilla em sistema operacional Windows, download verificação temporal, continuada, convertendo links, baixando recursivamente, em modo mirror, e todos elementos necessários para reconstrução da página
wget --header="Pragma: no-cache" \
--header="Referer: http://www.incolume.com.br" \
--erobots=off \
--user-agent="Mozilla/5.0 (compatible; MSIE 8.0; Windows 8.0)" \
-Nckrmp http://brito.blog.incolume.com.br/
#download de site recursivo
wget -krmp http://www.incolume.com.br


# download de site recursivo descartando configuração de robots e simulando um mozilla em linux
wget -c -krmp -erobots=off --user-agent="Mozilla/5.0 (X11; U; Linux i686; pt-BR;) Mozilla Firefox/3.6.8" http://brito.blog.incolume.com.br/


# download de site recursivo descartando configuração de robots e simulando um mozilla em windows
wget -c -krmp -erobots=off --user-agent="Mozilla/5.0 (compatible; MSIE 8.0; Windows 8.0)" http://brito.blog.incolume.com.br/


#Atualizar os arquivos do diretório local a partir de URLs no servidor svn
wget --no-host-directories --cut-dirs=5 --force-directories -i ../wikipac.url


#Baixar somente arquivos de uma determinada extensão
wget -r -A ".html" http://www.incolume.com.br


#mirror de sites inteiros
wget -m http://www.incolume.com.br


#sites autenticados
wget http://usuario:senha@servidor.com.etc/arquivo.etc


#Time Out em conexões
wget -T30 http://www.incolume.com.br


#Quantidade de tentativas de downloads, sendo 0, ilimitado
wget -t0 http://www.incolume.com.br


#Para fazer o download apenas de imagens nos formatos jpg, gif e png
wget -P /tmp/pastaespecifica -r -p http://www.unicamp.br --accept=JPG,jpg,GIF,gif,png,PNG


#Para fazer o download do arquivo 'arquivo.txt' de um ftp que exija login e senha
wget ftp://login:senha@ftp.servidor.com/diretorio/arquivo.txt
wget ftp://usuario:senha@servidor_ftp.com.br/arquivo.extensao


#Para limitar o download a no máximo 10Kbps
wget --limit-rate=10k --continue http://algumendereco/arquivo.zip


#Ignora a leitura de cache para downloads via proxy
wget -c --header="Pragma: no-cache" http://coloque.o.seu.url/aqui


# Alguns sítios recusam-se a servir arquivos via uma ligação externa; o conteúdo é entregue somente a navegadores se acederem a página via outra página no mesmo sítio. Pode contornar isto adicionando um cabeçalho 'Referer:'
wget --header="Referer: http://site.com/pagina" http://navegar.para.esta/pagina


#A opção "-N" para o wget irá verificar o selo temporal do objectivo e parar a transferência se eles coincidirem, o que é uma indicação que o ficheiro/arquivo completo foi transferido. Por isso pode activa-lo e esquece-lo
wget -c -N http://coloque.o.seu.url/arquivo

#Se houver um proxy na configuração padrão do sistema operacional, e o objetivo é não passar pelo proxy, pode usar a opção '--no-proxy'
wget --no-proxy http://192.168.0.1/arquivo

publicado em 25 Ago 2010, atualizado 17 set 2011 e 1 dez 2015;

Comentários