wtorek, 25 września 2012

Sitemap generator [CRAWLER]

Zbieranie linków ze strony WWW:
wget --spider --recursive --no-verbose --output-file=wgetlog.txt http://example.com sed -n "s@.\+ URL:\([^ ]\+\) .\+@\1@p" wgetlog.txt | sed "s@&@\&@" > sedlog.txt

Mirrorowanie strony:
wget --mirror --limit-rate=250k --wait=1 -erobots=off --no-parent --page-requisites --convert-links --no-host-directories --cut-dirs=2 --directory-prefix=DIR http://www.example.com/index.php