Utilizzo del tool FAW BOT

FAW BOT è un crawler che permette di cercare tutti gli URL delle pagine collegate alla pagina iniziale da cui viene iniziata la ricerca. La caratteristica più interessante di questo tool è la possibilità di cercare pagine e informazioni in siti web protetti da credenziali (esempio: Facebook, Linkedin, ecc…).

La barra degli strumenti di FAW BOT è visibile qui sotto (Fig. 1)

Fig. 1

Sono presenti i seguenti pulsanti (Fig. 2):

Fig. 2

(1) Navigation
Permette di navigare come un normale browser

(2) Search
Inizia la ricerca degli URL

(3) Save
Salva l’elenco degli URL trovati in un file xml che può essere aperto con FAW MULTI

(4) Go to FAW
Esporta l’elenco dei URL trovati direttamente nel tool FAW MULTI per l’acquisizione automatica

(5) Get Height
Tenta di ottenere l’altezza totale della pagina web visualizzata. Il valore ottenuto è mostrato nel textbox a fianco del pulsante.

Oltre a questi cinque pulsanti, nella barra degli strumenti, sono presenti anche le seguenti opzioni:

Domains
Le opzioni tra cui scegliere sono le seguenti:

“Main” se si vuole che la ricerca comprenda solo il dominio principale
“Main+Sub” se si vuole che la ricerca comprenda il dominio principale e i sottodomini
“All” se si vuole che la ricerca comprenda tutti i domini e i sottodomini anche differenti dal principale

Max Level
Permette di scegliere la profondità (livelli) in cui deve essere eseguita la ricerca.

Acquisition page height
Se viene selezionato “auto” il tool cerca di trovare l’altezza totale della pagina visualizzata (attenzione l’utilizzo di questa funzionalità potrebbe rallentare di molto la ricerca).

Filter
È una casella di testo che può essere utilizzata per filtrare i risultati utilizzando le regular expression. A esempio se si vogliono solo le pagine che contengono la parola “business” basterà scrivere nella casella Filter: business; se si vogliono solo le pagine che contengono un qualsiasi indirizzo e-mail basterà scrivere nella casella Filter: ^[a-zA-Z0-9.!#$%&’*+/=?^_`{|}~-]+@[a-zA-Z0-9](?:[a-zA-Z0-9-]{0,61}[a-zA-Z0-9])?(?:\.[a-zA-Z0-9](?:[a-zA-Z0-9-]{0,61}[a-zA-Z0-9])?)*$

Search Type
Permette di far scorrere automaticamente le pagine con caricamento dinamico per ricercare gli URL

I passi corretti, quindi, per utilizzare la ricerca con il tool FAW BOT sono i seguenti:

In modalità Navigazione raggiungere la pagina da cui deve partire la ricerca.
Impostare le opzioni di ricerca: sotto domini, livelli, altezza pagina e filtro.
Premere il pulsante [Search]
Al termine della ricerca cliccare sul pulsante [Save], i risultati della ricerca verranno salvati nella cartella del Caso con il nome ResultsBOT001.xml, in caso di più ricerche i file si chiameranno ResultsBOT002.xml, ResultsBOT003.xml … ecc.
A questo punto se si vuole iniziare l’acquisizione dei siti web si deve cliccare il pulsante [Go to FAW], in questo modo FAW BOT si chiudi e viene aperto il tool FAW MULTI per l’acquisizione automatica delle pagine trovate.

Struttura del file ResultsBOT001.xml

Qui di seguito è mostrato un esempio del contenuto del file xml con i risultati della ricerca:

<?xml version="1.0" encoding="UTF-8"?>
<CrawlerResults>
<CrawlerResult>
<Height>0</Height>
<Url>https://www.testurl.com/</Url>
<TimeSecondsFrom>0</TimeSecondsFrom>
<TimeSecondsTo>0</TimeSecondsTo>
</CrawlerResult>
<CrawlerResult>
<Height>1550</Height>
<Url>https://www.testurl.com/contacts/</Url>
<TimeSecondsFrom>10</TimeSecondsFrom>
<TimeSeconsTo>10</TimeSecondsTo>
</CrawlerResult>
<CrawlerResult>
<Height>9000</Height>
<Url>https://www.testurl.com/feed/</Url>
<TimeSecondsFrom>30</TimeSecondsFrom>
<TimeSecondsTo>30</TimeSecondsTo>
</CrawlerResult>
<CrawlerResult>
<Height>748</Height>
<Url>https://www.testurl.com/comments/video/a1s4frk/</Url>
<TimeSecondsFrom>15</TimeSecondsFrom>
<TimeSecondsTo>220</TimeSecondsTo>
</CrawlerResult>
</CrawlerResults>

Articoli recenti