Usa Excel come strumento per copiare dati dal Web

Il web scraping(Web scraping) è l'atto di estrarre dati, informazioni o immagini da un sito Web utilizzando un metodo automatizzato. Pensalo(Think) come copia e incolla(copy and paste) in modo completamente automatico.

Scriviamo o utilizziamo un'app per accedere ai siti Web che desideriamo e fare una copia delle cose specifiche che desideriamo da quei siti Web. È molto più preciso del download di un intero sito web.

Come qualsiasi strumento, il web scraping può essere utilizzato nel bene o nel male. Alcuni dei motivi migliori per lo scraping dei siti Web potrebbero essere il posizionamento in un motore di ricerca in(search engine) base al contenuto, agli acquisti(price comparison shopping) di confronto dei prezzi o al monitoraggio delle informazioni sul mercato azionario(stock market information) . Potresti persino usarlo come una sorta di strumento di ricerca .(research tool)

Come posso raschiare i siti Web con Excel ?

Che ci crediate o no, Excel ha avuto la capacità di estrarre dati dai siti Web per molto tempo, almeno da Excel 2003 . È solo che il web scraping è qualcosa a cui la maggior parte delle persone non pensa(t think) , per non parlare di usare un programma di fogli(spreadsheet program) di calcolo per fare il lavoro. Ma è sorprendentemente facile e potente. Impariamo come è fatto creando una raccolta di scorciatoie da tastiera di Microsoft Office(Microsoft Office keyboard) .

Trova i siti che vuoi raschiare

La prima cosa che faremo è trovare le pagine web specifiche da cui vogliamo ottenere informazioni. Andiamo alla fonte e cerchiamo(source and search) su https://support.office.com/ . Utilizzeremo il termine di ricerca(search term) "scorciatoie usate di frequente". Possiamo renderlo più specifico usando il nome dell'app specifica, come Outlook , Excel , Word e così via. Potrebbe essere una buona idea aggiungere la pagina dei risultati ai segnalibri in modo da poterci tornare facilmente.

Fare clic(Click) sul risultato della ricerca(search result) , "Scorciatoie da tastiera in Excel per Windows". Una volta in quella pagina, trova l'elenco delle versioni di Excel e fai clic su Versioni più recenti(Newer Versions) . Ora stiamo lavorando con l'ultimo e il più grande.

Potremmo tornare alla nostra pagina dei risultati di ricerca e aprire i risultati per tutte le altre app di Office(Office apps) nelle loro schede e aggiungerli ai segnalibri. È una buona idea, anche per questo esercizio. È qui che la maggior parte delle persone si fermerebbe nella raccolta di scorciatoie di Office , ma non noi. (Office)Li metteremo in Excel così possiamo fare quello che vogliamo con loro, quando vogliamo.

Apri Excel e cancella

Apri Excel e avvia una nuova cartella di lavoro. Salva la cartella di lavoro come Collegamenti di Office(Office Shortcuts) . Se hai OneDrive, salvalo lì in modo che la funzione di salvataggio automatico(AutoSave ) funzioni.

Una volta salvata la cartella di lavoro, fare clic sulla scheda Dati .(Data)

Nella barra multifunzione della scheda Dati(Data tab) , fare clic su Dal Web(From Web) .

Si aprirà la finestra della procedura guidata Dal Web . (From Web )Qui è dove inseriamo l' indirizzo web o l'URL(web address or URL) del sito web da cui vogliamo estrarre i dati. Passa al tuo browser web e copia(copy) l'URL.

Incollare l'URL nel campo URL della procedura guidata Dal Web(From Web wizard) . Potremmo scegliere di usarlo in modalità Base(Basic) o Avanzata(Advanced) . La modalità Avanzata(Advanced mode) ci offre molte più opzioni su come accedere ai dati dal sito web. Per questo esercizio, abbiamo solo bisogno della modalità Base. Fare clic su (Click) OK .

Excel tenterà ora di connettersi al sito Web. Questa operazione potrebbe richiedere alcuni secondi. Vedremo una finestra di avanzamento(progress window) , se lo fa.

Si aprirà la finestra del Navigatore(Navigator) e sulla sinistra vedremo un elenco di tabelle dal sito web. Quando ne selezioniamo uno, vedremo un'anteprima della tabella sulla destra. Selezioniamo la tabella delle scorciatoie usate di frequente(Frequently used shortcuts ) .

Possiamo fare clic sulla scheda Visualizzazione Web(Web View) per vedere il sito Web effettivo, se dobbiamo cercare il tavolo che desideriamo. Quando lo troviamo, possiamo fare clic su di esso e verrà selezionato per l'importazione.

Ora, facciamo clic sul pulsante Carica(Load) nella parte inferiore di questa finestra. Ci sono altre opzioni che potremmo scegliere, che sono più complesse e oltre lo scopo del nostro primo scraping. Basta essere consapevoli che sono lì. Le capacità di web scraping di Excel sono molto potenti.

La tabella web(web table) verrà caricata in Excel dopo pochi secondi. Vedremo i dati a sinistra, dove il numero 1 è nell'immagine qui sotto. Il numero 2 evidenzia la Query utilizzata per ottenere i dati dal sito web. Quando abbiamo più query in una cartella di lavoro, è qui che selezioniamo quella che dobbiamo usare.

Si noti(Notice) che i dati entrano nel foglio di calcolo come una tabella di Excel. È già configurato per poter filtrare o ordinare i dati.

Possiamo ripetere questo processo per tutte le altre pagine Web che dispongono dei collegamenti di Office desiderati per (Office)Outlook , Word , Access , PowerPoint e qualsiasi altra app di Office(Office app) .

Mantenere aggiornati i dati raschiati(Scraped Data Current) in Excel

Come bonus per te, impareremo come mantenere aggiornati i nostri dati raschiati in Excel . Questo è un ottimo modo per illustrare quanto sia potente Excel per lo scraping dei dati. Anche con questo, stiamo eseguendo solo lo scraping più semplice che Excel può fare.

Per questo esempio, utilizziamo una pagina Web di informazioni sulle azioni come (stock information)https://www.cnbc.com/stocks/ .

Esamina ciò che abbiamo fatto prima e copia e incolla(copy and paste) il nuovo URL dalla barra degli indirizzi(address bar) .

Arriverai alla finestra del Navigatore(Navigator window) e vedrai le tabelle disponibili. Selezioniamo i principali indici azionari statunitensi(Major U.S. Stock Indices) .

Una volta che i dati sono stati raschiati, vedremo il seguente foglio di calcolo.

Sulla destra, vediamo la query per i principali indici azionari statunitensi(Major U.S. Stock Indexes) . Selezionalo(Select) in modo che sia evidenziato. Assicurati(Make) di essere nella scheda Strumenti(Table Tools) tabella e nell'area Progettazione(Design) . Quindi fare clic sulla freccia giù sotto Aggiorna(Refresh) . Quindi fare clic su Proprietà connessione(Connection Properties) .

Nella finestra Proprietà della query , nella scheda (Query Properties )Utilizzo(Usage) , possiamo controllare il modo in cui queste informazioni vengono aggiornate. Possiamo impostare un periodo di tempo specifico per l'aggiornamento, o per l'aggiornamento quando apriamo la cartella di lavoro la prossima volta, o per l'aggiornamento in background, o qualsiasi combinazione di questi. Una volta scelto ciò di cui abbiamo bisogno, fare clic su OK per chiudere la finestra e continuare.

Questo è tutto! Ora puoi tenere traccia dei prezzi delle azioni, dei risultati sportivi o di qualsiasi altro dato che cambia frequentemente da un foglio di calcolo Excel(Excel spreadsheet) . Se sei bravo con le equazioni e le funzioni di Excel , puoi fare quasi tutto ciò che vuoi con i dati.

Forse prova a identificare le tendenze delle azioni, gestisci un pool di sport fantasy al lavoro o forse semplicemente tieni traccia del tempo. Chissà? La tua immaginazione ei dati disponibili su Internet , sono gli unici limiti.



About the author

Sono un ingegnere informatico con oltre 10 anni di esperienza nel settore del software. Sono specializzato nella creazione e manutenzione di applicazioni software individuali e aziendali, nonché nello sviluppo di strumenti di sviluppo per piccole imprese e grandi organizzazioni. Le mie capacità risiedono nello sviluppo di una solida base di codice, negli strumenti di debug e test e nel lavorare a stretto contatto con gli utenti finali per garantire che le loro applicazioni funzionino perfettamente.



Related posts