Visualizza messaggio singolo
Vecchio 22-05-2018, 22.50.37   #6
LoryOne
Gold Member
WT Expert
 
Registrato: 09-01-2002
Loc.: None of your business
Messaggi: 5.505
LoryOne è un gioiello raroLoryOne è un gioiello raroLoryOne è un gioiello raro
Rif: Procedimento per modificare indirizzi .m3u8 canali tv live streaming (IPTV)

Piergaetano mi ha scritto un pvt che recita:

"Ho visto alcuni video su youtube relativi allo "Web Scraping Using PHP" ma non ci capisco niente."

Siccome non c'è nulla di compromettente nell'asserzione, cerco di fornire qui una risposta che sia sufficientemente chiara per tutti coloro che la troveranno utile, almeno per poter iniziare a progettare uno script di web scraping.

Cosa significa ?
Una pagina web fornisce contenuti testuali e/o multimediali disposti per fruibilità in base ad un aspetto di pagina.
Il browser crea il contenuto di una pagina sulla base di tags che indicano cosa processare e dove visualizzare a schermo.
Il nostro occhio carpisce solo cio di cui ha realmente bisogno in una pagina piena di contenuti, quindi è attratto maggiormente da cio che costituisce testo, rispetto a cio che costituisce immagine; Nel processarne il contenuto, quindi, noi cominceremo a leggere ed a scremare le informazioni utili da quelle inutili:
Scremare, è esattamente il termine corretto, dunque quali tecniche utilizzare ?
Prendo come esempio il primo url https://www.youtube.com/watch?v=Ygb783jZGc0 perchè lo ritengo il più esauriente nel contesto in esame.
1 - Supponete di suddividere ogni singola riga testuale di cui si compone una pagina in un elemento di un insieme (array);
2 - Supponete di processare ogni singolo elemento di un array in modo da estrapolarne il contenuto rispetto ai tags presenti;
3 - Supponete di raggruppare per categoria ogni elemento in modo da poter fruire di quel sottoinsieme come vorrete.
Per fare questo, immaginate di avere a disposizione:
-non solo un linguaggio veloce nel processare stringhe di testo in ambito web (PHP)
-anche una libreria che in quel linguaggio fornisce procedure potenti pronte all'uso (cURL)
Il video indicato fa esattamente tutte queste cose:
-Prende come riferimento un sito come imdb che fornisce una lista di films di cui mostra copertina, titolo, durata, categoria, url, ecc
-Da in pasto ad una procedura cURL il contenuto della pagina per estrapolarne le informazioni salienti, suddividendone gli elementi in categorie.
Per identificare il dato saliente all'interno della stringa ricca di tags, la procedura fa un uso massiccio delle espressioni regolari (regexp), la cui definizione corretta è verificata attraverso il sito regex101.com:
L'espressione regolare è immessa nella textbox in alto, mentre la stringa completa di tags, viene inserita in quella successiva, dove viene evidenziato in verde pallido il risultato dell'espressione composta.
E' utile fare una considerazione iniziale che si rifà a quanto scritto in apertura, ossia "la progettazione" di uno script di web scraping: E' infatti necessario studiare la struttura della pagina per identificare i tags sui quali agire, cioè identificare quelli che effettivamente possono contenere le informazioni utili da processare e non è detto che identica struttura sia a ricalco per ogni singola pagina di cui si compone il sito in scraping; Il video è maggiormente esplicativo nel prosieguo della visione quando lo stesso indice di un elemento di un array categorizzato risulta vuoto rispetto ad identico indice per differente categoria.
___________________________________

Practice feeds Skill,Skill limits Failure,Failure enhances Security,Security needs Practice
LoryOne non è collegato   Rispondi citando