Autore Topic: Download pagina html da internet  (Letto 1100 volte)

Offline thejungle

  • Nuovo arrivato
  • *
  • Post: 26
  • Respect: +1
    • Mostra profilo
  • Sistema operativo:
    Windows 7
Download pagina html da internet
« il: 15 Aprile 2011, 19:05:04 CEST »
0
Ciao ragazzi, sono riuscito a scaricare e gestire le pagine html sul web, ma ho notato una piccola ma importante differenza in base alla rete con cui ci si collega.

In pratica io sto lavorando su una applicazione che scarica dei dati da un sito, poi li elabora effettuando una sorta di parsing e infine li visualizza.
Ho notato che utilizzando la rete wifi, quando scarica la pagina html, scarica tutto il suo contenuto compreso di commenti (<!-- questo è un commento --!>)
mentre se utilizzo la rete mobile non li scarica, seppur utilizzo la stessa funzione O_O
il fatto è che la pagina non è strutturata molto bene quindi ho creato il parsing utilizzando i commenti :(

per capire questo errore c'ho sbattuto la testa oltre 4 ore +_+

qualcuno ha avuto il mio stesso problema??? o sa come poter risolvere?

Codice (Java): [Seleziona]
URL myURL = new URL("http://sitointernet.it/pagina.html");
StringBuffer all = new StringBuffer("");                                               
                                                 
URLConnection ucon = myURL.openConnection();             
InputStream is = ucon.getInputStream();

 
BufferedReader page = new BufferedReader(new InputStreamReader(is, "ISO-8859-15"));  
 
                       
while((linea = page.readLine()) != null){        
        all.append(linea.trim());
}
« Ultima modifica: 15 Aprile 2011, 21:17:37 CEST da thejungle, Reason: inserito codice java »

Offline 7h38ugg3r

  • Moderatore globale
  • Utente storico
  • *****
  • Post: 1200
  • Respect: +133
    • riccardofischetti
    • th38ugg3r
    • @7h38ugg3r
    • Mostra profilo
  • Dispositivo Android:
    Galaxy-S GT I-9000/ ASUS Eee Pad Transformer
  • Play Store ID:
    Riccardo Fischetti
  • Sistema operativo:
    OS X Lion / Linux Mint 11 (Katya)
Re:Download pagina html da internet
« Risposta #1 il: 18 Aprile 2011, 12:12:12 CEST »
0
Quindi se chi crea la pagina cambia i commenti perché è entrata l'ora legale (per esempio), devi rifarti il parser?
Parsa il contenuto visibile.
Se l'html non è ben formato, prova a prendertelo con htmlcleaner e a normalizzarlo.
Dovrebbe fare in modo che tu possa vedere un documento ben formato.
7h38ugg3r<=>thebugger
Non conosci Java? Allora sei nel posto sbagliato!

http://www.androidpatterns.com/