Eliminare tags HTML da un file

Eclipse, Java Soft! Nessun Commento »


Vediamo come sia possibile in Java eliminare i tags all’interno di un file e restituire testo plain.

Espressioni regolari

Una speciale espressione regolare è usata per eliminare ogni cosa tra caporali (< e >):

import java.io.*;

public class Html2TextWithRegExp {
   private Html2TextWithRegExp() {}

   public static void main (String[] args) throws Exception{
     StringBuilder sb = new StringBuilder();
     BufferedReader br = new BufferedReader(new FileReader("java-new.html"));
     String line;
     while ( (line=br.readLine()) != null) {
       sb.append(line);
       // or
       //  sb.append(line).append(System.getProperty("line.separator"));
     }
     String nohtml = sb.toString().replaceAll("\\< .*?>","");
     System.out.println(nohtml);
   }
}

Leggi il resto di questo articolo »

Home | Graffiti e Disegni | Educazione | Chi siamo | Blog | Progetti | Contatti
RSS Feed Comments RSS Accedi