World Wide Web Consortium (W3C) har en række gratis værktøjer til rådighed til at hjælpe med korrekt generation og behandling af HTML og XML-filer. HTML-XML-pakken er et sæt simple værktøjer til at manipulere HTML- og XML-filer fra kommandolinjen. Det er tilgængeligt for mange af de forskellige Linux-distributioner og kan være nyttigt for dem, der skal behandle HTML- eller XML-filer regelmæssigt.

For at installere pakken på Ubuntu skal du bruge:

 sudo apt-get install html-xml-utils 

Der er 31 værktøjer i denne pakke, her er et resumé af, hvad de kan gøre:

  • cexport - Opret headerfile af eksporterede erklæringer fra en C-fil
  • hxaddid - Tilføj ID'er til udvalgte elementer
  • hxcite - erstatte bibliografiske referencer ved hyperlinks
  • hxcite-mkbib-ekspandere referencer og oprette bibliografi
  • hxkopi-kopi en HTML-fil, mens du bevare relative links
  • hxcount - tælle elementer og attributter i HTML- eller XML-filer
  • hxextract - ekstrakt udvalgte elementer
  • hxclean - anvend heuristics for at rette en HTML-fil
  • hxprune - fjern markerede elementer fra en HTML-fil
  • hxincl-expand inkluderet HTML- eller XML-filer
  • hxindex - Opret et alfabetisk sorteret indeks
  • hxmkbib - lav bibliografi fra en skabelon
  • hxmultitoc - Opret en indholdsfortegnelse for et sæt HTML-filer
  • hxname2id- flyt nogle ID = eller NAME = fra A-elementer til deres forældre
  • hxnormalize - pretty-print en HTML-fil
  • hxnum - tal sektionsoverskrifter i en HTML-fil
  • hxpipe- konverter XML til et format, der lettere kan analysere med Perl eller AWK
  • hxprintlinks-nummer links & tilføj tabel af webadresser i slutningen af ​​en HTML-fil
  • hxremove - fjern udvalgte elementer fra en XML-fil
  • hxtabletrans - transponere en HTML eller XHTML tabel
  • hxtoc - indsæt en indholdsfortegnelse i en HTML-fil
  • hxuncdata - udskift CDATA sektioner efter tegn enheder
  • hxunent - erstatte HTML-foruddefinerede tegn-enheder til UTF-8
  • hxunpipe- konverter output fra pipe tilbage til XML-format
  • hxunxmlns - erstat "globale navne" ved hjælp af XML-navnepace-præfikser
  • hxwls - liste links i en HTML-fil
  • hxxmlns - erstat XML-navnepace-præfikser med "globale navne"
  • asc2xml, xml2asc- konverter mellem UTF8 og enheder
  • hxref - generere krydsreferencer
  • hxselect-ekstrakt elementer, der matcher en (CSS) vælger

For at introducere dig til kraften i dette værktøjssæt, her er nogle eksempler på hvordan du vil bruge nogle få af kommandoerne.

Kommandoen " hxnormalize " vil omformatere en HTML-fil, så den er let at læse og pænt formateret. For at teste denne kommando vil vi oprette en grim HTML. Vælg og kopier følgende linjer og indsæt dem direkte i et terminalvindue.

 cat> test.html << __EOF__ 

Hej __EOF__

Dette vil oprette en fil, der hedder test.html. HTML'en mangler nogle af de afsluttende tags og er alle skrevet i en linje. Kommandoen hxnormalize vil omformatere filen og skrive den smukke version til standard output (stdout). Her er hvordan du kører kommandoen:

 hxnormalize -e test.html 

"-e" -flaget fortæller hxnormalisere for at indsætte eventuelle manglende lukkekoder.

Du kan også køre kommandoen mod en webside ved at erstatte "test.html" med en URL, for eksempel:

 hxnormalisere http://www.example.com 

Kommandoen hxwls vil parse en lokal HTML-fil eller et websted, og liste hxwls i HTML'en. For eksempel:

 hxwls http://www.example.com 

Her er de første linjer af output til Make Tech Easier hjemmeside:

Kommandoen hxtabletrans ændrer et bord, så rækker bliver kolonner, og kolonner bliver rækker.

Lad os oprette en HTML-fil med en simpel tabel. Vælg og kopier følgende linjer, og indsæt dem derefter direkte i et terminalvindue.

 cat> table.html << __EOF__ 
JillSmith50
EveJackson94
__EOF__

Resultatet er en fil kaldet table.html. I en webbrowser ville tabellen se sådan ud:

JillSmith50
EveJackson94

Hvis du kører kommandoen hxtabletrans, vil den skrive den transponerede tabel til standardudgangen. Resultaterne kan omdirigeres til en anden fil som denne:

 hxtabletrans table.html> table2.html 

Den nye fil, table2.html, viser Jill Smith og Eve Jackson i kolonner, snarere end i rækker som i originalen. Den resulterende tabel vil være sådan noget:

JillEve
SmithJackson
5094

De fleste kommandoer bruges på samme måde som eksemplerne ovenfor, dvs. du skal angive en fil eller en URL, der skal behandles, og outputen er skrevet til stdout. Prøv at eksperimentere med de forskellige kommandoer, da du måske finder dem nyttige.

Hvis du har spørgsmål om HTML-XML-værktøjerne, er du velkommen til at spørge dem i kommentarerne nedenfor, og vi vil se, om vi kan hjælpe.