Downloadliste

Projektbeschreibung

TagSoup is a SAX-compliant parser written in Java that, instead of parsing well-formed or valid XML, parses HTML as it is found in the wild: poor, nasty, and brutish, though quite often far from short. TagSoup is designed for people who have to process this stuff using some semblance of a rational application design. By providing a SAX interface, it allows standard XML tools to be applied to even the worst HTML. TagSoup also includes a command line processor that reads HTML files, and can generate either clean HTML or well-formed XML that is a close approximation to XHTML.

Systemanforderungen

Die Systemvoraussetzungen sind nicht definiert
Information regarding Project Releases and Project Resources. Note that the information here is a quote from Freecode.com page, and the downloads themselves may not be hosted on OSDN.

2007-03-21 21:03
1.0.5

Das Hauptproblem war mit HTML-Kommentare, die sehr schlecht waren gebrochen: alle> Charakter würde man kündigen, so Auskommentieren Elemente nicht richtig funktionieren. Alles sollte jetzt korrekt sein. Jeder sollte zu aktualisieren, die möglich ist. Zusätzlich & # Xnnnn (mit Kapital X) jetzt funktioniert, ist einige Debug-Code aus PYXWriter, eine Unicode-BOM am Anfang eines Dokuments übersprungen wird entfernt und die neue Version von Saxon ist ein XSLT-Prozessor unterstützt. Die Dokumentation wurde auf SAX Merkmale und Eigenschaften der spezifisch auf tagsoup aufgenommen.
Tags: Major bugfixes
The main issue was with HTML comments, which were very badly broken: any > character would terminate one, so commenting out elements did not work properly. Everything should now be correct. Everyone should update who possibly can. Additionally, &#Xnnnn (with capital X) now works, some debugging code was removed from PYXWriter, a Unicode BOM at the beginning of a document is skipped, and the new version of Saxon is supported as an XSLT processor. Documentation has been added on SAX features and properties specific to TagSoup.

2007-02-07 09:11
1.0.3

Ein DOCTYPE-Deklaration ausgegeben wird, wenn es in das Eingabefeld ein. Die - ignorable Schalter wurde hinzugefügt, um Leerzeichen im Inhalt des Elements zu erhalten. Die - output-encoding-Schalter wurde hinzugefügt, um Ausgabecodierung angeben. Die Standardwerte für html / @ version entfernt wurden. Verschiedene kleinere Fehler wurden behoben.
Tags: Minor bugfixes
A DOCTYPE declaration will be output if there is
one in the input. The --ignorable switch was added
to preserve whitespace in element content. The
--output-encoding switch was added to specify
output encoding. The default values for
html/@version were removed. Various minor bugs
were fixed.

2006-06-15 23:38
1.0

Alle bisher bekannten Fehler wurden behoben und alle Funktionen als angemessen angesehen wurden hinzugefügt. Dieses Release ist für die volle Produktion einsatzbereit.
Tags: Code cleanup
All known bugs are fixed and all features considered appropriate have been added. This release is ready for full production use.

2003-01-23 09:05
0.8

Tags: Initial freshmeat announcement

Project Resources