]> gitweb.michael.orlitzky.com - dead/htsn-import.git/commitdiff
Document the weird weather sample.
authorMichael Orlitzky <michael@orlitzky.com>
Tue, 21 Jan 2014 21:27:17 +0000 (16:27 -0500)
committerMichael Orlitzky <michael@orlitzky.com>
Tue, 21 Jan 2014 21:27:17 +0000 (16:27 -0500)
doc/README.schemagen
doc/man1/htsn-import.1

index 8c570d3d60eb4b6bc5fed80bf6448987ad7af381..d32075ba0083f9fe3a1bcfa59997bf66e7743ab5 100644 (file)
@@ -43,3 +43,7 @@ needed manual tweaking. The final, believed-to-be-correct schemas for
 all supported document types can be found in the "schema" folder in
 the project root. Having the "correct" DTDs available means you
 don't need XML-Schema-learner available to install htsn-import.
+
+As explained in the man page, there is a second type of weatherxml
+document that we don't parse at the moment. An example is provided as
+schemagen/weatherxml/20143655.xml.
index f1edf446f5b20b5a68dddf9722aec2006869c1dd..8c6f936c480b44cad8879a0eaab43d202b7c99bb 100644 (file)
@@ -105,6 +105,30 @@ prevent duplication in this case anyway.
 UML diagrams of the resulting database schema for each XML document
 type are provided with the \fBhtsn-import\fR documentation.
 
+.SH XML Schema Oddities
+.P
+There are a number of problems with the XML on the wire. Even if we
+construct the DTDs ourselves, the results are sometimes
+inconsistent. Here we document a few of them.
+
+.IP \[bu]
+2 Odds_XML.dtd
+
+The <Notes> elements here are supposed to be associated with a set of
+<Game> elements, but since the pair
+(<Notes>...</Notes><Game>...</Game>) can appear zero or more times,
+this leads to ambiguity in parsing. We therefore ignore the notes
+entirely (although a hack is employed to facilitate parsing).
+
+.IP \[bu]
+weatherxml.dtd
+
+There appear to be two types of weather documents; the first has
+<listing> contained within <forecast> and the second has <forecast>
+contained within <listing>. While it would be possible to parse both,
+it would greatly complicate things. The first form is more common, so
+that's all we support for now.
+
 .SH OPTIONS
 
 .IP \fB\-\-backend\fR,\ \fB\-b\fR