]> gitweb.michael.orlitzky.com - dead/htsn-import.git/blobdiff - doc/man1/htsn-import.1
Add another Odds_XML oddity to the man page.
[dead/htsn-import.git] / doc / man1 / htsn-import.1
index 7a215b142c420e2931045a895daa1d3ebba974c6..f36327c032532e08aee29c8869b2d74df5838aec 100644 (file)
@@ -268,6 +268,23 @@ construct the DTDs ourselves, the results are sometimes
 inconsistent. Here we document a few of them.
 
 .IP \[bu] 2
+\fInewsxml.dtd\fR
+
+The TSN DTD for news (and almost all XML on the wire) suggests that
+there is a exactly one (possibly-empty) <SMS> element present in each
+message. However, we have seen an example (XML_File_ID 21232353) where
+an empty <SMS> followed a non-empty one:
+
+.fi
+<SMS>Odd Man Rush: Snow under pressure to improve Isles quickly</SMS>
+<SMS></SMS>
+.nf
+
+We don't parse this case at the moment, but we do recognize it and report
+it as unsupported so that offending documents can be removed. An example
+is provided as test/xml/newsxml-multiple-sms.xml.
+
+.IP \[bu]
 \fIOdds_XML.dtd\fR
 
 The <Notes> elements here are supposed to be associated with a set of
@@ -277,6 +294,18 @@ this leads to ambiguity in parsing. We therefore ignore the notes
 entirely (although a hack is employed to facilitate parsing). The same
 thing goes for the newer <League_Name> element.
 
+We've also seen XML on the feed where the home/away starter elements
+exist and have ID attributes but no content. For example,
+
+.nf
+<AStarter ID=\(dq0\(dq></AStarter>
+<HStarter ID=\(dq0\(dq></HStarter>
+.fi
+
+We don't handle this at the moment, but since the starter id/name are
+already optional (we just expect them to be present or missing as a
+pair), it wouldn't be too hard to support.
+
 .IP \[bu]
 \fIweatherxml.dtd\fR
 
@@ -285,7 +314,19 @@ There appear to be two types of weather documents; the first has
 contained within <listing>. While it would be possible to parse both,
 it would greatly complicate things. The first form is more common, so
 that's all we support for now. An example is provided as
-schemagen/weatherxml/20143655.xml.
+test/xml/weatherxml-type2.xml.
+
+We are however able to identify the second type. When one is
+encountered, an informational message (that it is unsupported) will be
+printed. If the \fI\-\-remove\fR flag is used, the file will be
+deleted. This prevents documents that we know we can't import from
+building up.
+
+Another problem that comes up occasionally is that the home and away
+team elements appear in the reverse order. As in the other case, we
+report these as unsupported and then \(dqsucceed\(dq so that the
+offending document can be removed if desired. An example is provided
+as test/xml/weatherxml-backwards-teams.xml.
 
 .SH DEPLOYMENT
 .P