]> gitweb.michael.orlitzky.com - dead/htsn-import.git/blobdiff - src/Xml.hs
Begin reworking TSN.XML.Odds for the new inferred DTDs.
[dead/htsn-import.git] / src / Xml.hs
index dfb6d055ac0e297b94d42d92eff810e1464d42ec..c4d4049e2f5ec4fc62d93d80ab31d83e8d07c764 100644 (file)
@@ -3,25 +3,25 @@
 -- | General XML stuff.
 --
 module Xml (
+  DtdName(..),
   ToFromXml(..),
   parse_opts,
-  pickle_unpickle )
+  pickle_unpickle,
+  unpickleable )
 where
 
+import Control.Exception ( SomeException(..), catch )
 import Database.Groundhog ( AutoKey )
 import Text.XML.HXT.Core (
   (>>>),
   (/>),
+  PU,
   SysConfigList,
   XmlPickler(..),
   hasName,
-  no,
   readDocument,
   runX,
-  withPreserveComment,
   withRemoveWS,
-  withSubstDTDEntities,
-  withValidate,
   xpickleVal,
   xunpickleVal,
   yes )
@@ -59,19 +59,17 @@ class ToFromXml a where
   from_xml_fk :: AutoKey (Container a) -> Xml a -> a
   from_xml_fk _ = from_xml
 
+
+-- | Represents the DTD filename ("SYSTEM") part of the DOCTYPE
+--   definition.
+newtype DtdName = DtdName String
+
 -- | A list of options passed to 'readDocument' when we parse an XML
---   document. We don't validate because the DTDs from TSN are
---   wrong. As a result, we don't want to keep useless DTDs
---   areound. Thus we disable 'withSubstDTDEntities' which, when
---   combined with "withValidate no", prevents HXT from trying to read
---   the DTD at all.
+--   document. All cosmetic whitespace should be removed, otherwise we
+--   have to parse it in each pickler.
 --
 parse_opts :: SysConfigList
-parse_opts =
-  [ withPreserveComment no,
-    withRemoveWS yes,
-    withSubstDTDEntities no,
-    withValidate no ]
+parse_opts = [ withRemoveWS yes ]
 
 
 -- | Given a root element name and a file path, return both the
@@ -85,6 +83,11 @@ parse_opts =
 --   to 'xpickle' would be ambiguous. By returning some @a@s, we allow
 --   the caller to annotate its type.
 --
+--   Note that this will happily pickle nothing to nothing and then
+--   unpickle it back to more nothing. So the fact that the
+--   before/after results from this function agree does not mean that
+--   the document was successfully unpickled!
+--
 pickle_unpickle :: XmlPickler a
                 => String
                 -> FilePath
@@ -92,7 +95,7 @@ pickle_unpickle :: XmlPickler a
 pickle_unpickle root_element filepath = do
   -- We need to check only the root message element since
   -- readDocument produces a bunch of other junk.
-    expected <- runX arr_getobj
+    expected <- runX arr_getobj
     actual <- runX $ arr_getobj
                      >>>
                      xpickleVal xpickle
@@ -106,3 +109,20 @@ pickle_unpickle root_element filepath = do
                    hasName root_element
                    >>>
                    xunpickleVal xpickle
+
+
+
+-- | Is the given XML file unpickleable? Unpickling will be attempted
+--   using the @unpickler@ argument. If we unilaterally used the
+--   generic 'xpickle' function for our unpickler, a type ambiguity
+--   would result. By taking the unpickler as an argument, we allow
+--   the caller to indirectly specify a concrete type.
+--
+unpickleable :: XmlPickler a => FilePath -> PU a -> IO Bool
+unpickleable filepath unpickler = do
+  xmldoc <- try_unpickle `catch` (\(SomeException _) -> return [])
+  return $ (not . null) xmldoc
+  where
+    try_unpickle = runX $ readDocument parse_opts filepath
+                          >>>
+                          xunpickleVal unpickler