SCM

SCM Repository

[tm] Diff of /trunk/tm/R/textdoccol.R
ViewVC logotype

Diff of /trunk/tm/R/textdoccol.R

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 40, Tue Feb 14 15:02:45 2006 UTC revision 41, Sun Mar 12 17:14:15 2006 UTC
# Line 69  Line 69 
69                               tdcl <- new("textdoccol", .Data = tdl)                               tdcl <- new("textdoccol", .Data = tdl)
70                       },                       },
71                       # Read in HTML documents as used by http://ris.bka.gv.at/vwgh                       # Read in HTML documents as used by http://ris.bka.gv.at/vwgh
                      # The file name must be named according to the following schema:  
                      # Geschäftszahl.html, e.g. 2002130005.html  
72                       "RIS" = {                       "RIS" = {
73                           filelist <- dir(object, pattern = ".html", full.names = TRUE)                           filelist <- dir(object, pattern = ".html", full.names = TRUE)
74                           tdl <- sapply(filelist,                           tdl <- sapply(filelist,
75                                         function(file) {                                         function(file) {
76                                               # Ignore warnings from misformed HTML documents
77                                               suppressWarnings(RISDoc <- parseHTML(file, stripWhiteSpace, toLower))
78                                               if (!is.null(RISDoc)) {
79                                             l <- list()                                             l <- list()
80                                             l[[length(l) + 1]] <- parseHTML(file, stripWhiteSpace, toLower)                                                 l[[length(l) + 1]] <- RISDoc
81                                             l                                             l
82                                               }
83                                         })                                         })
84                           tdcl <- new("textdoccol", .Data = tdl)                           tdcl <- new("textdoccol", .Data = tdl)
85                       })                       })
# Line 89  Line 91 
91      author <- ""      author <- ""
92      timestamp <- date()      timestamp <- date()
93      description <- ""      description <- ""
     id <- as.integer(gsub(".html", "", basename(file)))  
94    
95      tree <- htmlTreeParse(file)      tree <- htmlTreeParse(file)
96      htmlElem <- unlist(tree$children$html$children)      htmlElem <- unlist(tree$children$html$children)
97    
98        if (is.null(htmlElem))
99            stop(paste("Empty document", file, "cannot be processed."))
100    
101      textElem <- htmlElem[which(regexpr("text.value", names(htmlElem)) > 0)]      textElem <- htmlElem[which(regexpr("text.value", names(htmlElem)) > 0)]
102      names(textElem) <- NULL      names(textElem) <- NULL
103    
104      corpus <- paste(textElem, collapse = " ")      corpus <- paste(textElem, collapse = " ")
105    
106        year <- substring(corpus, regexpr("..../../", corpus), regexpr("..../../", corpus) + 3)
107        senat <- substring(corpus, regexpr("..../../", corpus) + 5, regexpr("..../../", corpus) + 6)
108        number <- substring(corpus, regexpr("..../../", corpus) + 8, regexpr("..../../", corpus) + 11)
109    
110        id <- as.integer(paste(year, senat, number, sep = ""))
111    
112        if (is.na(id))
113            stop(paste("Cannot extract 'Geschaeftszahl' out of malformed document", file))
114      origin <- ""      origin <- ""
115    
116      if (stripWhiteSpace)      if (stripWhiteSpace)

Legend:
Removed from v.40  
changed lines
  Added in v.41

root@r-forge.r-project.org
ViewVC Help
Powered by ViewVC 1.0.0  
Thanks to:
Vienna University of Economics and Business Powered By FusionForge