SCM

SCM Repository

[tm] Diff of /pkg/R/corpus.R
ViewVC logotype

Diff of /pkg/R/corpus.R

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

trunk/tm/R/textdoccol.R revision 860, Fri Jul 18 05:05:20 2008 UTC pkg/tm/R/textdoccol.R revision 884, Wed Jan 28 10:24:27 2009 UTC
# Line 26  Line 26 
26                    db <- dbInit(dbControl$dbName, dbControl$dbType)                    db <- dbInit(dbControl$dbName, dbControl$dbType)
27                }                }
28    
29                tdl <- list()                # Allocate memory in advance if length is known
30                  tdl <- if (object@Length > 0)
31                      vector("list", as.integer(object@Length))
32                  else
33                      list()
34    
35                counter <- 1                counter <- 1
36                while (!eoi(object)) {                while (!eoi(object)) {
37                    object <- stepNext(object)                    object <- stepNext(object)
# Line 38  Line 43 
43                    doc <- readerControl$reader(elem, readerControl$load, readerControl$language, as.character(counter))                    doc <- readerControl$reader(elem, readerControl$load, readerControl$language, as.character(counter))
44                    if (dbControl$useDb) {                    if (dbControl$useDb) {
45                        dbInsert(db, ID(doc), doc)                        dbInsert(db, ID(doc), doc)
46                          if (object@Length > 0)
47                              tdl[[counter]] <- ID(doc)
48                          else
49                        tdl <- c(tdl, ID(doc))                        tdl <- c(tdl, ID(doc))
50                    }                    }
51                      else {
52                          if (object@Length > 0)
53                              tdl[[counter]] <- doc
54                    else                    else
55                        tdl <- c(tdl, list(doc))                        tdl <- c(tdl, list(doc))
56                      }
57                    counter <- counter + 1                    counter <- counter + 1
58                }                }
59    
# Line 140  Line 152 
152                if (is.null(readerControl$load))                if (is.null(readerControl$load))
153                    readerControl$load = TRUE                    readerControl$load = TRUE
154    
155                object.filelist <- unlist(lapply(object, function(x) {as.character(URI(x))[2]}))                object.filelist <- unlist(lapply(object, function(x) {summary(eval(URI(x)))$description}))
156                new.files <- setdiff(origin@FileList, object.filelist)                new.files <- setdiff(origin@FileList, object.filelist)
157    
158                for (filename in new.files) {                for (filename in new.files) {
# Line 185  Line 197 
197                            meta(result, tag = "lazyTmMap", type = "corpus") <- lazyTmMap                            meta(result, tag = "lazyTmMap", type = "corpus") <- lazyTmMap
198                        }                        }
199                    }                    }
200                      else {
201                          result@.Data <- if (clusterAvailable())
202                              snow::parLapply(snow::getMPIcluster(), object, FUN, ..., DMetaData = DMetaData(object))
203                    else                    else
204                        result@.Data <- lapply(object, FUN, ..., DMetaData = DMetaData(object))                            lapply(object, FUN, ..., DMetaData = DMetaData(object))
205                      }
206                }                }
207                return(result)                return(result)
208            })            })
# Line 250  Line 266 
266  setMethod("asPlain",  setMethod("asPlain",
267            signature(object = "NewsgroupDocument"),            signature(object = "NewsgroupDocument"),
268            function(object, FUN, ...) {            function(object, FUN, ...) {
269                new("PlainTextDocument", .Data = Content(object), Cached = TRUE, URI = "", Author = Author(object),                new("PlainTextDocument", .Data = Content(object), Cached = TRUE, URI = NULL, Author = Author(object),
270                    DateTimeStamp = DateTimeStamp(object), Description = Description(object), ID = ID(object),                    DateTimeStamp = DateTimeStamp(object), Description = Description(object), ID = ID(object),
271                    Origin = Origin(object), Heading = Heading(object), Language = Language(object),                    Origin = Origin(object), Heading = Heading(object), Language = Language(object),
272                    LocalMetaData = LocalMetaData(object))                    LocalMetaData = LocalMetaData(object))
# Line 259  Line 275 
275            signature(object = "StructuredTextDocument"),            signature(object = "StructuredTextDocument"),
276            function(object, FUN, ...) {            function(object, FUN, ...) {
277                new("PlainTextDocument", .Data = unlist(Content(object)), Cached = TRUE,                new("PlainTextDocument", .Data = unlist(Content(object)), Cached = TRUE,
278                    URI = "", Author = Author(object), DateTimeStamp = DateTimeStamp(object),                    URI = NULL, Author = Author(object), DateTimeStamp = DateTimeStamp(object),
279                    Description = Description(object), ID = ID(object), Origin = Origin(object),                    Description = Description(object), ID = ID(object), Origin = Origin(object),
280                    Heading = Heading(object), Language = Language(object),                    Heading = Heading(object), Language = Language(object),
281                    LocalMetaData = LocalMetaData(object))                    LocalMetaData = LocalMetaData(object))
# Line 271  Line 287 
287            function(object, ..., FUN = searchFullText, doclevel = TRUE) {            function(object, ..., FUN = searchFullText, doclevel = TRUE) {
288                if (!is.null(attr(FUN, "doclevel")))                if (!is.null(attr(FUN, "doclevel")))
289                    doclevel <- attr(FUN, "doclevel")                    doclevel <- attr(FUN, "doclevel")
290                if (doclevel)                if (doclevel) {
291                      if (clusterAvailable())
292                          return(object[snow::parSapply(snow::getMPIcluster(), object, FUN, ..., DMetaData = DMetaData(object))])
293                      else
294                    return(object[sapply(object, FUN, ..., DMetaData = DMetaData(object))])                    return(object[sapply(object, FUN, ..., DMetaData = DMetaData(object))])
295                  }
296                else                else
297                    return(object[FUN(object, ...)])                    return(object[FUN(object, ...)])
298            })            })
# Line 283  Line 303 
303            function(object, ..., FUN = searchFullText, doclevel = TRUE) {            function(object, ..., FUN = searchFullText, doclevel = TRUE) {
304                if (!is.null(attr(FUN, "doclevel")))                if (!is.null(attr(FUN, "doclevel")))
305                    doclevel <- attr(FUN, "doclevel")                    doclevel <- attr(FUN, "doclevel")
306                if (doclevel)                if (doclevel) {
307                      if (clusterAvailable())
308                          return(snow::parSapply(snow::getMPIcluster(), object, FUN, ..., DMetaData = DMetaData(object)))
309                      else
310                    return(sapply(object, FUN, ..., DMetaData = DMetaData(object)))                    return(sapply(object, FUN, ..., DMetaData = DMetaData(object)))
311                  }
312                else                else
313                    return(FUN(object, ...))                    return(FUN(object, ...))
314            })            })

Legend:
Removed from v.860  
changed lines
  Added in v.884

root@r-forge.r-project.org
ViewVC Help
Powered by ViewVC 1.0.0  
Thanks to:
Vienna University of Economics and Business Powered By FusionForge