SCM

SCM Repository

[tm] Diff of /trunk/tm/R/textdoccol.R
ViewVC logotype

Diff of /trunk/tm/R/textdoccol.R

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 37, Wed Jan 11 17:49:17 2006 UTC revision 39, Sat Jan 21 09:37:39 2006 UTC
# Line 11  Line 11 
11                       # For details on the file format see the R documentation file                       # For details on the file format see the R documentation file
12                       # The first argument is a directory with .csv files                       # The first argument is a directory with .csv files
13                       "CSV" = {                       "CSV" = {
14                           tdl <- sapply(dir(object,                           filelist <- dir(object, pattern = ".csv",full.names = TRUE)
15                                             pattern = ".csv",                           tdl <- sapply(filelist,
                                            full.names = TRUE),  
16                                         function(file) {                                         function(file) {
17                                             m <- as.matrix(read.csv(file, header = FALSE))                                             m <- as.matrix(read.csv(file, header = FALSE))
18                                             l <- vector("list", dim(m)[1])                                             l <- vector("list", dim(m)[1])
# Line 35  Line 34 
34                                             }                                             }
35                                             l                                             l
36                                         })                                         })
37                             if (length(filelist) > 1)
38                                 tdcl <- new("textdoccol", .Data = unlist(tdl, recursive = FALSE))
39                             else
40                           tdcl <- new("textdoccol", .Data = tdl)                           tdcl <- new("textdoccol", .Data = tdl)
41                       },                       },
42                       # Read in text documents in XML Reuters Corpus Volume 1 (RCV1) format                       # Read in text documents in XML Reuters Corpus Volume 1 (RCV1) format
43                       # The first argument is a directory with the RCV1 XML files                       # The first argument is a directory with the RCV1 XML files
44                       "RCV1" = {                       "RCV1" = {
45                           tdl <- sapply(dir(object,                           filelist <- dir(object, pattern = ".xml",full.names = TRUE)
46                                             pattern = ".xml",                           tdl <- sapply(filelist,
                                            full.names = TRUE),  
47                                         function(file) {                                         function(file) {
48                                             tree <- xmlTreeParse(file)                                             tree <- xmlTreeParse(file)
49                                             xmlApply(xmlRoot(tree), parseNewsItem, stripWhiteSpace, toLower)                                             xmlApply(xmlRoot(tree), parseNewsItem, stripWhiteSpace, toLower)
50                                         })                                         })
51                             if (length(filelist) > 1)
52                                 tdcl <- new("textdoccol", .Data = unlist(tdl, recursive = FALSE))
53                             else
54                           tdcl <- new("textdoccol", .Data = tdl)                           tdcl <- new("textdoccol", .Data = tdl)
55                       },                       },
56                       # Read in text documents in Reuters-21578 XML (not SGML) format                       # Read in text documents in Reuters-21578 XML (not SGML) format
57                       # Typically the first argument will be a directory where we can                       # Typically the first argument will be a directory where we can
58                       # find the files reut2-000.xml ... reut2-021.xml                       # find the files reut2-000.xml ... reut2-021.xml
59                       "REUT21578" = {                       "REUT21578" = {
60                           tdl <- sapply(dir(object,                           filelist <- dir(object, pattern = ".xml",full.names = TRUE)
61                                             pattern = ".xml",                           tdl <- sapply(filelist,
                                            full.names = TRUE),  
62                                         function(file) {                                         function(file) {
63                                             tree <- xmlTreeParse(file)                                             tree <- xmlTreeParse(file)
64                                             xmlApply(xmlRoot(tree), parseReuters, stripWhiteSpace, toLower)                                             xmlApply(xmlRoot(tree), parseReuters, stripWhiteSpace, toLower)
65                                         })                                         })
66                             if (length(filelist) > 1)
67                                 tdcl <- new("textdoccol", .Data = unlist(tdl, recursive = FALSE))
68                             else
69                           tdcl <- new("textdoccol", .Data = tdl)                           tdcl <- new("textdoccol", .Data = tdl)
70                       })                       })
71                tdcl                tdcl

Legend:
Removed from v.37  
changed lines
  Added in v.39

root@r-forge.r-project.org
ViewVC Help
Powered by ViewVC 1.0.0  
Thanks to:
Vienna University of Economics and Business Powered By FusionForge