Text Mining in R

install.packages( c("tm", "VCorpus", "hunspell"), dependencies = TRUE)

install.packages( c("Rweka", "RMySQL", "textmining"), dependencies = TRUE)

install.packages( c("iemisctext", "ngram"), dependencies = TRUE)

if(TRUE)
{
WORKDIR="D:/DeltaPartners2017/FieldOperations/TextMining/Mining/";
setwd(WORKDIR);
Sys.setlocale("LC_ALL","Arabic")
memory.limit(size = 16072)

library(tm);
library("iemisctext")
library(ngram)
library(RWeka)

data(anarchy)
a <- anarchy="" documenttermmatrix="" p="">
findFreqTerms(a, 5)

data("crude")

# Corpust --> DataFrame
ddataframeCrude<-data .frame="" content="" stringsasfactors="F)</p" text="unlist(sapply(crude,"> dataframeCrude[1,]

}

# Raw data to Corpus

serv_log <- nbsp="" p="" paste="" read.csv="" sep="" test.csv="" workdir=""> mycorpus <- corpus="" ectorsource="" p="" serv_log="">
mydfCorpus <- data.frame="" stringsasfactors="FALSE)</p" text="unlist(mycorpus)"> mydfCorpus[1]

# Map the corpus by applying differnt filters

mycorpusAfterMap <- mycorpus="" p="" tm_map="" tolower=""> mycorpusAfterMap <- mycorpusaftermap="" p="" removepunctuation="" tm_map=""> mycorpusAfterMap <- mycorpusaftermap="" p="" removenumbers="" tm_map=""> mycorpusAfterMap <- kind="en" mycorpusaftermap="" p="" removewords="" stopwords="" tm_map=""> mycorpusAfterMap <- mycorpusaftermap="" p="" stripwhitespace="" tm_map=""> mycorpusAfterMap <- mycorpusaftermap="" p="" stemdocument="" tm_map="">
# If apply this, gives error# mycorpusAfterMap <- laintextdocument="" mycorpusaftermap="" p="" tm_map="">
######################## Generate DT matrix #################################

myDTmatrix <- documenttermmatrix="" mycorpusaftermap="" p=""> findFreqTerms( myDTmatrix, 5)
keyword.freq <- appearing="" as.matrix="" frequency="" mydtmatrix="" of="" p="" rowsums="" words="">
myDTmatrix_NonSparse <- 0.9="" mydtmatrix="" p="" removesparseterms=""> keyword_NonSparse.freq <- appearing="" as.matrix="" frequency="" mydtmatrix_nonsparse="" of="" p="" rowsums="" words="">

# Find N-gram from corpus using NGRAM package

strCorpus <- 1="" concatenate="" lapply="" mycorpusaftermap="" p=""> bigram <- n="2)</p" ngram="" strcorpus=""> # print(ngram(strCorpus, sep=" " , n=2), output="full")
get.phrasetable(bigram)

# Find N-gram from corpus using RWeka package
#mydfCorpus <- data.frame="" stringsasfactors="FALSE)</p" text="unlist(mycorpusAfterMap)"> #bigram <- max="2))</p" min="2," mydfcorpus="" ngramtokenizer="" weka_control="">

My Blog

Search This Blog

Text Mining in R

Comments

Post a Comment

Popular posts from this blog

R tutorial

MATLAB cross validation

SLURM tutorial : Basic commands