HiRoshima.R #1 1-3 LT

2011-06-17 HiRoshima.R #1@

Saturday, June 18, 2011 1

Agenda
1. R ― ―

2. R

3. R


t


•
•

• A B

•


: “however”

109 347 8 493

[ ] However, ....
[ ] ..., however, ....
[ ] ..., however.


> freq <- c(109,347,8)
> chisq.test(freq,correct=FALSE)

Chi-squared test for given probabilities

data: freq
X-squared = 391.7371, df = 2, p-value < 2.2e-16

# 2
# http://homepage2.nifty.com/nandemoarchive/toukei_kiso/t_F_chi.htm


Agenda
1. R ― ―

2. R

3. R


1.
2.
3.
4.
5.
6.


1.
•
• ns <- scan("ns_raw.txt", what="character")
•
• ns <- scan(choose.ﬁles(), what="char")
•
• getwd() !


2.

• head( , )

• tail( , )
• /


2.
•grep (“ ”, )
•
> grep("school", ns)

• ns
> ns[grep("school", ns)]


2.
• [ ]

• > ns[100]
• 100
• > ns[c(98,99,100)]
• 98, 99, 100
•c

3.
•
•strsplit ( ,“ ”)

> strsplit (ns, " ")

•ns
•
• list


3.
•
> ns_list <- strsplit (ns, " ")

• ns_list

> unlist (ns_list)

• ns_list
• unlist(strsplit(ns, " "))

4.

sort ( )
> ns2 <- sort(unlist(ns_list))


4.

unique ( )
> ns3 <- unique (sort(unlist(ns_list)))
# ( )
# sort(unique(unlist(ns_list)))


5.
table ( )
> ns4 <- table(unlist(strsplit (ns, " ")))

# table
#


5.

> ns5 <- length(unlist(strsplit (ns, " ")))

#


5.

> ns6 <- length(unique(sort(unlist(strsplit (ns, " ")))))

#
#

> ns7 <- unique(sort(unlist (ns_list)))
> length(ns7)


6.
> write.table(ns4, ﬁle=“freq1.txt”)

# getwd()
# Excel


Agenda
1. R ― ―

2. R

3. R


•
•
•
•
• ... orz


RMeCab


RMeCab
•
•R MeCab

• R


• RMeCabText() :
• RMeCabFreq() :

• Ngram() : N-gram

• collocate() :


2,940 1,785 3,780


twitter: @sakaue

e-mail: tsakaue<AT>hiroshima-u.ac.jp


HiRoshima.R #1 1-3 LT

Recommended

Recommended

More Related Content

More from SAKAUE, Tatsuya

More from SAKAUE, Tatsuya (20)

Recently uploaded

Recently uploaded (20)

HiRoshima.R #1 1-3 LT