admin 发表于 2015-6-13 22:04:12

使用R语言对QQ聊天群里的大水比查找

# 读取QQ聊天记录
qqChat <- readLines("C:/Users/Administrator/Desktop/大数据人社区.txt",encoding='UTF-8')
head(qqChat)

# 1.提取除聊天内容以外的信息
qqInfo <- qqChat
# 提取时间信息
time <- substr(qqInfo, regexpr("^\\d{4}-\\d{1,2}-\\d{1,2}", qqInfo), 19)
# 提取网名和QQ信息
nameQQ <- substr(qqInfo, 21, nchar(qqInfo))
# 提取网名信息
name <- substr(nameQQ, regexpr("^\\D",nameQQ),regexpr("\\(",nameQQ)-1)
# 提取QQ信息
QQ   <- substr(nameQQ, regexpr("\\(",nameQQ)+1,regexpr("\\)",nameQQ)-1)
# 时间,网名,QQ,组成数据框
chat=data.frame(time=time,name=name,QQ=QQ)
summary(chat)
which.max(table(chat$name))
sum(chat$name=="小雄")
data1 <- as.data.frame(table(chat$name))
data2 <- data1


# 2.提取聊天内容信息
chatContent <- qqChat
# 聊天内容写入本地文件
write(chatContent, file = "F:/R/RWorkspace/data/chatContent.txt")
搜索

data985 发表于 2015-7-9 11:12:06

要把代码普遍化才行
页: [1]
查看完整版本: 使用R语言对QQ聊天群里的大水比查找