Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

SPSSで簡単テキストマイニング

22,526 views

Published on

SPSSで簡単テキストマイニング

  1. 1. SPSS-Python連携で簡単テキストマイニング!
  2. 2. 例:健全なSNSを確立しよう!● 非健全な発言を抽出して対策を取らねばならない 非健全な発言を抽出● 非健全な発言を人手で全て調べるのは困難● SPSS-Pythonを用いて自動化しよう!
  3. 3. SPSSによるテキストマイニング● Text Analytics for Surveysを用いる – メリット:簡単に定型処理が出来る – デメリット:お金かかる● Pythonと連携する – メリット:特定のデータや処理に特化出来る – デメリット:プログラミングスキルが必要 – ↓Pythonで必要なコード書きました。コピペでOK – http://d.hatena.ne.jp/AntiBayesian/20120418
  4. 4. テキストのID化● テキストマイニングをするためには、テキストのID 化が必要。ID化の一例を示す(ID化手法は様々● 元テキスト:「他人のアカウントを乗っ取る」● ID群[ID:単語]->1:犯罪, 2:金, 3:乗っ取り, 4:交際● テキストID化後:[0, 0, 1, 0]
  5. 5. Pythonコード例#coding:utf-8import sysimport MeCab #形態素解析エンジンMeCabを利用tagger = MeCab.Tagger("-Owakati") #分かち書きread_file = sys.argv[1]read_dictionary = sys.argv[2]text_list = open(read_file).read().split(n)dictionary = open(read_dictionary).read().split(n)print , + ,.join(dictionary)def set_id(text): count = 0 id = [] for word in dictionary: count += 1 id.append(str(text.count(word))) return text + , + ,.join(id)for text in text_list: print set_id(text)
  6. 6. ID化実行例 犯 金 セック 援 交 死 殺 ドラッ シン 麻薬 罪 ス 助 際 す グ ナー援助交際してくれる 0 0 0 1 1 0 0 0 0 0人募集中~風邪気味なので風邪 0 0 0 0 0 0 0 0 0 0薬買いに薬局へ行ってきた渋谷にドラッグの密 0 0 0 0 0 0 0 1 0 0売人がいるらしいふざけたこと言って 0 0 0 0 0 0 2 0 0 0ると殺すぞ、絶対殺す麻薬体験ブログ公開 0 0 0 0 0 0 0 0 0 1中!
  7. 7. まとめ● SPSSはPythonと連携できる● Pythonでデータ整形してSPSSに放り込むと便利● SPSS-Pythonならテキストマイニングも簡単!

×