SPSS-Python連携で簡単テキストマイニング!
例:健全なSNSを確立しよう!●   非健全な発言を抽出して対策を取らねばならない    非健全な発言を抽出●   非健全な発言を人手で全て調べるのは困難●   SPSS-Pythonを用いて自動化しよう!
SPSSによるテキストマイニング●   Text Analytics for Surveysを用いる    –   メリット:簡単に定型処理が出来る    –   デメリット:お金かかる●   Pythonと連携する    –   メリット:特...
テキストのID化●   テキストマイニングをするためには、テキストのID    化が必要。ID化の一例を示す(ID化手法は様々●   元テキスト:「他人のアカウントを乗っ取る」●   ID群[ID:単語]->1:犯罪, 2:金, 3:乗っ取り,...
Pythonコード例#coding:utf-8import sysimport MeCab #形態素解析エンジンMeCabを利用tagger = MeCab.Tagger("-Owakati") #分かち書きread_file = sys.ar...
ID化実行例            犯   金   セック   援   交   死   殺   ドラッ   シン   麻薬            罪       ス     助   際       す   グ     ナー援助交際してくれる  ...
まとめ●   SPSSはPythonと連携できる●   Pythonでデータ整形してSPSSに放り込むと便利●   SPSS-Pythonならテキストマイニングも簡単!
Upcoming SlideShare
Loading in …5
×

SPSSで簡単テキストマイニング

21,953 views

Published on

SPSSで簡単テキストマイニング

  1. 1. SPSS-Python連携で簡単テキストマイニング!
  2. 2. 例:健全なSNSを確立しよう!● 非健全な発言を抽出して対策を取らねばならない 非健全な発言を抽出● 非健全な発言を人手で全て調べるのは困難● SPSS-Pythonを用いて自動化しよう!
  3. 3. SPSSによるテキストマイニング● Text Analytics for Surveysを用いる – メリット:簡単に定型処理が出来る – デメリット:お金かかる● Pythonと連携する – メリット:特定のデータや処理に特化出来る – デメリット:プログラミングスキルが必要 – ↓Pythonで必要なコード書きました。コピペでOK – http://d.hatena.ne.jp/AntiBayesian/20120418
  4. 4. テキストのID化● テキストマイニングをするためには、テキストのID 化が必要。ID化の一例を示す(ID化手法は様々● 元テキスト:「他人のアカウントを乗っ取る」● ID群[ID:単語]->1:犯罪, 2:金, 3:乗っ取り, 4:交際● テキストID化後:[0, 0, 1, 0]
  5. 5. Pythonコード例#coding:utf-8import sysimport MeCab #形態素解析エンジンMeCabを利用tagger = MeCab.Tagger("-Owakati") #分かち書きread_file = sys.argv[1]read_dictionary = sys.argv[2]text_list = open(read_file).read().split(n)dictionary = open(read_dictionary).read().split(n)print , + ,.join(dictionary)def set_id(text): count = 0 id = [] for word in dictionary: count += 1 id.append(str(text.count(word))) return text + , + ,.join(id)for text in text_list: print set_id(text)
  6. 6. ID化実行例 犯 金 セック 援 交 死 殺 ドラッ シン 麻薬 罪 ス 助 際 す グ ナー援助交際してくれる 0 0 0 1 1 0 0 0 0 0人募集中~風邪気味なので風邪 0 0 0 0 0 0 0 0 0 0薬買いに薬局へ行ってきた渋谷にドラッグの密 0 0 0 0 0 0 0 1 0 0売人がいるらしいふざけたこと言って 0 0 0 0 0 0 2 0 0 0ると殺すぞ、絶対殺す麻薬体験ブログ公開 0 0 0 0 0 0 0 0 0 1中!
  7. 7. まとめ● SPSSはPythonと連携できる● Pythonでデータ整形してSPSSに放り込むと便利● SPSS-Pythonならテキストマイニングも簡単!

×