SlideShare a Scribd company logo
長門を見分けるソリューション
@haru2036
だれおま
• @haru2036(はる)
• TDU千住キャン勢(ソフ研)
• サイボウズ・ラボユース2期コアメンバー
• 自然言語処理やらせてもらいました。楽しいけど未だひよっこ勢
• 成果物:Twitter向け人工無脳Botのようななにか(Hanashi Engine)

•沼
•
•
•
•
•
•

自作PC(水冷始めました)
ドール
神姫
音楽
カメラ
その他もろもろ
最初に
• 長門といえば?
• 戦艦
• 艦これ
• 情報統合思念体のうんたらかんたら
• (ちなみに艦これはまだ出てない)
_人人人人人_
> どれ <
 ̄Y^Y^Y^Y^Y ̄
この問題を解決するソリューション
• 人間が考える
• まちがえるかも
• 人件費がかかる

• 本人に選ばせる
• 二次元との通信ってどうすればいいの

• コンピューターに選ばせる
• コンピュータって長門の違いわかるの
コンピュータに選ばせよう
• NLP = Natural Language Processing
• (=自然言語処理)

• コンピュータで人間が普段使っている言語を処理する
• 日本語入力、検索、機械翻訳、
etc…
スパムメール検知、

• 機械学習的なやり方が主流
つくりました
• 今回はテキスト分類のナイーブベイズ分類器を実装
• 結構前からある手法でそれなりの実績
• 統計的機械学習な感じ
• 迷惑メールフィルタとかに使われてる
• 単純な割にそれなりの性能
• =簡単に実装できる

• 今回は多項モデル+MAP推定でやりました
つくりました
• つかったもの
• MeCab(形態素解析器)
• Haskell(プログラム言語)
第四の刺客
• ただのナイーブベイズ分類器なので設定ファイル(JSON)を
書き換えることでクラスの追加/削除も可能
• もちろん長門以外にも使える(当たり前)
• 綾波でもいいよ

長門市を追加した
しくみ
それってなにやってんの(ざっくり)
• クラス(分類)を決めます
• 迷惑メール、そうじゃないメール
• ITニュース、総合ニュース、スポーツニュース…

• 文書に含まれる単語の出現確率を調べる
• それぞれの単語について数えます
• そこからそれぞれのクラスについて各単語の出現確率を計算

• あとは入力に対してさっきの出現確率を全部掛け算したものが
一番高いクラスに分類
学習時
• ある単語wにたいして
wの出現率 =

wがそのクラスで出てきた回数

/

そのクラスに属する文書内のすべての単語
の出現数

• これをすべての単語について各クラスごと算出
分類時

入力の文章がこ
のクラスに含ま
れる確率 =

*

*

*
それと品詞でフィルタした
• なんかこの業界のデファクトスタンダードはChaSenの出力
フォーマットらしいけど今回はMeCabの標準フォーマットで
• MeCabでもChaSenのフォーマットで出力できるけどね

• 表層形t品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活
用型,原形,読み,発音
• 今回は品詞だけほしいので表層形t品詞だけを取り出して
すもももももももものうち
フィルタ
すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も
助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
も
助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
の
助詞,連体化,*,*,*,*,の,ノ,ノ
うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
もう一工夫
• Complement Naive Bayesを実装してみた
• ふつうのナイーブベイズ
• クラスに”含まれる”確率を計算する
• これだと学習時にはなかったけど実際はそのクラスである確率が高い
単語の場合などに誤差が増える

• Complement Naive Bayes
• クラスに”含まれない”確率を計算
• 含まれない確率が一番低いクラスを選ぶ
• 学習時になかったものの実際はそのクラスである確率が高い単語でも
そんなに誤差でない
ふつうのナイーブベイズ
• 入力の文書がそのクラスである確率をそれぞれ算出し、一番確率
が高いクラスに分類
• あるクラスの文書量が偏って多い場合に問題
• 相対的にそのクラスだけ単語のカバー率が高くなる大佐
原爆

戦艦 資材

艦これ
退魔艦

美少女
ハルヒ
キョン

長手袋
Complement Naive Bayes
• 補集合(Complement)を取る
• 入力の文書がそれぞれのクラスに属さない確率を計算
• 一番確率が低いクラスに分類
大佐
• 文書量の偏りが軽減される
戦艦
原爆

艦これ
資材
退魔艦

美少女
ハルヒ
キョン

長手袋
結果
動かした(名詞のみでフィルタ)
• 戦艦の擬人化キャラクターで、R18ゲームパロディも多い→艦
これ長門

• 原爆実験で沈んでしまった戦艦で、初代艦長は飯田延太郎 大佐
→戦艦長門
• ハルヒのキャラクターで、宇宙人らしい。→長門有希
結果:精度
クラスを変えた時の精度
1

0.9

0.9285

0.9285

0.8888
0.8

0.8333

0.7
0.6428

0.6

0.6428

0.5
0.4
0.3

0.3333
0.2777

0.2
0.1
0
長門有希, 艦これ

有希, 艦これ, 自治体
normal

艦これ, 戦艦, 長門有希
complement

4つすべて
若干残念
• それなりに学習時の文書量に差はあったはず
•
•
•
•
•

艦これ:18.1KB
長門有希:8.45KB
戦艦:21.4KB
長門市:15KB
まあ全部少ないけど

• なんでComplementのほうが精度低いところがあるの
• ほとんど一緒だけど
• やっぱり戦艦と艦これはキツイ
まとめ
• そもそも艦これと戦艦のながとに関しては人間でも分類難しい
気がする
• テキスト分類のかなり基礎って言われてるけど意外とそれっぽ
い感じになる
• Complementはたぶんもっと文書量の差が増えたら本気出す?
• Haskell楽しい
おわりに
• 精度の測り方よくわからん
• 精度の上げ方よくわからん
• と言うか質問応答システム的なのもやってみたい
• テキスト分類も使われるはず
時間あまったらデモ
たぶんあまる
参考にしたもの
• すごいHaskellたのしく学ぼう!(書籍)
• 言語処理のための機械学習入門(書籍)
ソースとか
• リポジトリはGithubにあります
• https://github.com/haru2036/nagato
ご清聴ありがとうございました

More Related Content

Viewers also liked

東京Node学園 15時限目めも
東京Node学園 15時限目めも東京Node学園 15時限目めも
東京Node学園 15時限目めも
Fumihiko Nishio
 
Metrics patterns session discussion at DAAG 2015
Metrics patterns session discussion at DAAG 2015Metrics patterns session discussion at DAAG 2015
Metrics patterns session discussion at DAAG 2015
societyofdecisionprofessionals
 
Asdfibyasdyugfdsaugifuasdifuisadf
AsdfibyasdyugfdsaugifuasdifuisadfAsdfibyasdyugfdsaugifuasdifuisadf
AsdfibyasdyugfdsaugifuasdifuisadfGabriela Duarte
 
Arch Paola Marrone_tecnologie e strategie progettuali
Arch Paola Marrone_tecnologie e strategie progettualiArch Paola Marrone_tecnologie e strategie progettuali
Arch Paola Marrone_tecnologie e strategie progettuali
SOLAVA
 
Landhuis te varik – fase 2
Landhuis te varik – fase 2Landhuis te varik – fase 2
Landhuis te varik – fase 2Cees Kock
 
Build a multi level marketing you can be proud
Build a multi level marketing you can be proudBuild a multi level marketing you can be proud
Build a multi level marketing you can be proud
Gert Bruhn
 
Tecnologias de información para los negocios
Tecnologias de información para los negociosTecnologias de información para los negocios
Tecnologias de información para los negocios
Wada Hdz
 
Tvg christian home based business
Tvg christian home based businessTvg christian home based business
Tvg christian home based business
Gert Bruhn
 
Struggling with your affiliate marketing
Struggling with your affiliate marketingStruggling with your affiliate marketing
Struggling with your affiliate marketing
Gert Bruhn
 
Tecnologias de información para los negocios
Tecnologias de información para los negociosTecnologias de información para los negocios
Tecnologias de información para los negocios
Wada Hdz
 
Adminserver --smk teladan
Adminserver --smk teladanAdminserver --smk teladan
Adminserver --smk teladanNoviana Sitorus
 
İnformasiya təhlükəsizliyi
İnformasiya təhlükəsizliyiİnformasiya təhlükəsizliyi
İnformasiya təhlükəsizliyi
Rashad Aliyev
 
Hemorrhoids Or Fissure
Hemorrhoids Or FissureHemorrhoids Or Fissure
Hemorrhoids Or Fissure
Dustin Ole
 

Viewers also liked (17)

東京Node学園 15時限目めも
東京Node学園 15時限目めも東京Node学園 15時限目めも
東京Node学園 15時限目めも
 
Metrics patterns session discussion at DAAG 2015
Metrics patterns session discussion at DAAG 2015Metrics patterns session discussion at DAAG 2015
Metrics patterns session discussion at DAAG 2015
 
Id
IdId
Id
 
Asdfibyasdyugfdsaugifuasdifuisadf
AsdfibyasdyugfdsaugifuasdifuisadfAsdfibyasdyugfdsaugifuasdifuisadf
Asdfibyasdyugfdsaugifuasdifuisadf
 
Arch Paola Marrone_tecnologie e strategie progettuali
Arch Paola Marrone_tecnologie e strategie progettualiArch Paola Marrone_tecnologie e strategie progettuali
Arch Paola Marrone_tecnologie e strategie progettuali
 
Landhuis te varik – fase 2
Landhuis te varik – fase 2Landhuis te varik – fase 2
Landhuis te varik – fase 2
 
Build a multi level marketing you can be proud
Build a multi level marketing you can be proudBuild a multi level marketing you can be proud
Build a multi level marketing you can be proud
 
Tecnologias de información para los negocios
Tecnologias de información para los negociosTecnologias de información para los negocios
Tecnologias de información para los negocios
 
Syllabus course 2
Syllabus  course  2Syllabus  course  2
Syllabus course 2
 
Tvg christian home based business
Tvg christian home based businessTvg christian home based business
Tvg christian home based business
 
Struggling with your affiliate marketing
Struggling with your affiliate marketingStruggling with your affiliate marketing
Struggling with your affiliate marketing
 
Tecnologias de información para los negocios
Tecnologias de información para los negociosTecnologias de información para los negocios
Tecnologias de información para los negocios
 
Adminserver --smk teladan
Adminserver --smk teladanAdminserver --smk teladan
Adminserver --smk teladan
 
İnformasiya təhlükəsizliyi
İnformasiya təhlükəsizliyiİnformasiya təhlükəsizliyi
İnformasiya təhlükəsizliyi
 
Ts setup bios
Ts setup biosTs setup bios
Ts setup bios
 
Hemorrhoids Or Fissure
Hemorrhoids Or FissureHemorrhoids Or Fissure
Hemorrhoids Or Fissure
 
052013
052013052013
052013
 

Recently uploaded

CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
Yuuitirou528 default
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
Sony - Neural Network Libraries
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
atsushi061452
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
NTT DATA Technology & Innovation
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
yassun7010
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
iPride Co., Ltd.
 

Recently uploaded (16)

CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
 

長門を見分けるそりゅーしょん