Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
みんなビックデータビック
データって言ってるけど
名寄せとかどうしてんの?
13年10月5日土曜日
自己紹介
酒井一晃( send | かずあき )
最近はソーシャルメディア関連の
分析ツールの R&D やプロトタイ
ピングが主な仕事
13年10月5日土曜日
はじめに
13年10月5日土曜日
名寄せって何?
13年10月5日土曜日
名寄せとは?
13年10月5日土曜日
このデータはどういう個人のもの
だっけ?
名寄せとは?
13年10月5日土曜日
このデータはどういう個人のもの
だっけ?
このデータはどういう意味のもの
だっけ?
名寄せとは?
13年10月5日土曜日
このデータはどういう個人のもの
だっけ?
このデータはどういう意味のもの
だっけ?
名寄せとは?
今回のお題はこれ!
13年10月5日土曜日
なんで必要なの?
13年10月5日土曜日
データから何かを知ったり見つけたりしたい!
なんで必要なの?
13年10月5日土曜日
データから何かを知ったり見つけたりしたい!
人間では大変すぎるので機械にやらせたい
なんで必要なの?
13年10月5日土曜日
データから何かを知ったり見つけたりしたい!
人間では大変すぎるので機械にやらせたい
機械がわかる形に翻訳しないとなあ
なんで必要なの?
13年10月5日土曜日
データから何かを知ったり見つけたりしたい!
人間では大変すぎるので機械にやらせたい
機械がわかる形に翻訳しないとなあ
その前にデータを整理整頓しないと翻訳もでき
ないよね
なんで必要なの?
13年10月5日土曜日
データから何かを知ったり見つけたりしたい!
人間では大変すぎるので機械にやらせたい
機械がわかる形に翻訳しないとなあ
その前にデータを整理整頓しないと翻訳もでき
ないよね
なんで必要なの?
データ解析
13年10月5日土曜日
データから何かを知ったり見つけたりしたい!
人間では大変すぎるので機械にやらせたい
機械がわかる形に翻訳しないとなあ
その前にデータを整理整頓しないと翻訳もでき
ないよね
なんで必要なの?
コード化
データ解析
13年10月5日土曜日
データから何かを知ったり見つけたりしたい!
人間では大変すぎるので機械にやらせたい
機械がわかる形に翻訳しないとなあ
その前にデータを整理整頓しないと翻訳もでき
ないよね
なんで必要なの?
コード化
名寄せ
データ解析
13年10月5日土曜日
主な名寄せの内訳
13年10月5日土曜日
主な名寄せの内訳
違う形でコード化されてるものを
まとめたい
13年10月5日土曜日
主な名寄せの内訳
違う形でコード化されてるものを
まとめたい
コード化されてない文字データを
コード化していきたい
13年10月5日土曜日
主な名寄せの内訳
違う形でコード化されてるものを
まとめたい
コード化されてない文字データを
コード化していきたい
コード統合
13年10月5日土曜日
主な名寄せの内訳
違う形でコード化されてるものを
まとめたい
コード化されてない文字データを
コード化していきたい
コード統合
辞書化
13年10月5日土曜日
さて本日の内容は?
13年10月5日土曜日
13年10月5日土曜日
「コード統合」って具体的には?
13年10月5日土曜日
「コード統合」って具体的には?
「辞書化」ってどういうこと?
13年10月5日土曜日
「コード統合」って
具体的には?
13年10月5日土曜日
例えば性別コード
13年10月5日土曜日
性別コードあるある
13年10月5日土曜日
性別コードあるある
コードが 0 からはじまったり、1
からはじまったり
13年10月5日土曜日
性別コードあるある
コードが 0 からはじまったり、1
からはじまったり
内容が男性からはじまったり、女
性からはじまったり
13年10月5日土曜日
標準規格とかないの?
13年10月5日土曜日
実はあります
13年10月5日土曜日
実はあります
ISO 5218
0: not known
1: male
2: female
9: not applicable
13年10月5日土曜日
実はあります
ISO 5218
0: not known
1: male
2: female
9: not applicable
JISX 0303(廃止)
1: 男
2: 女
13年10月5日土曜日
なんでみんな使わないの?
13年10月5日土曜日
なんでみんな使わないの?
システム都合
13年10月5日土曜日
なんでみんな使わないの?
システム都合
男性先頭にしたい、女性先頭にしたい
13年10月5日土曜日
なんでみんな使わないの?
システム都合
男性先頭にしたい、女性先頭にしたい
規格を知らない
13年10月5日土曜日
なんでみんな使わないの?
システム都合
男性先頭にしたい、女性先頭にしたい
規格を知らない
コード標準あるかもなんて考えたこともないや
13年10月5日土曜日
なんでみんな使わないの?
システム都合
男性先頭にしたい、女性先頭にしたい
規格を知らない
コード標準あるかもなんて考えたこともないや
無関心・怠惰
13年10月5日土曜日
なんでみんな使わないの?
システム都合
男性先頭にしたい、女性先頭にしたい
規格を知らない
コード標準あるかもなんて考えたこともないや
無関心・怠惰
要件にデータ解析するとかないし適当でいっか
13年10月5日土曜日
なんでみんな使わないの?
システム都合
男性先頭にしたい、女性先頭にしたい
規格を知らない
コード標準あるかもなんて考えたこともないや
無関心・怠惰
要件にデータ解析するとかないし適当でいっか
複数のデータソースを扱うときによくある問題
13年...
どう統合しよう?
13年10月5日土曜日
基本的は ISO 5218
どう統合しよう?
13年10月5日土曜日
基本的は ISO 5218
目的と定義を明確に
どう統合しよう?
13年10月5日土曜日
基本的は ISO 5218
目的と定義を明確に
ISO 5218「The use of this standard and associated codes
may be referred to by the designation “SEX”...
基本的は ISO 5218
目的と定義を明確に
ISO 5218「The use of this standard and associated codes
may be referred to by the designation “SEX”...
基本的は ISO 5218
目的と定義を明確に
ISO 5218「The use of this standard and associated codes
may be referred to by the designation “SEX”...
基本的は ISO 5218
目的と定義を明確に
ISO 5218「The use of this standard and associated codes
may be referred to by the designation “SEX”...
その他のコード問題
13年10月5日土曜日
その他のコード問題
「洗い替え」
13年10月5日土曜日
その他のコード問題
「洗い替え」
コードの内容・意味が変わるときに起こる
13年10月5日土曜日
その他のコード問題
「洗い替え」
コードの内容・意味が変わるときに起こる
関連するデータを正しい内容に書き換える作業
13年10月5日土曜日
その他のコード問題
「洗い替え」
コードの内容・意味が変わるときに起こる
関連するデータを正しい内容に書き換える作業
統廃合などで発生(例: 郵便番号、企業コード)
13年10月5日土曜日
その他のコード問題
「洗い替え」
コードの内容・意味が変わるときに起こる
関連するデータを正しい内容に書き換える作業
統廃合などで発生(例: 郵便番号、企業コード)
時代の変化等で発生
13年10月5日土曜日
「辞書化」って
どういうこと?
13年10月5日土曜日
違う表現同じ意味
13年10月5日土曜日
全角半角
ひらがなカタカナ
記号
誤字脱字変換ミス
単語の出現順序
略称
業界用語専門用語
類義語
文脈
etc...
違う表現同じ意味
13年10月5日土曜日
機械に同じ意味だと
教えたい!
13年10月5日土曜日
実際の処理の流れ
13年10月5日土曜日
13年10月5日土曜日
未整理のデータ
13年10月5日土曜日
未整理のデータ
13年10月5日土曜日
変換・丸め処理
全角半角
記号排除
丸め処理等
未整理のデータ
13年10月5日土曜日
変換・丸め処理
全角半角
記号排除
丸め処理等
未整理のデータ
13年10月5日土曜日
変換・丸め処理
全角半角
記号排除
丸め処理等
類似度算出
同義語の候補を
リストアップ
目視で辞書化
未整理のデータ
13年10月5日土曜日
変換・丸め処理
全角半角
記号排除
丸め処理等
類似度算出
同義語の候補を
リストアップ
目視で辞書化
未整理のデータ
13年10月5日土曜日
変換・丸め処理
全角半角
記号排除
丸め処理等
類似度算出
同義語の候補を
リストアップ
目視で辞書化
未整理のデータ
同義語
辞書
13年10月5日土曜日
変換・丸め処理
全角半角
記号排除
丸め処理等
類似度算出
同義語の候補を
リストアップ
目視で辞書化
未整理のデータ
同義語
辞書
13年10月5日土曜日
変換・丸め処理
全角半角
記号排除
丸め処理等
類似度算出
同義語の候補を
リストアップ
目視で辞書化
辞書による処理
辞書を引いて
同義語があるか
チェック
未整理のデータ
同義語
辞書
13年10月5日土曜日
変換・丸め処理
全角半角
記号排除
丸め処理等
類似度算出
同義語の候補を
リストアップ
目視で辞書化
辞書による処理
辞書を引いて
同義語があるか
チェック
未整理のデータ
同義語
辞書
13年10月5日土曜日
変換・丸め処理
全角半角
記号排除
丸め処理等
類似度算出
同義語の候補を
リストアップ
目視で辞書化
辞書による処理
辞書を引いて
同義語があるか
チェック
未整理のデータ
同義語
辞書
13年10月5日土曜日
変換・丸め処理
全角半角
記号排除
丸め処理等
類似度算出
同義語の候補を
リストアップ
目視で辞書化
辞書による処理
辞書を引いて
同義語があるか
チェック
未整理のデータ
同義の
内容を丸めこんだ
データ
同義語
辞書
13年10月5日土曜日
実装はどうなってるの?
13年10月5日土曜日
実装はどうなってるの?
以前はほぼ全部実装
13年10月5日土曜日
実装はどうなってるの?
以前はほぼ全部実装
フィルタリング・丸め・変換処理
13年10月5日土曜日
実装はどうなってるの?
以前はほぼ全部実装
フィルタリング・丸め・変換処理
形態素解析/N-Gram
13年10月5日土曜日
実装はどうなってるの?
以前はほぼ全部実装
フィルタリング・丸め・変換処理
形態素解析/N-Gram
類似度計算(TF-IDF)
13年10月5日土曜日
実装はどうなってるの?
以前はほぼ全部実装
フィルタリング・丸め・変換処理
形態素解析/N-Gram
類似度計算(TF-IDF)
辞書処理
13年10月5日土曜日
実装はどうなってるの?
以前はほぼ全部実装
フィルタリング・丸め・変換処理
形態素解析/N-Gram
類似度計算(TF-IDF)
辞書処理
今は Apache Solr 様々
13年10月5日土曜日
実装はどうなってるの?
以前はほぼ全部実装
フィルタリング・丸め・変換処理
形態素解析/N-Gram
類似度計算(TF-IDF)
辞書処理
今は Apache Solr 様々
設定書くだけ!ほとんどコーディングレス!
13年10月5日土曜日
課題点
13年10月5日土曜日
課題点
類似度で候補が出せないような略語や類義語は別の手段
で辞書の作成が必要
13年10月5日土曜日
課題点
類似度で候補が出せないような略語や類義語は別の手段
で辞書の作成が必要
類似度でサジェストする際に誤爆は避けられない
高いスコアでも自動で辞書化できない
13年10月5日土曜日
課題点
類似度で候補が出せないような略語や類義語は別の手段
で辞書の作成が必要
類似度でサジェストする際に誤爆は避けられない
高いスコアでも自動で辞書化できない
文脈がわからないと意味が決定できないものなどは辞書
でも対処できない
機械学習系で...
本日のまとめ
13年10月5日土曜日
13年10月5日土曜日
「データ解析」における「名寄せ」は「コード統
合」と「辞書化」
13年10月5日土曜日
「データ解析」における「名寄せ」は「コード統
合」と「辞書化」
「コード統合」は複数のデータソース、「洗い替
え」は長期間データを扱う際に高確率で起こる
13年10月5日土曜日
「データ解析」における「名寄せ」は「コード統
合」と「辞書化」
「コード統合」は複数のデータソース、「洗い替
え」は長期間データを扱う際に高確率で起こる
「辞書化」は「コード化」するための準備をするこ
とが目的
13年10月5日土曜日
「データ解析」における「名寄せ」は「コード統
合」と「辞書化」
「コード統合」は複数のデータソース、「洗い替
え」は長期間データを扱う際に高確率で起こる
「辞書化」は「コード化」するための準備をするこ
とが目的
「名寄せ」の目的は、データをどう...
おわりに
13年10月5日土曜日
本当は
「俺こんな感じでやってるんだけど、君
んとこどうしてんの?」とか
「一緒に仕事してみない?」みたいな話
に繋げたかったんですが。。。
13年10月5日土曜日
おしまい
13年10月5日土曜日
Upcoming SlideShare
Loading in …5
×

みんなビックデータビックデータって言ってるけど 名寄せとかどうしてんの?

42,139 views

Published on

Published in: Technology
  • Be the first to comment

みんなビックデータビックデータって言ってるけど 名寄せとかどうしてんの?

  1. 1. みんなビックデータビック データって言ってるけど 名寄せとかどうしてんの? 13年10月5日土曜日
  2. 2. 自己紹介 酒井一晃( send | かずあき ) 最近はソーシャルメディア関連の 分析ツールの R&D やプロトタイ ピングが主な仕事 13年10月5日土曜日
  3. 3. はじめに 13年10月5日土曜日
  4. 4. 名寄せって何? 13年10月5日土曜日
  5. 5. 名寄せとは? 13年10月5日土曜日
  6. 6. このデータはどういう個人のもの だっけ? 名寄せとは? 13年10月5日土曜日
  7. 7. このデータはどういう個人のもの だっけ? このデータはどういう意味のもの だっけ? 名寄せとは? 13年10月5日土曜日
  8. 8. このデータはどういう個人のもの だっけ? このデータはどういう意味のもの だっけ? 名寄せとは? 今回のお題はこれ! 13年10月5日土曜日
  9. 9. なんで必要なの? 13年10月5日土曜日
  10. 10. データから何かを知ったり見つけたりしたい! なんで必要なの? 13年10月5日土曜日
  11. 11. データから何かを知ったり見つけたりしたい! 人間では大変すぎるので機械にやらせたい なんで必要なの? 13年10月5日土曜日
  12. 12. データから何かを知ったり見つけたりしたい! 人間では大変すぎるので機械にやらせたい 機械がわかる形に翻訳しないとなあ なんで必要なの? 13年10月5日土曜日
  13. 13. データから何かを知ったり見つけたりしたい! 人間では大変すぎるので機械にやらせたい 機械がわかる形に翻訳しないとなあ その前にデータを整理整頓しないと翻訳もでき ないよね なんで必要なの? 13年10月5日土曜日
  14. 14. データから何かを知ったり見つけたりしたい! 人間では大変すぎるので機械にやらせたい 機械がわかる形に翻訳しないとなあ その前にデータを整理整頓しないと翻訳もでき ないよね なんで必要なの? データ解析 13年10月5日土曜日
  15. 15. データから何かを知ったり見つけたりしたい! 人間では大変すぎるので機械にやらせたい 機械がわかる形に翻訳しないとなあ その前にデータを整理整頓しないと翻訳もでき ないよね なんで必要なの? コード化 データ解析 13年10月5日土曜日
  16. 16. データから何かを知ったり見つけたりしたい! 人間では大変すぎるので機械にやらせたい 機械がわかる形に翻訳しないとなあ その前にデータを整理整頓しないと翻訳もでき ないよね なんで必要なの? コード化 名寄せ データ解析 13年10月5日土曜日
  17. 17. 主な名寄せの内訳 13年10月5日土曜日
  18. 18. 主な名寄せの内訳 違う形でコード化されてるものを まとめたい 13年10月5日土曜日
  19. 19. 主な名寄せの内訳 違う形でコード化されてるものを まとめたい コード化されてない文字データを コード化していきたい 13年10月5日土曜日
  20. 20. 主な名寄せの内訳 違う形でコード化されてるものを まとめたい コード化されてない文字データを コード化していきたい コード統合 13年10月5日土曜日
  21. 21. 主な名寄せの内訳 違う形でコード化されてるものを まとめたい コード化されてない文字データを コード化していきたい コード統合 辞書化 13年10月5日土曜日
  22. 22. さて本日の内容は? 13年10月5日土曜日
  23. 23. 13年10月5日土曜日
  24. 24. 「コード統合」って具体的には? 13年10月5日土曜日
  25. 25. 「コード統合」って具体的には? 「辞書化」ってどういうこと? 13年10月5日土曜日
  26. 26. 「コード統合」って 具体的には? 13年10月5日土曜日
  27. 27. 例えば性別コード 13年10月5日土曜日
  28. 28. 性別コードあるある 13年10月5日土曜日
  29. 29. 性別コードあるある コードが 0 からはじまったり、1 からはじまったり 13年10月5日土曜日
  30. 30. 性別コードあるある コードが 0 からはじまったり、1 からはじまったり 内容が男性からはじまったり、女 性からはじまったり 13年10月5日土曜日
  31. 31. 標準規格とかないの? 13年10月5日土曜日
  32. 32. 実はあります 13年10月5日土曜日
  33. 33. 実はあります ISO 5218 0: not known 1: male 2: female 9: not applicable 13年10月5日土曜日
  34. 34. 実はあります ISO 5218 0: not known 1: male 2: female 9: not applicable JISX 0303(廃止) 1: 男 2: 女 13年10月5日土曜日
  35. 35. なんでみんな使わないの? 13年10月5日土曜日
  36. 36. なんでみんな使わないの? システム都合 13年10月5日土曜日
  37. 37. なんでみんな使わないの? システム都合 男性先頭にしたい、女性先頭にしたい 13年10月5日土曜日
  38. 38. なんでみんな使わないの? システム都合 男性先頭にしたい、女性先頭にしたい 規格を知らない 13年10月5日土曜日
  39. 39. なんでみんな使わないの? システム都合 男性先頭にしたい、女性先頭にしたい 規格を知らない コード標準あるかもなんて考えたこともないや 13年10月5日土曜日
  40. 40. なんでみんな使わないの? システム都合 男性先頭にしたい、女性先頭にしたい 規格を知らない コード標準あるかもなんて考えたこともないや 無関心・怠惰 13年10月5日土曜日
  41. 41. なんでみんな使わないの? システム都合 男性先頭にしたい、女性先頭にしたい 規格を知らない コード標準あるかもなんて考えたこともないや 無関心・怠惰 要件にデータ解析するとかないし適当でいっか 13年10月5日土曜日
  42. 42. なんでみんな使わないの? システム都合 男性先頭にしたい、女性先頭にしたい 規格を知らない コード標準あるかもなんて考えたこともないや 無関心・怠惰 要件にデータ解析するとかないし適当でいっか 複数のデータソースを扱うときによくある問題 13年10月5日土曜日
  43. 43. どう統合しよう? 13年10月5日土曜日
  44. 44. 基本的は ISO 5218 どう統合しよう? 13年10月5日土曜日
  45. 45. 基本的は ISO 5218 目的と定義を明確に どう統合しよう? 13年10月5日土曜日
  46. 46. 基本的は ISO 5218 目的と定義を明確に ISO 5218「The use of this standard and associated codes may be referred to by the designation “SEX”.」 どう統合しよう? 13年10月5日土曜日
  47. 47. 基本的は ISO 5218 目的と定義を明確に ISO 5218「The use of this standard and associated codes may be referred to by the designation “SEX”.」 社会的/生物学的な性 どう統合しよう? 13年10月5日土曜日
  48. 48. 基本的は ISO 5218 目的と定義を明確に ISO 5218「The use of this standard and associated codes may be referred to by the designation “SEX”.」 社会的/生物学的な性 実務的には医薬系システム以外は社会的な性 どう統合しよう? 13年10月5日土曜日
  49. 49. 基本的は ISO 5218 目的と定義を明確に ISO 5218「The use of this standard and associated codes may be referred to by the designation “SEX”.」 社会的/生物学的な性 実務的には医薬系システム以外は社会的な性 ISO 5218 互換なんだけど定義がちがったりコード種が多かっ たりでもいい どう統合しよう? 13年10月5日土曜日
  50. 50. その他のコード問題 13年10月5日土曜日
  51. 51. その他のコード問題 「洗い替え」 13年10月5日土曜日
  52. 52. その他のコード問題 「洗い替え」 コードの内容・意味が変わるときに起こる 13年10月5日土曜日
  53. 53. その他のコード問題 「洗い替え」 コードの内容・意味が変わるときに起こる 関連するデータを正しい内容に書き換える作業 13年10月5日土曜日
  54. 54. その他のコード問題 「洗い替え」 コードの内容・意味が変わるときに起こる 関連するデータを正しい内容に書き換える作業 統廃合などで発生(例: 郵便番号、企業コード) 13年10月5日土曜日
  55. 55. その他のコード問題 「洗い替え」 コードの内容・意味が変わるときに起こる 関連するデータを正しい内容に書き換える作業 統廃合などで発生(例: 郵便番号、企業コード) 時代の変化等で発生 13年10月5日土曜日
  56. 56. 「辞書化」って どういうこと? 13年10月5日土曜日
  57. 57. 違う表現同じ意味 13年10月5日土曜日
  58. 58. 全角半角 ひらがなカタカナ 記号 誤字脱字変換ミス 単語の出現順序 略称 業界用語専門用語 類義語 文脈 etc... 違う表現同じ意味 13年10月5日土曜日
  59. 59. 機械に同じ意味だと 教えたい! 13年10月5日土曜日
  60. 60. 実際の処理の流れ 13年10月5日土曜日
  61. 61. 13年10月5日土曜日
  62. 62. 未整理のデータ 13年10月5日土曜日
  63. 63. 未整理のデータ 13年10月5日土曜日
  64. 64. 変換・丸め処理 全角半角 記号排除 丸め処理等 未整理のデータ 13年10月5日土曜日
  65. 65. 変換・丸め処理 全角半角 記号排除 丸め処理等 未整理のデータ 13年10月5日土曜日
  66. 66. 変換・丸め処理 全角半角 記号排除 丸め処理等 類似度算出 同義語の候補を リストアップ 目視で辞書化 未整理のデータ 13年10月5日土曜日
  67. 67. 変換・丸め処理 全角半角 記号排除 丸め処理等 類似度算出 同義語の候補を リストアップ 目視で辞書化 未整理のデータ 13年10月5日土曜日
  68. 68. 変換・丸め処理 全角半角 記号排除 丸め処理等 類似度算出 同義語の候補を リストアップ 目視で辞書化 未整理のデータ 同義語 辞書 13年10月5日土曜日
  69. 69. 変換・丸め処理 全角半角 記号排除 丸め処理等 類似度算出 同義語の候補を リストアップ 目視で辞書化 未整理のデータ 同義語 辞書 13年10月5日土曜日
  70. 70. 変換・丸め処理 全角半角 記号排除 丸め処理等 類似度算出 同義語の候補を リストアップ 目視で辞書化 辞書による処理 辞書を引いて 同義語があるか チェック 未整理のデータ 同義語 辞書 13年10月5日土曜日
  71. 71. 変換・丸め処理 全角半角 記号排除 丸め処理等 類似度算出 同義語の候補を リストアップ 目視で辞書化 辞書による処理 辞書を引いて 同義語があるか チェック 未整理のデータ 同義語 辞書 13年10月5日土曜日
  72. 72. 変換・丸め処理 全角半角 記号排除 丸め処理等 類似度算出 同義語の候補を リストアップ 目視で辞書化 辞書による処理 辞書を引いて 同義語があるか チェック 未整理のデータ 同義語 辞書 13年10月5日土曜日
  73. 73. 変換・丸め処理 全角半角 記号排除 丸め処理等 類似度算出 同義語の候補を リストアップ 目視で辞書化 辞書による処理 辞書を引いて 同義語があるか チェック 未整理のデータ 同義の 内容を丸めこんだ データ 同義語 辞書 13年10月5日土曜日
  74. 74. 実装はどうなってるの? 13年10月5日土曜日
  75. 75. 実装はどうなってるの? 以前はほぼ全部実装 13年10月5日土曜日
  76. 76. 実装はどうなってるの? 以前はほぼ全部実装 フィルタリング・丸め・変換処理 13年10月5日土曜日
  77. 77. 実装はどうなってるの? 以前はほぼ全部実装 フィルタリング・丸め・変換処理 形態素解析/N-Gram 13年10月5日土曜日
  78. 78. 実装はどうなってるの? 以前はほぼ全部実装 フィルタリング・丸め・変換処理 形態素解析/N-Gram 類似度計算(TF-IDF) 13年10月5日土曜日
  79. 79. 実装はどうなってるの? 以前はほぼ全部実装 フィルタリング・丸め・変換処理 形態素解析/N-Gram 類似度計算(TF-IDF) 辞書処理 13年10月5日土曜日
  80. 80. 実装はどうなってるの? 以前はほぼ全部実装 フィルタリング・丸め・変換処理 形態素解析/N-Gram 類似度計算(TF-IDF) 辞書処理 今は Apache Solr 様々 13年10月5日土曜日
  81. 81. 実装はどうなってるの? 以前はほぼ全部実装 フィルタリング・丸め・変換処理 形態素解析/N-Gram 類似度計算(TF-IDF) 辞書処理 今は Apache Solr 様々 設定書くだけ!ほとんどコーディングレス! 13年10月5日土曜日
  82. 82. 課題点 13年10月5日土曜日
  83. 83. 課題点 類似度で候補が出せないような略語や類義語は別の手段 で辞書の作成が必要 13年10月5日土曜日
  84. 84. 課題点 類似度で候補が出せないような略語や類義語は別の手段 で辞書の作成が必要 類似度でサジェストする際に誤爆は避けられない 高いスコアでも自動で辞書化できない 13年10月5日土曜日
  85. 85. 課題点 類似度で候補が出せないような略語や類義語は別の手段 で辞書の作成が必要 類似度でサジェストする際に誤爆は避けられない 高いスコアでも自動で辞書化できない 文脈がわからないと意味が決定できないものなどは辞書 でも対処できない 機械学習系でなんとかカバー出来るかも?? 13年10月5日土曜日
  86. 86. 本日のまとめ 13年10月5日土曜日
  87. 87. 13年10月5日土曜日
  88. 88. 「データ解析」における「名寄せ」は「コード統 合」と「辞書化」 13年10月5日土曜日
  89. 89. 「データ解析」における「名寄せ」は「コード統 合」と「辞書化」 「コード統合」は複数のデータソース、「洗い替 え」は長期間データを扱う際に高確率で起こる 13年10月5日土曜日
  90. 90. 「データ解析」における「名寄せ」は「コード統 合」と「辞書化」 「コード統合」は複数のデータソース、「洗い替 え」は長期間データを扱う際に高確率で起こる 「辞書化」は「コード化」するための準備をするこ とが目的 13年10月5日土曜日
  91. 91. 「データ解析」における「名寄せ」は「コード統 合」と「辞書化」 「コード統合」は複数のデータソース、「洗い替 え」は長期間データを扱う際に高確率で起こる 「辞書化」は「コード化」するための準備をするこ とが目的 「名寄せ」の目的は、データをどう使いたいかとい うニーズに対する手助け 13年10月5日土曜日
  92. 92. おわりに 13年10月5日土曜日
  93. 93. 本当は 「俺こんな感じでやってるんだけど、君 んとこどうしてんの?」とか 「一緒に仕事してみない?」みたいな話 に繋げたかったんですが。。。 13年10月5日土曜日
  94. 94. おしまい 13年10月5日土曜日

×