Submit Search
Upload
レポート作成業務支援のための中国語ソーシャルメディア投稿分類システムの構築 公開版
•
0 likes
•
1,313 views
Takeshi Sakaki
Follow
第9回テキストマイニング・シンポジウムで発表したスライドになります。
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 27
Download now
Download to read offline
Recommended
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
Takeshi Sakaki
言語処理学会第22回年次大会ワークショップ「論文に書かない(書けない)自然言語処理」での発表資料です。 https://sites.google.com/site/nlp2016ws/
クエリログとスニペットの単語連接頻度に基づくWeb検索クエリのセグメンテーション
クエリログとスニペットの単語連接頻度に基づくWeb検索クエリのセグメンテーション
Yahoo!デベロッパーネットワーク
JMAT Groonga Tokenizer Talks
JMAT Groonga Tokenizer Talks
JustSystems Corporation
ATOK、ConceptBaseで培ったノウハウと機械学習を融合した日本語解析エンジン「JMAT」の性能と機能についてご紹介します。
fastTextの実装を見てみた
fastTextの実装を見てみた
Yoshihiko Shiraki
自然言語処理LT会・懇親会@新宿四谷 で発表した資料です。 https://massivelngg.connpass.com/event/47985/
OSS ソースコードサーチツールの効能、有効活用方法
OSS ソースコードサーチツールの効能、有効活用方法
Open Source Software Association of Japan
OSSAJミニセニナー開催要領 タイトル:OSSソースコードサーチツールの効能、有効活用方法の討論 講演概要:オープンソースを真に活用するとは、単に安価でソフトウェアを利用するだけではなく、ソースコードを再利用する、また改良して活用すること。OSSの理解、再利用、改変を支援する便利な検索ツールであるコードサーチツールの解説とOSSを実際に検索するデモを行います。 日時:2009年12月14日(月)16:00~19:30 15:45~16:00 受付 16:00~18:00 セミナー 18:00~19:30 Q&Aとフリーディスカッション(軽食付き) 会場:関東ITソフトウェア健保会館 市ヶ谷(曙橋)D会議室 地図:下記URLをご参照下さい http://www.its-kenpo.or.jp/restaurant/itigaya_kaigisitu/index.html 講師:(株)SRA 葉雲文 参加費用:賛助会員、正会員 : 500円(軽食費含む) 一般会員、協賛団体会員 :1,000円(軽食費含む) 上記以外のゲスト参加 :1,500円(軽食費含む) (当日、受付時に参加費をお支払い下さい。領収書を発行致します) お申込み・お問合せ 下記参加お申込書を参考に、mailまたはFAXにてお申し込み下さい。 Mail: adm@ossaj.org FAX: 03-5940-4582 その他:会場・食事の手配の都合上、セミナーへ参加お申込された後の取消しはできませんのでご注意下さい。なお参加できない場合は、代理の方にご出席頂きますようご手配の程お願い致します。
Japan.r ver1.2 20171202_ota
Japan.r ver1.2 20171202_ota
博三 太田
要旨: 深層学習の持続的な発展により,自然言語処理における知識獲得は大きく進歩している.特に文生成にお いては画像からその文生成を行うなど著しく発展している.本稿ではウェブサイトのテキスト文の自動生成を従来 の自然言語処理の手法を交えながら変分オート・エンコーダー(VAE)にいたるまでの手法による生成文を比較考察 した.第 1 の課題は文と文のつながりの不自然さの解消である.第 2 の課題は生成された文章が剽窃や盗作の回避 のため,独自性とはなにか,またその区分を社会科学的に考察し,一つの試みとして提案するものである.
花之声
花之声
Takahiro Kawamura
Pycon jp2017 20170908_ota
Pycon jp2017 20170908_ota
博三 太田
NLP
Recommended
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
Takeshi Sakaki
言語処理学会第22回年次大会ワークショップ「論文に書かない(書けない)自然言語処理」での発表資料です。 https://sites.google.com/site/nlp2016ws/
クエリログとスニペットの単語連接頻度に基づくWeb検索クエリのセグメンテーション
クエリログとスニペットの単語連接頻度に基づくWeb検索クエリのセグメンテーション
Yahoo!デベロッパーネットワーク
JMAT Groonga Tokenizer Talks
JMAT Groonga Tokenizer Talks
JustSystems Corporation
ATOK、ConceptBaseで培ったノウハウと機械学習を融合した日本語解析エンジン「JMAT」の性能と機能についてご紹介します。
fastTextの実装を見てみた
fastTextの実装を見てみた
Yoshihiko Shiraki
自然言語処理LT会・懇親会@新宿四谷 で発表した資料です。 https://massivelngg.connpass.com/event/47985/
OSS ソースコードサーチツールの効能、有効活用方法
OSS ソースコードサーチツールの効能、有効活用方法
Open Source Software Association of Japan
OSSAJミニセニナー開催要領 タイトル:OSSソースコードサーチツールの効能、有効活用方法の討論 講演概要:オープンソースを真に活用するとは、単に安価でソフトウェアを利用するだけではなく、ソースコードを再利用する、また改良して活用すること。OSSの理解、再利用、改変を支援する便利な検索ツールであるコードサーチツールの解説とOSSを実際に検索するデモを行います。 日時:2009年12月14日(月)16:00~19:30 15:45~16:00 受付 16:00~18:00 セミナー 18:00~19:30 Q&Aとフリーディスカッション(軽食付き) 会場:関東ITソフトウェア健保会館 市ヶ谷(曙橋)D会議室 地図:下記URLをご参照下さい http://www.its-kenpo.or.jp/restaurant/itigaya_kaigisitu/index.html 講師:(株)SRA 葉雲文 参加費用:賛助会員、正会員 : 500円(軽食費含む) 一般会員、協賛団体会員 :1,000円(軽食費含む) 上記以外のゲスト参加 :1,500円(軽食費含む) (当日、受付時に参加費をお支払い下さい。領収書を発行致します) お申込み・お問合せ 下記参加お申込書を参考に、mailまたはFAXにてお申し込み下さい。 Mail: adm@ossaj.org FAX: 03-5940-4582 その他:会場・食事の手配の都合上、セミナーへ参加お申込された後の取消しはできませんのでご注意下さい。なお参加できない場合は、代理の方にご出席頂きますようご手配の程お願い致します。
Japan.r ver1.2 20171202_ota
Japan.r ver1.2 20171202_ota
博三 太田
要旨: 深層学習の持続的な発展により,自然言語処理における知識獲得は大きく進歩している.特に文生成にお いては画像からその文生成を行うなど著しく発展している.本稿ではウェブサイトのテキスト文の自動生成を従来 の自然言語処理の手法を交えながら変分オート・エンコーダー(VAE)にいたるまでの手法による生成文を比較考察 した.第 1 の課題は文と文のつながりの不自然さの解消である.第 2 の課題は生成された文章が剽窃や盗作の回避 のため,独自性とはなにか,またその区分を社会科学的に考察し,一つの試みとして提案するものである.
花之声
花之声
Takahiro Kawamura
Pycon jp2017 20170908_ota
Pycon jp2017 20170908_ota
博三 太田
NLP
#経済学のための実践的データ分析 10. テキスト分析の方法
#経済学のための実践的データ分析 10. テキスト分析の方法
Yasushi Hara
一橋大学 経済学部 #経済学のための実践的データ分析 10. テキスト分析の方法
Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127
kan_yukiko
「データマイニング現場 24時」 第16回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 16th)-リアルタイム分散 Web解析・自然言語処理 祭り- 発表資料
Cognos reportauthoring a10_promptfix
Cognos reportauthoring a10_promptfix
Shinsuke Yamamoto
Cognos Report Authoring 逆引き A10 レポート実行時にプロンプトの値を固定したい
データフィードマーケティング概要
データフィードマーケティング概要
Go Sugihara
データフィードマーケティング概要をまとめました。データフィードとはあるデータのデータ元からデータ受取先へ更新されたデータを送受信する仕組みであり、データフィードマーケティングはその仕組みを様々なデジタルマーケティング施策で活用するものです。具体的には商品データベースの情報を、ECサイト、ショッピングサーチ/比較サイト、リスティング広告、ディスプレイ広告、アフィリエイト広告などにデータを自動配信し、新規の登録や更新の手間を省きつつ、最大のパフォーマンスを上げることが可能です。 http://www.atara.co.jp/
BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析
CROSSHACK, Inc.
一人ひとりの行動データを観察することで、カスタマーの典型的な行動パターンを理解し、可視 化するフレームワークです。これにより、ファクトとデータに基づくカスタマージャーニーを描くことができ、PDCAが可能 な実効性の高いマーケティング施策の策定が可能となります。
おしゃスタat銀座
おしゃスタat銀座
Issei Kurahashi
20180730 ds womens
20180730 ds womens
Rio Kurihara
データサイエンティスト女子部での発表資料(20180730開催)
サービス紹介|myアンケート
サービス紹介|myアンケート
聞く技術研究所|株式会社ドゥ・ハウス
【KSKアナリティクス】Pentaho紹介
【KSKアナリティクス】Pentaho紹介
KSK Analytics Inc.
【KSKアナリティクス】Pentaho紹介
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
Sho Nakamura
2019/3/5 at DEIM
コンテンツマーケティング提案資料
コンテンツマーケティング提案資料
Kodai Aiba
CINC社のコンテンツマーケティング提案資料です
Boommap main
Boommap main
agilemedia
クチコミ分析ツール「ブームマップ」の概要資料になります。
福井解析セミナー20140326
福井解析セミナー20140326
Aマーケティング合同会社
ウェブ解析の魅力。従来のアクセス解析との違いとは?
ウフル ソーシャルリスニング紹介資料
ウフル ソーシャルリスニング紹介資料
uhuru_jp
2011/12/2
Localyticsを活用したアプリ解析事例と分析のポイント
Localyticsを活用したアプリ解析事例と分析のポイント
LocalyticsJP
Localyticsを活用したアプリ解析事例と分析のポイント
Localyticsを活用したアプリ解析事例と分析のポイント
Hiromitsu Ishimori
Oracle Data Minerハンズオンセミナー170927:③Business Analytics概要と事例
Oracle Data Minerハンズオンセミナー170927:③Business Analytics概要と事例
オラクルエンジニア通信
ハンズオンセミナー資料
ユーザーストーリーマッピングを使ってプロダクトバックログを作ろう
ユーザーストーリーマッピングを使ってプロダクトバックログを作ろう
izumi ito
「プロダクトオーナーがユーザーストーリーマッピングを使ってPBLを作成する」というプロセスを体験するワークショップを社内で開催しました。
Cognos reportauthoring a12_bookmark
Cognos reportauthoring a12_bookmark
Shinsuke Yamamoto
Cognos Report Authoring 逆引き A12 レポート内の別の領域へのリンク(ブックマーク)を利用したい
ナレッジ共有ベース業務スタイル変革ソリューションKCUBE
ナレッジ共有ベース業務スタイル変革ソリューションKCUBE
Erin Kim
ナレッジキューブ KCUBE
More Related Content
Similar to レポート作成業務支援のための中国語ソーシャルメディア投稿分類システムの構築 公開版
#経済学のための実践的データ分析 10. テキスト分析の方法
#経済学のための実践的データ分析 10. テキスト分析の方法
Yasushi Hara
一橋大学 経済学部 #経済学のための実践的データ分析 10. テキスト分析の方法
Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127
kan_yukiko
「データマイニング現場 24時」 第16回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 16th)-リアルタイム分散 Web解析・自然言語処理 祭り- 発表資料
Cognos reportauthoring a10_promptfix
Cognos reportauthoring a10_promptfix
Shinsuke Yamamoto
Cognos Report Authoring 逆引き A10 レポート実行時にプロンプトの値を固定したい
データフィードマーケティング概要
データフィードマーケティング概要
Go Sugihara
データフィードマーケティング概要をまとめました。データフィードとはあるデータのデータ元からデータ受取先へ更新されたデータを送受信する仕組みであり、データフィードマーケティングはその仕組みを様々なデジタルマーケティング施策で活用するものです。具体的には商品データベースの情報を、ECサイト、ショッピングサーチ/比較サイト、リスティング広告、ディスプレイ広告、アフィリエイト広告などにデータを自動配信し、新規の登録や更新の手間を省きつつ、最大のパフォーマンスを上げることが可能です。 http://www.atara.co.jp/
BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析
CROSSHACK, Inc.
一人ひとりの行動データを観察することで、カスタマーの典型的な行動パターンを理解し、可視 化するフレームワークです。これにより、ファクトとデータに基づくカスタマージャーニーを描くことができ、PDCAが可能 な実効性の高いマーケティング施策の策定が可能となります。
おしゃスタat銀座
おしゃスタat銀座
Issei Kurahashi
20180730 ds womens
20180730 ds womens
Rio Kurihara
データサイエンティスト女子部での発表資料(20180730開催)
サービス紹介|myアンケート
サービス紹介|myアンケート
聞く技術研究所|株式会社ドゥ・ハウス
【KSKアナリティクス】Pentaho紹介
【KSKアナリティクス】Pentaho紹介
KSK Analytics Inc.
【KSKアナリティクス】Pentaho紹介
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
Sho Nakamura
2019/3/5 at DEIM
コンテンツマーケティング提案資料
コンテンツマーケティング提案資料
Kodai Aiba
CINC社のコンテンツマーケティング提案資料です
Boommap main
Boommap main
agilemedia
クチコミ分析ツール「ブームマップ」の概要資料になります。
福井解析セミナー20140326
福井解析セミナー20140326
Aマーケティング合同会社
ウェブ解析の魅力。従来のアクセス解析との違いとは?
ウフル ソーシャルリスニング紹介資料
ウフル ソーシャルリスニング紹介資料
uhuru_jp
2011/12/2
Localyticsを活用したアプリ解析事例と分析のポイント
Localyticsを活用したアプリ解析事例と分析のポイント
LocalyticsJP
Localyticsを活用したアプリ解析事例と分析のポイント
Localyticsを活用したアプリ解析事例と分析のポイント
Hiromitsu Ishimori
Oracle Data Minerハンズオンセミナー170927:③Business Analytics概要と事例
Oracle Data Minerハンズオンセミナー170927:③Business Analytics概要と事例
オラクルエンジニア通信
ハンズオンセミナー資料
ユーザーストーリーマッピングを使ってプロダクトバックログを作ろう
ユーザーストーリーマッピングを使ってプロダクトバックログを作ろう
izumi ito
「プロダクトオーナーがユーザーストーリーマッピングを使ってPBLを作成する」というプロセスを体験するワークショップを社内で開催しました。
Cognos reportauthoring a12_bookmark
Cognos reportauthoring a12_bookmark
Shinsuke Yamamoto
Cognos Report Authoring 逆引き A12 レポート内の別の領域へのリンク(ブックマーク)を利用したい
ナレッジ共有ベース業務スタイル変革ソリューションKCUBE
ナレッジ共有ベース業務スタイル変革ソリューションKCUBE
Erin Kim
ナレッジキューブ KCUBE
Similar to レポート作成業務支援のための中国語ソーシャルメディア投稿分類システムの構築 公開版
(20)
#経済学のための実践的データ分析 10. テキスト分析の方法
#経済学のための実践的データ分析 10. テキスト分析の方法
Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127
Cognos reportauthoring a10_promptfix
Cognos reportauthoring a10_promptfix
データフィードマーケティング概要
データフィードマーケティング概要
BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析
おしゃスタat銀座
おしゃスタat銀座
20180730 ds womens
20180730 ds womens
サービス紹介|myアンケート
サービス紹介|myアンケート
【KSKアナリティクス】Pentaho紹介
【KSKアナリティクス】Pentaho紹介
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
コンテンツマーケティング提案資料
コンテンツマーケティング提案資料
Boommap main
Boommap main
福井解析セミナー20140326
福井解析セミナー20140326
ウフル ソーシャルリスニング紹介資料
ウフル ソーシャルリスニング紹介資料
Localyticsを活用したアプリ解析事例と分析のポイント
Localyticsを活用したアプリ解析事例と分析のポイント
Localyticsを活用したアプリ解析事例と分析のポイント
Localyticsを活用したアプリ解析事例と分析のポイント
Oracle Data Minerハンズオンセミナー170927:③Business Analytics概要と事例
Oracle Data Minerハンズオンセミナー170927:③Business Analytics概要と事例
ユーザーストーリーマッピングを使ってプロダクトバックログを作ろう
ユーザーストーリーマッピングを使ってプロダクトバックログを作ろう
Cognos reportauthoring a12_bookmark
Cognos reportauthoring a12_bookmark
ナレッジ共有ベース業務スタイル変革ソリューションKCUBE
ナレッジ共有ベース業務スタイル変革ソリューションKCUBE
レポート作成業務支援のための中国語ソーシャルメディア投稿分類システムの構築 公開版
1.
レポート作成業務支援のための 中国語ソーシャルメディア 投稿分類システムの構築 第9回テキストマイニング・シンポジウム 2016年9月8日 株式会社ホットリンク R&Dグループ 榊 剛史
水木 栄 セーヨーサンティ
2.
Copyright© Hottolink, Inc. ▶TOPICS
背景 中国人観光客のインバウンド消費動向を、中国ソーシャル・ビッグデータの リアルタイム分析により毎週レポート。 ■中国の人が春節の本旅行中に買ったモノランキング日
3.
Copyright© Hottolink, Inc. ▶TOPICS
背景
4.
Copyright© Hottolink, Inc. ▶TOPICS
背景
5.
Copyright© Hottolink, Inc. ▶TOPICS •
さ 背景 単に商品名を含む投稿を収集するだけでなく、収集した投稿を 分析の観点から分類・集計する必要がある 製品情報 販売情報 キャンペーン関連 メディア推薦 使用感想 商品に言及した投稿の分類例
6.
Copyright© Hottolink, Inc. ▶TOPICS
背景 • さ• 現状 – 商品を含む投稿を収集した後,与えられたカテゴリに人手 で分類している • 問題点 – カスタマイズされたレポートを作成する人的リソースが足 りない – レポート作成にかかるコストが大きい – 分類のカテゴリ自体は状況によって変わる可能性がある 機械学習技術を用いて、多様なカテゴリ分類に適応しつつ、 投稿のカテゴリ分類コストを削減する
7.
Copyright© Hottolink, Inc. ▶TOPICS
背景 • その他の問題意識 機械学習を用いて文書分類器を構築する際に、 どの工夫を優先的に行うべきか? 対象言語に対する理解が低い状態で、 実用的な分類器を作成することができるのか? 学習手法、特徴量の作り方、経験的な工夫・・・・ 分類器作成のパラメータは多数ある #微博橱窗#日本花王卫生巾搬运工在此,工农阶级万岁!|微博橱窗-... → # 微博 橱窗 # 日本 花王 卫生巾 搬运工 在此 , 工农 阶级 万岁 ! | 微博 橱窗 - ... 日本本土直邮大王尿不湿,拉拉裤,需要的➕微信 还有花王,尤妮佳!!! → 日本 本土 直 邮 大王 尿不湿 , 拉拉裤 , 需要 的 ➕ 微信 还有 花王 , 尤妮佳 ! ! !
8.
Copyright© Hottolink, Inc. ▶TOPICS
提案システム • 目的 • 特徴 • 要件 Weibo上から,特定の商品に言及した文書を収集した後,それ らを与えられたクラスに分類する ユーザが分類クラスおよび学習データを設定できる点 顧客ニーズによって、必要な分類カテゴリが変わる可能性があるため 分類対象文書と分類器の学習データのドメインが異なることを 想定している点 新商品や未知の企業について分類が必要になる際は、領域適応が必要 ドメイン内分類(学習データと同じドメインでの分類) 精度 ≧ 0.8 交差ドメイン学習(学習データと異なるドメインでの分類) 精度 ≧ 0.6
9.
Copyright© Hottolink, Inc. ▶TOPICS
提案システム ユーザが分類クラスおよび学習データを設定 製品情報 販売情報 キャンペーン関連 メディア推薦 使用感想 分類クラスの例 その1 過去の行動 現在の行動 未来の予定・希望 その2 分析したい内容によって、必要な分類クラスが異なる
10.
Copyright© Hottolink, Inc. ▶TOPICS 分類対象文書と分類器の学習データのドメインが異なる場合 既存の商品A 学習データ 商品A 分類モデル 分類器 商品A 分類モデル 分類器 学習フェーズ 運用フェーズ 既存の商品A テストデータ 新商品B 分類結果 分類結果 未知のドメインのデータ分類する必要は、少なく無い頻度で起き得る
11.
Copyright© Hottolink, Inc. ▶TOPICS
提案システム 使用感想 製品情報 販売情報 想把好东西分享给你。 … 使用感想 #日本海淘代购#… 製品情報 データセット3 データセット2 データセット1 分類器Y 使用感想 製品情報 分類器X データセット3 分類器Y#香港代購#秋冬必备… ? 【现货】日本代购… ? #香港代購#秋冬必 备… 販売情 報 【现货】日本代购 … 販売情 報 1. 分類クラスを定義 2. 分類済みデータを アップロード 3. 分類器を オンデマンド構築 4. 内容分類を 実施 未分類データセット ブラウザ up ブラウザ 指定 ブラウザ 条件指定 ブラウザ up 担当者 確認 dl バッチ処理 (on HTL server) 択一
12.
Copyright© Hottolink, Inc. ▶TOPICS
提案システム 使用感想 製品情報 販売情報 想把好东西分享给你。 … 使用感想 #日本海淘代购#… 製品情報 データセット3 データセット2 データセット1 分類器Y 使用感想 製品情報 分類器X データセット3 分類器Y#香港代購#秋冬必备… ? 【现货】日本代购… ? #香港代購#秋冬必 备… 販売情 報 【现货】日本代购 … 販売情 報 1. 分類クラスを定義 2. 分類済みデータを アップロード 3. 分類器を オンデマンド構築 4. 内容分類を 実施 未分類データセット ブラウザ up ブラウザ 指定 ブラウザ 条件指定 ブラウザ up 担当者 確認 dl バッチ処理 (on HTL server) 択一
13.
Copyright© Hottolink, Inc. ▶TOPICS
提案システムのパラメータ • 使用する分類器 • Naïve Bayes EM Algorithm(NBEM) • Linear Support Vector Machine(SVM) • 特徴量 • Bag of Words(BoW) • Bag of Word Vectors • 手法 • word2vec(BoWV) • GraRep(BoWV-GraRep) • 単語ベクトル(分散表現)学習用データ • 学習データをそのまま利用 • 大規模コーパス • 経験的な工夫 • 固有表現の認識(NER) • サンプル数の違いによるクラス毎の重みの調整(Weight) 目的とする精度を,低い計算コストで実現できる組み合わせを明らかにする
14.
Copyright© Hottolink, Inc. ▶TOPICS
提案システムのパラメータ • Naïve Bayes EM Algorithm(NBEM) • 入力Xが与えられた時にYである確率を元に、分類クラスを決定する • 例:投稿に投価格表現が含まれる→「販売情報」であると推測される • 多クラス分類に用いられることが多い • NBEMは、領域適応に強いとされる • Support Vector Machine • 教師あり学習のデファクトスタンダード • 2クラス分類によく用いられる 使用する分類器 ※領域適応(domain adaptation) ある領域で学習されたモデルを、異なる領域に適応させること 例:「紙おむつ」で学習したモデル → 「化粧品」の投稿を分類
15.
Copyright© Hottolink, Inc. ▶TOPICS
提案システムのパラメータ • Bag of Words(BoW) • ある文書を、そこに含まれる単語集合で表現する • 例:#微博橱窗#日本花王卫生巾搬运工在此,工农阶级万岁!|微博橱窗-... => # 微博 橱窗 # 日本 花王 卫生巾 搬运工 在此 , 工农 阶级 万岁 ! | 微博 橱窗 - ... 使用する特徴量
16.
Copyright© Hottolink, Inc. ▶TOPICS
提案システムのパラメータ • Bag of Word Vectors • 単語分散表現:単語をn次元のベクトルで表現する • 文ベクトル:含まれる単語ベクトルの次元ごとの平均値で表現する • 手法 • word2vec(BoWV) • GraRep(BoWV-GraRep) • データセット(事前学習) • 分類器学習用のデータ • 大規模データセット(Corpus) • 中国語Wikipedia等のオープンデータ によるコーパス • 弊社がWebから収集したニュース記事等 使用する特徴量
17.
Copyright© Hottolink, Inc. ▶TOPICS
提案システムのパラメータ • 固有表現の認識(NER) • URL,値段,商品のサイズ,販売単位といったルールベース(正規表現)で抽出 • クラス毎の重みの調整(Weight) • 各クラスのデータサイズが不均等→分類精度の低下の可能性 • 学習データのサイズに基づいて各クラスの重みを調整 𝑙𝑙 𝑚𝑚𝑒𝑒𝑒𝑒𝑒𝑒: 分類クラスのサンプル数の平均 𝑙𝑙 𝑚𝑚𝑚𝑚 𝑚𝑚: 分類クラスのサンプル数の最小値 𝑙𝑙max: 分類クラスのサンプル数の最大値 𝑐𝑐𝑖𝑖: クラス𝑖𝑖のサンプル数 クラス𝑖𝑖の重み𝑤𝑤𝑖𝑖 = log 10 + 𝑎𝑎𝑎𝑎𝑎𝑎 𝑐𝑐𝑖𝑖 − 𝑙𝑙 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 � 𝑙𝑙 𝑚𝑚 𝑚𝑚𝑚𝑚−𝑙𝑙 𝑚𝑚𝑚𝑚 𝑚𝑚 𝑐𝑐𝑖𝑖 34cm → <size> 10品牌→ <quant> http://t.cn/RUeePJl→ <URL> 経験的な工夫
18.
Copyright© Hottolink, Inc. ▶TOPICS
評価実験 • データセット • 分類クラス ID セット名 ツイート数 A 製品A(生理用品) 12,407 B 製品B(蒸気アイマスク) 5,516 C 製品C(小児用紙おむつ) 6,526 D ブランドD (化粧品ブランド) 87,387 ID クラス名 1 製品情報 2 販売情報 3 キャンペーン関連 4 メディア推薦 5 使用感想
19.
Copyright© Hottolink, Inc. ▶TOPICS 評価実験 ~分類器の比較~ •
分類器比較 • NBEM はドメイン内学習,交差ドメイン学習共にaccuracy がSVM に劣っている ドメイン内 Accuracy ドメイン内 Macro precision 交差ドメイン Accuracy 交差ドメイン Macro precision BoW(NBEM) 0.76 0.30 BoW(SVM) 0.92 0.43 BoWV 0.86 0.71 0.62 0.46 BoWV+NER 0.86 0.71 0.64 0.46 BoWV+ NER+Weight 0.86 0.79 0.63 0.47 BoWV-GraRep+ NER+Weight 0.85 0.70 0.72 0.49 BoWV+NER+Weig ht+Corpus 0.84 0.77 0.68 0.55
20.
Copyright© Hottolink, Inc. ▶TOPICS 評価実験 ~分類器の比較~ •
交差ドメイン学習で用いられるデータセット間において共通単語が約1 − 2 割しかな い • 学習フェーズと予測フェーズでは大半の単語の情報をうまく利用されていないため, BoW が特徴量として有効に機能しないと考えられる 製品A 製品B 製品C ブランドD 製品A 1.00 0.24 0.23 0.10 製品B - 1.00 0.24 0.11 製品C - - 1.00 0.11 ブランドD - - - 1.00 データセット間での単語共有割合
21.
Copyright© Hottolink, Inc. ▶TOPICS 評価実験 ~特徴量の比較~ •
特徴量比較 • NBEM はドメイン内学習,交差ドメイン学習共にaccuracy がSVM に劣っている ドメイン内 Accuracy ドメイン内 Macro precision 交差ドメイン Accuracy 交差ドメイン Macro precision BoW(NBEM) 0.76 0.30 BoW(SVM) 0.92 0.43 BoWV 0.86 0.71 0.62 0.46 BoWV+NER 0.86 0.71 0.64 0.46 BoWV+ NER+Weight 0.86 0.79 0.63 0.47 BoWV-GraRep+ NER+Weight 0.85 0.70 0.72 0.49 BoWV+NER+Weig ht+Corpus 0.84 0.77 0.68 0.55
22.
Copyright© Hottolink, Inc. ▶TOPICS 評価実験 ~経験的な工夫の比較~ •
固有表現の認識 • BoWV + NER BoWV と比べて,有意な精度の変化は見られないため,精度向上に殆 ど寄与しないと言えるだろう. • 重みの調整 • ドメイン内macro precision が0.71 → 0.79 と向上していることから、ドメイン内学習に ついて,accuracy を保ちながらmacro precision を高める効果があると考えられる. ドメイン内 Accuracy ドメイン内 Macro precision 交差ドメイン Accuracy 交差ドメイン Macro precision BoW(NBEM) 0.76 0.30 BoW(SVM) 0.92 0.43 BoWV 0.86 0.71 0.62 0.46 BoWV+NER 0.86 0.71 0.64 0.46 BoWV+ NER+Weight 0.86 0.79 0.63 0.47 BoWV-GraRep+ NER+Weight 0.85 0.70 0.72 0.49 BoWV+NER+Weig ht+Corpus 0.84 0.77 0.68 0.55
23.
Copyright© Hottolink, Inc. ▶TOPICS 評価実験 ~経験的な工夫の比較~ •
単語分散表現の違い • GraRep を用いることで交差ドメイン学習においてより精度を向上させることが可 能になると言えるだろう.ただし、大規模データへの適用は困難 ドメイン内 Accuracy ドメイン内 Macro precision 交差ドメイン Accuracy 交差ドメイン Macro precision BoW(NBEM) 0.76 0.30 BoW(SVM) 0.92 0.43 BoWV 0.86 0.71 0.62 0.46 BoWV+NER 0.86 0.71 0.64 0.46 BoWV+ NER+Weight 0.86 0.79 0.63 0.47 BoWV-GraRep+ NER+Weight 0.85 0.70 0.72 0.49 BoWV+NER+Weig ht+Corpus 0.84 0.77 0.68 0.55
24.
Copyright© Hottolink, Inc. ▶TOPICS 評価実験 ~単語ベクトル(分散表現)
学習データの比較~ • 分散表現学習データの違い • 分散表現のコーパスを大規模化することで、ドメイン内学習の精度を維持しつつ、交差ドメ イン学習の精度向上を実現した ドメイン内 Accuracy ドメイン内 Macro precision 交差ドメイン Accuracy 交差ドメイン Macro precision BoW(NBEM) 0.76 0.30 BoW(SVM) 0.92 0.43 BoWV 0.86 0.71 0.62 0.46 BoWV+NER 0.86 0.71 0.64 0.46 BoWV+NER+Weig ht 0.86 0.79 0.63 0.47 BoWV-GraRep+ NER+Weight 0.85 0.70 0.72 0.49 BoWV+NER+Weig ht+Corpus 0.84 0.77 0.68 0.55
25.
Copyright© Hottolink, Inc. ▶TOPICS
考察 • 分類器 • SVMとNBEMを比較すると、SVMが優位であった • SVMで目的とする精度を達成することができた • 特徴量 • BoWよりもBoWVの方が、領域適応に適している • 分散表現の学習のコーパスの大規模化が、交差ドメイン学習の精度向 上に貢献 • 経験的な工夫 • SVMにおけるクラス毎の重み調整が、ドメイン内学習の精度向上に貢献
26.
Copyright© Hottolink, Inc. ▶TOPICS
おわりに • インバウンドレポートを作成するための支援ツールとして,中国語ソーシャルメディ アを対象とした投稿分類システムを構築 • 高い精度を目的とするのではなく、「より低い計算コストで実用的な精度を実現す る」ことを目的とした • 目的と精度を達成するために必要な要素を明らかにし,それらにより実用的なコス トが得られることを評価実験により検証した. • 分類器の精度向上において、優先的に行うべき工夫を明らかにした
27.
Copyright© Hottolink, Inc. ▶TOPICS
おわりに 機械学習を用いて文書分類器を構築する際に、 どの工夫を優先的に行うべきか? 対象言語に対する理解が低い状態で、 実用的な分類器を作成することができるのか? •SVM、単語分散表現(word2vec)の適用 •小規模データの場合はGraRepを用いる •単語分散表現の学習用コーパスの整備 分かち書き(形態素解析)が実現できれば、それ以降は言語依存の知識を 用いなくても、実用的な精度が得られる
Download now