Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
ミクミンP
@ksasao
オタク機械学習勉強会 #1
2017/2/4
https://github.com/ksasao/Gochiusearch
 ごちうサーチ (Gochiusearch)
 ご注文はうさぎですか?のスクショから
何羽・何分何秒かを高速検索
 Windows/Mac/Linux 対応
...
 艦娘認識
http://bit.ly/1VEaO2H
 飯テロ判定bot @no_meshitero
 飯テロ画像を判定するbotだが、
それ以外の画像も判定
OCR
録音
データ修正
&
タグ付け
再利用
 OCR精度はそこそこ高い
 話者名をタグ付け
 音声の区切りとテキストの
区切りの対応関係を定義
 実再生時間の約1.3倍程度
で作業完了
 C#で専用ツールを作成
 見つけた画像を即データ化
 C#で専用ツールを作成
 仮想ディスクと物理ディスクの速度は
ほぼ同じ
 音声・画像・動画は ZIP で圧縮しても
ファイルサイズはあまり変わらない
 全体のコピー時間が圧倒的に高速
 特にネットワーク越しの場合
 大きな1つのファイル << 細切れのファイ...
ディスク容量の最大値は
物理ディスクより大きく
指定してもOK
(足りなくなりそうに
なってから物理を追加)
VHDX が使えるのは
Windows 8 以降
可変サイズにしておくと
最初は小さい
*最大1TB設定で300MB
Windows 10 なら
右クリックで
マウント・アンマウント
できる
マウント後は通常の
ディスクドライブと
同様の使い勝手
設定済みの空の仮想ディスクをコピーして
使いまわすと便利
 データセットを自分で作っておくと、
都合の良い学習器の作成などが捗る
 データセット作成のためのツールも
作れるようになっておくと何かと便利
 データセットは仮想ディスクで管理
冴えないデータセットの育て方
冴えないデータセットの育て方
冴えないデータセットの育て方
冴えないデータセットの育て方
冴えないデータセットの育て方
Upcoming SlideShare
Loading in …5
×

冴えないデータセットの育て方

3,439 views

Published on

オタク機械学習勉強会 #1 の LT 発表資料です

Published in: Data & Analytics
  • Hello! Get Your Professional Job-Winning Resume Here - Check our website! https://vk.cc/818RFv
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

冴えないデータセットの育て方

  1. 1. ミクミンP @ksasao オタク機械学習勉強会 #1 2017/2/4
  2. 2. https://github.com/ksasao/Gochiusearch  ごちうサーチ (Gochiusearch)  ご注文はうさぎですか?のスクショから 何羽・何分何秒かを高速検索  Windows/Mac/Linux 対応  1期・2期 全フレーム の画像 約100万枚のインデックス を約3MBに圧縮して保持
  3. 3.  艦娘認識 http://bit.ly/1VEaO2H
  4. 4.  飯テロ判定bot @no_meshitero  飯テロ画像を判定するbotだが、 それ以外の画像も判定
  5. 5. OCR 録音 データ修正 & タグ付け 再利用
  6. 6.  OCR精度はそこそこ高い  話者名をタグ付け  音声の区切りとテキストの 区切りの対応関係を定義  実再生時間の約1.3倍程度 で作業完了  C#で専用ツールを作成
  7. 7.  見つけた画像を即データ化  C#で専用ツールを作成
  8. 8.  仮想ディスクと物理ディスクの速度は ほぼ同じ  音声・画像・動画は ZIP で圧縮しても ファイルサイズはあまり変わらない  全体のコピー時間が圧倒的に高速  特にネットワーク越しの場合  大きな1つのファイル << 細切れのファイル  Windows なら .vhdx/可変サイズ 一択  必要なツール群も一緒にまとめておく  大きくなりがちなファイルを効率よく管理
  9. 9. ディスク容量の最大値は 物理ディスクより大きく 指定してもOK (足りなくなりそうに なってから物理を追加) VHDX が使えるのは Windows 8 以降 可変サイズにしておくと 最初は小さい *最大1TB設定で300MB
  10. 10. Windows 10 なら 右クリックで マウント・アンマウント できる マウント後は通常の ディスクドライブと 同様の使い勝手 設定済みの空の仮想ディスクをコピーして 使いまわすと便利
  11. 11.  データセットを自分で作っておくと、 都合の良い学習器の作成などが捗る  データセット作成のためのツールも 作れるようになっておくと何かと便利  データセットは仮想ディスクで管理

×