SlideShare a Scribd company logo
1 of 55
Download to read offline
CasualConc 3.0
̶Universal Dependency タグを
利用した文法検索の試み̶
今尾康裕
大阪大学
JAECS Conference 2022
本研究はJSPS科研費 JP20K00742の助成を受けたものです
本日のお題目
•CasualConc とは?
•CasualConc 3.0 の紹介
•今後の課題
今日も
Mac を買いたくなるようなプレゼンテーション
を目指します
What is CasualConc?
What is CasualConc?
•macOS 用コンコーダンサー
•コーパスファイル管理
•基本的なコーパス分析機能
✓KWIC, Word List, Collocation, Word Cluster
•ファイルごとの単語頻度集計
•R を利用したデータの視覚化
コーパスファイル管理
What is CasualConc
•macOS 用コンコーダンサー
•コーパスファイル管理
•基本的なコーパス分析機能
✓KWIC, Word List, Collocation, Word Cluster
•ファイルごとの単語頻度集計
•R を利用したデータの視覚化
KWIC
KWIC
単語リスト
コロケーション
単語クラスター (n-gram 検索)
What is CasualConc
•macOS 用コンコーダンサー
•コーパスファイル管理
•基本的なコーパス分析機能
✓KWIC, Word List, Collocation, Word Cluster
•ファイルごとの単語頻度集計
•R を利用したデータの視覚化
ファイルごとの頻度集計
What is CasualConc
•macOS 用コンコーダンサー
•コーパスファイル管理
•基本的なコーパス分析機能
✓KWIC, Word List, Collocation, Word Cluster
•ファイルごとの単語頻度集計
•R を利用したデータの視覚化
-0.6 -0.4 -0.2 0.0 0.2 0.4
-0.4
-0.3
-0.2
-0.1
0.0
0.1
0.2
0.3
Dimension 1 (44.57%)
Dimension
2
(18.3%)
*
*
* *
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
* **
*
*
*
Harry Potter 1
Harry Potter 2
Harry Potter 3
Harry Potter 4
Harry Potter 5
Harry Potter 6
Harry Potter 7
Book 1 - THE FELLOWSHIP OF THE RING 1
Book 2 - THE FELLOWSHIP OF THE RING 2
Book 3 - THE TWO TOWERS 1
Book 4 - THE TWO TOWERS 2
Book 5 - THE RETURN OF THE KING 1
Book 6 - THE RETURN OF THE KING 2
DOROTHY AND THE WIZARD IN OZ
GLINDA OF OZ
OZMA OF OZ
RINKITINK IN OZ
THE EMERALD CITY OF OZ
THE LOST PRINCESS OF OZ
THE MAGIC OF OZ
THE MARVELOUS LAND OF OZ
THE PATCHWORK GIRL OF OZ
THE ROAD TO OZ
THE SCARECROW OF OZ
THE TIN WOODMAN OF OZ
THE WONDERFUL WIZARD OF OZ
TIK-TOK OF OZ
Book 1 - The Magician's Nephew
Book 2 - The Lion, the Witch and the Wardrobe
Book 3 - The Horse and His Boy
Book 4 - Prince Caspian
Book 5 - The Voyage of the Dawn Treader
Book 6 - The Silver Chair
Book 7 - The Last Battle
Harry Potter 1
Harry Potter 2
Harry Potter 3
Harry Potter 4
Harry Potter 5
Harry Potter 6
Harry Potter 7
the
i
dumbledore
that
hagrid
her
harry
said
ron
and
black
not
they
professor
a
you
mr
on
she
hermione
wand
he
it
of
was
didn't
all
at
have
well
his get
one
had
off
were
him
but
did
we
in
very
would
could
though
if
out
up
or
for
got
through
yes
to
from
about
be
now
then
around
first
never
down
something
upon
what
knew
see
asked
where
little
who
into
their
go
my
once am
is
this
voice
again
looked
long
even
just
do
are
me
place
an
think
going
ever
us
know
been
has
them
with
i'm
people
it's
back
found
so seemed
two
look
will
which
your
went
there
looking
thought
door
felt
like
its
own
eyes
saw
because
room
as
no
when
heard
time
away
still
over
after
by
dark
might
let
much
head
here
came
good
oh
more
left
man
himself
face
stood
some
hand
come
don't
why
must
right
far
other
told
how
only
say
can
thing
want
shall
find
way
three
than
while
old
too
these
great
moment
behind
last
tell
nothing
our
take
feet
turned
before
wizard
took
make
king
may
made
any
many
magic
side
another
yet
dorothy
frodo
freq
HP
LOR
Narnia
Oz
HP
LOR
Narnia
Oz
HP
LOR
Narnia
Oz
HP
LOR
Narnia
Oz
0
100
200
300
400
could would can may
said
mrs
professor
mr
uncle
harry
death
looked
yes
great
right
yeah
dark
entrance
madam
first
come
lord
looking
well
know
draco
potter
oh
go
ron
years
last
hermione
never
albus
asked
get
every
front
gryffindor
door
o
sir
w
nearly
told
ever
sirius
just
ten
headless
lucius
tell
now
even
came
magical
five
long
look
one
say
everyone
felt
minutes
okay
fred
looks
let
back
better
harry's
moment
anyone
good
us
staff
though way
anything
dumbledore
weasley
mcgonagall
hagrid
vernon
eaters
saw
around
lupin
snape
hall
thought
george
trelawney
arts
knew
umbridge
eater
like
crouch
pomfrey
time
voldemort
heard
malfoy
ginny
fudge
stared
turned
ago
seen
neville
year
slughorn
moody
flitwick
quietly
tower
night
behind
luna
l
quickly
since
black
watched
pulled
took
nick
muttered
vernon's
sat
sprout
yelled
creatures
nothing
glanced
found
got
tried
whispered
thing
else
later
percy
noticed
went
norris
another
toward
face
heart
doors
eyes
eye
ollivander
tonks
mark
shouted
stood
table
opened
i
am
me
my
the
here
while
upon
as
head
with
man
made
good
sked
so
little
rothy
why
who
to
her
she
make
can
agic
izard
eople
all
when
after
much
found
other
place
other
one
which
this
be
do
these
we
us
our
are
let
has
is
must
no
some
any
find
way
take
here
ever
go
by
king
own
your
their
them
they
were
for
and
will
shall
then
stood
great
came
but
in
efore
away
far
long
old
not
many
may
yet
of
side
than
its
went
come
last
there
or
if
even
now
more
that
have
from
left
again
frodo
dark
emed
took
black
urned
heard
ehind
ough
still
hand
mself
he
him
his
rough
eyes
mr
over
yes
did
ron
harry
ione
essor
oking
told
edore
wand
didn't
agrid
door
round
room
get
ause
i'm
an
don't
want
just
it's
tell
know
could
thing
ould
three
knew
how
you
well
might
once
oh
first
time
two
see
thing
very
a
never
down
feet
too
felt
on
about
ought
saw
it
like
ment
say
only
voice
been
was
had
face
said
right
what
thing
look
think
into
at
oked
going
back
off
got
out
up
OZMA OF OZ
TIK-TOK OF OZ
THE EMERALD CITY OF OZ
THE SCARECROW OF OZ
DOROTHY AND THE WIZARD IN OZ
THE TIN WOODMAN OF OZ
THE PATCHWORK GIRL OF OZ
THE ROAD TO OZ
THE MARVELOUS LAND OF OZ
RINKITINK IN OZ
THE WONDERFUL WIZARD OF OZ
GLINDA OF OZ
THE MAGIC OF OZ
THE LOST PRINCESS OF OZ
Harry Potter 2
Harry Potter 4
Harry Potter 3
Harry Potter 1
Harry Potter 5
Harry Potter 6
Harry Potter 7
Book 5 - THE RETURN OF THE KING 1
Book 2 - THE FELLOWSHIP OF THE RING 2
Book 3 - THE TWO TOWERS 1
Book 4 - THE TWO TOWERS 2
Book 6 - THE RETURN OF THE KING 2
Book 1 - THE FELLOWSHIP OF THE RING 1
Book 2 - The Lion, the Witch and the Wardrobe
Book 1 - The Magician's Nephew
Book 3 - The Horse and His Boy
Book 4 - Prince Caspian
Book 7 - The Last Battle
Book 5 - The Voyage of the Dawn Treader
Book 6 - The Silver Chair
-4 -2 0 2 4
Value
Color Key
Introducing
CasualConc 3.0
CasualConc 3.0 の新機能
•XML 処理
•Universal Dependency に基づく文法検索
✓POS 情報を利用した KWIC 検索
•統計値
✓語彙散布度指標 (Word Count)
✓コロケーション統計 (Collocation)
✓語彙の多様性指標 (ファイル情報)
CasualConc 3.0 の新機能
•XML 処理
•Universal Dependency に基づく文法検索
✓POS 情報を利用した KWIC 検索
•統計値
✓語彙散布度指標 (Word Count)
✓コロケーション統計 (Collocation)
✓語彙の多様性指標 (ファイル情報)
XML 処理
XML 処理
•ヘッダタグでのフィルタリング
•コンテクストタグ
•XML ファイルの分析
XML 処理
•ヘッダタグでのフィルタリング
•コンテクストタグ
•XML ファイルの分析
XML 処理
XML 構造を
分析し登録する
XML 構造を解析してその情報を使って分析する
XML 処理
XML 構造を解析してその情報を使って分析する
XML 処理
使用する要素
フィルタ
XML ファイルの分析
フィルタ
指定
XML ファイルの分析
フィルタごとの集計
文法検索
SKELL
文法検索
•文法検索を可能にするためには文法解析が必要
•文法解析
✓Constituency Parsing (句構造解析)
✓Dependency Parsing (依存構造解析)
句構造解析
句構造 (phrase structure) を
解析する
依存構造解析
the
det
fi
rst
amod
century
nmod
of
case
half
Governor
Dependent
依存構造解析
cc(was-6, But-1) amod(reason-9, concrete-8)
case(plane-4, in-2) nsubj(was-6, reason-9)
det(plane-4, the-3) case(it-11, for-10)
obl:in(was-6, plane-4) nmod:for(reason-9, it-11)
expl(was-6, there-5) punct(was-6, .-12)
det(reason-9, a-7)
文法解析 for CasualConc
•STFDB Creator
•Stanford CoreNLP を利用
✓Java 8 のインストールが必要
✓依存構造解析 (Universal Dependency v.2)
‣ amod (adjectival modi
fi
er)
‣ nsubj (nominal subject)
✓SQLite データベースを作成
‣ POS, Lemma, 依存関係
Sherlock Holmes コーパスの
データベースファイルが
CasualConc サイトに
用意してあります
Stanford CoreNLP
文法検索 on CasualConc
•Detail モード
✓文法タグを指定して検索
•Preset モード (英語のみ)
✓あらかじめ用意された文法関係を検索
Detail モード
Detail モード
文法関係の
指定
結果タイプ
Word, Lemma, POS, SPOS
中心語の指定
共起語の検索
支配語 (被修飾語) の
位置の指定
Detail モード
Preset モード
Preset モード
文法関係の
指定
結果タイプ
Word, Lemma, POS, SPOS
中心語の指定
共起語の指定
Preset モード
Preset モード
Preset モード
Preset モード
KWIC (Detail/Preset)
Grammar データベースでの Concord
今後の課題
今後の課題
•バグ修正
•UI の改善
•データベースファイルのサイズ縮小
✓BROWN family (24.1MB -> 2.68GB)
•データベースファイルの編集 (タグ修正)
•結果の視覚化
XML 処理 (その他)
XML 処理
XML 形式のヘッダタグがあれば
その情報で
使用するをフィルタリング
XML ヘッダ情報を使ってのファイルのフィルタリング
XML 処理
XML ファイルであれば
セクションタグ処理でも
XPath を使って
指定可能
XML コンテクストタグを使っての部分処理
統計値
統計値
語彙散布度指標 (Word Count) コロケーション統計 (Collocation)
追加された
語彙散布度指標
追加された
コロケーション統計
統計値
語彙の多様性指標

More Related Content

What's hot

TripleOの光と闇
TripleOの光と闇TripleOの光と闇
TripleOの光と闇Manabu Ori
 
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015Yahoo!デベロッパーネットワーク
 
OpenStackをコマンドで攻める! 構築・運用とトラブル解決 - OpenStack最新情報セミナー 2014年6月
OpenStackをコマンドで攻める! 構築・運用とトラブル解決 - OpenStack最新情報セミナー 2014年6月OpenStackをコマンドで攻める! 構築・運用とトラブル解決 - OpenStack最新情報セミナー 2014年6月
OpenStackをコマンドで攻める! 構築・運用とトラブル解決 - OpenStack最新情報セミナー 2014年6月VirtualTech Japan Inc.
 
負荷対策しておもったことまとめ~JMeterでSocket.IOもいけるでよ~
負荷対策しておもったことまとめ~JMeterでSocket.IOもいけるでよ~負荷対策しておもったことまとめ~JMeterでSocket.IOもいけるでよ~
負荷対策しておもったことまとめ~JMeterでSocket.IOもいけるでよ~johgus johgus
 
より速く より運用しやすく 進化し続けるJVM(Java Developers Summit Online 2023 発表資料)
より速く より運用しやすく 進化し続けるJVM(Java Developers Summit Online 2023 発表資料)より速く より運用しやすく 進化し続けるJVM(Java Developers Summit Online 2023 発表資料)
より速く より運用しやすく 進化し続けるJVM(Java Developers Summit Online 2023 発表資料)NTT DATA Technology & Innovation
 
Apache Kafka - Martin Podval
Apache Kafka - Martin PodvalApache Kafka - Martin Podval
Apache Kafka - Martin PodvalMartin Podval
 
Prism + ReactiveProperty入門
Prism + ReactiveProperty入門Prism + ReactiveProperty入門
Prism + ReactiveProperty入門一希 大田
 
設計品質とアーキテクチャ
設計品質とアーキテクチャ設計品質とアーキテクチャ
設計品質とアーキテクチャToru Koido
 
Hieraテクニック - 効率的にパラメータシートから設定値を取り込む - 横山 浩輔、株式会社NTTデータ
Hieraテクニック - 効率的にパラメータシートから設定値を取り込む - 横山 浩輔、株式会社NTTデータHieraテクニック - 効率的にパラメータシートから設定値を取り込む - 横山 浩輔、株式会社NTTデータ
Hieraテクニック - 効率的にパラメータシートから設定値を取り込む - 横山 浩輔、株式会社NTTデータPuppet
 
WPF開発での陥りやすい罠
WPF開発での陥りやすい罠WPF開発での陥りやすい罠
WPF開発での陥りやすい罠Sho Okada
 
オープンソースのクラウド基盤 CloudStackによるIaaS構築入門 @OSC 2013 Nagoya
オープンソースのクラウド基盤 CloudStackによるIaaS構築入門 @OSC 2013 Nagoyaオープンソースのクラウド基盤 CloudStackによるIaaS構築入門 @OSC 2013 Nagoya
オープンソースのクラウド基盤 CloudStackによるIaaS構築入門 @OSC 2013 NagoyaSatoshi Shimazaki
 
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)NTT DATA Technology & Innovation
 
Hadoop -ResourceManager HAの仕組み-
Hadoop -ResourceManager HAの仕組み-Hadoop -ResourceManager HAの仕組み-
Hadoop -ResourceManager HAの仕組み-Yuki Gonda
 
マイクロサービス 4つの分割アプローチ
マイクロサービス 4つの分割アプローチマイクロサービス 4つの分割アプローチ
マイクロサービス 4つの分割アプローチ増田 亨
 
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...NTT DATA Technology & Innovation
 
Debugging Native heap OOM - JavaOne 2013
Debugging Native heap OOM - JavaOne 2013Debugging Native heap OOM - JavaOne 2013
Debugging Native heap OOM - JavaOne 2013MattKilner
 
Azure Service Fabric 概要
Azure Service Fabric 概要Azure Service Fabric 概要
Azure Service Fabric 概要Daiyu Hatakeyama
 

What's hot (20)

TripleOの光と闇
TripleOの光と闇TripleOの光と闇
TripleOの光と闇
 
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
 
OpenStackをコマンドで攻める! 構築・運用とトラブル解決 - OpenStack最新情報セミナー 2014年6月
OpenStackをコマンドで攻める! 構築・運用とトラブル解決 - OpenStack最新情報セミナー 2014年6月OpenStackをコマンドで攻める! 構築・運用とトラブル解決 - OpenStack最新情報セミナー 2014年6月
OpenStackをコマンドで攻める! 構築・運用とトラブル解決 - OpenStack最新情報セミナー 2014年6月
 
負荷対策しておもったことまとめ~JMeterでSocket.IOもいけるでよ~
負荷対策しておもったことまとめ~JMeterでSocket.IOもいけるでよ~負荷対策しておもったことまとめ~JMeterでSocket.IOもいけるでよ~
負荷対策しておもったことまとめ~JMeterでSocket.IOもいけるでよ~
 
より速く より運用しやすく 進化し続けるJVM(Java Developers Summit Online 2023 発表資料)
より速く より運用しやすく 進化し続けるJVM(Java Developers Summit Online 2023 発表資料)より速く より運用しやすく 進化し続けるJVM(Java Developers Summit Online 2023 発表資料)
より速く より運用しやすく 進化し続けるJVM(Java Developers Summit Online 2023 発表資料)
 
Apache Kafka - Martin Podval
Apache Kafka - Martin PodvalApache Kafka - Martin Podval
Apache Kafka - Martin Podval
 
Prism + ReactiveProperty入門
Prism + ReactiveProperty入門Prism + ReactiveProperty入門
Prism + ReactiveProperty入門
 
WPF4.5入門
WPF4.5入門WPF4.5入門
WPF4.5入門
 
設計品質とアーキテクチャ
設計品質とアーキテクチャ設計品質とアーキテクチャ
設計品質とアーキテクチャ
 
Hieraテクニック - 効率的にパラメータシートから設定値を取り込む - 横山 浩輔、株式会社NTTデータ
Hieraテクニック - 効率的にパラメータシートから設定値を取り込む - 横山 浩輔、株式会社NTTデータHieraテクニック - 効率的にパラメータシートから設定値を取り込む - 横山 浩輔、株式会社NTTデータ
Hieraテクニック - 効率的にパラメータシートから設定値を取り込む - 横山 浩輔、株式会社NTTデータ
 
XAML Islands
XAML IslandsXAML Islands
XAML Islands
 
WPF開発での陥りやすい罠
WPF開発での陥りやすい罠WPF開発での陥りやすい罠
WPF開発での陥りやすい罠
 
オープンソースのクラウド基盤 CloudStackによるIaaS構築入門 @OSC 2013 Nagoya
オープンソースのクラウド基盤 CloudStackによるIaaS構築入門 @OSC 2013 Nagoyaオープンソースのクラウド基盤 CloudStackによるIaaS構築入門 @OSC 2013 Nagoya
オープンソースのクラウド基盤 CloudStackによるIaaS構築入門 @OSC 2013 Nagoya
 
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
 
kafka
kafkakafka
kafka
 
Hadoop -ResourceManager HAの仕組み-
Hadoop -ResourceManager HAの仕組み-Hadoop -ResourceManager HAの仕組み-
Hadoop -ResourceManager HAの仕組み-
 
マイクロサービス 4つの分割アプローチ
マイクロサービス 4つの分割アプローチマイクロサービス 4つの分割アプローチ
マイクロサービス 4つの分割アプローチ
 
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
 
Debugging Native heap OOM - JavaOne 2013
Debugging Native heap OOM - JavaOne 2013Debugging Native heap OOM - JavaOne 2013
Debugging Native heap OOM - JavaOne 2013
 
Azure Service Fabric 概要
Azure Service Fabric 概要Azure Service Fabric 概要
Azure Service Fabric 概要
 

CasualConc 3.0 —Universal Dependency タグを
利用した文法検索の試み— @ JAECS 2022