SlideShare a Scribd company logo
1 of 25
Interaction Design Lab, Osaka Institute of Technology
アルバム作成支援のための集合写真に
おける閉眼状態の開眼手法に関する
研究
〇†金 朝暉 †大井 翔 †佐野 睦夫
†大阪工業大学情報科学部
1
Interaction Design Lab, Osaka Institute of Technology
背景
• 近年の人工知能の発達に伴い、さまざまな業界で人工知能を
利用して作業効率を向上させている
• アルバム制作業界の負担が大きい
• アルバム制作において、人工知能に使用することで、
効率向上できる部分があると考えられる
2
仕事
多い
Interaction Design Lab, Osaka Institute of Technology
効率向上できる部分
• 卒業アルバムの制作では、似たような写真が何枚もある中で、
デザイナーが最適な写真を選ぶことが求められる場合がある
• デザイナーによって選択した写真をアレンジする(Photoshopなど)
こともある
3
https://www.daicolo.co.jp/for-school/solution/phase2/(参照日:2021/12/06).
Interaction Design Lab, Osaka Institute of Technology
Photoshopでのやり方
4
https://mappyedit.com/closed-eyes-open/(参照日:2021/12/06)
1. 目をつぶってる人の目が開いた写真を取り込む
2. 目が開いてる写真を目をつぶってる写真の上に置く
3. マスクを使って目だけを塗っていく
4. 目の位置を微調整
Interaction Design Lab, Osaka Institute of Technology
目的
• 写真の選択時間や手動調整の時間を短縮する
• 作業者の仕事の負担の軽減
• 他の項目なども効率向上できると考えられる
5
https://www.daicolo.co.jp/for-school/solution/phase2/(参照日:2021/12/06).
Interaction Design Lab, Osaka Institute of Technology
卒業アルバムの必要な構成
「肖像(生徒の個人、集合写真)」
「生活(学生生活の様子)」
「環境(学校と地域)」
「シナリオ(全体のストーリー)」
6
https://www.daicolo.co.jp/for-school/solution/phase3/(参照日:2021/12/06).
Interaction Design Lab, Osaka Institute of Technology
提案手法
7
• 集合写真が何十枚も撮ったのに1枚も全員目を開けている写真
がないということがある[1]
• 人工知能により、全員集合写真の閉眼状態を自動で探し出して、
ほかの閉眼状態が存在する集合写真から「目」を自動的に画像
修正する機能
[1]https://mappyedit.com/closed-eyes-open/ (参照日:2021/12/06)
Interaction Design Lab, Osaka Institute of Technology
関連研究(目の状態に関する関連研究)
• Terezaらは、カメラで撮影されたビデオの中から、目の瞬きを
リアルタイムで検出するアルゴリズムを提案している[2]
• その結果、ランドマークにより、目の開き具合を確実に推定できる
ことを示した
• スカラー量「eye as-pect ratio(EAR)」 を抽出することができた
8
[2]Tereza Soukupova and Jan ,Cech “ Real-Time Eye Blink Detection using Facial Landmarks”,21st
Computer Vision Winter Workshop,Rimske Toplice, Slovenia, February 3–5, 2016
Interaction Design Lab, Osaka Institute of Technology
提案手法の処理の流れ
9
集合写真1
集合写真2
閉眼状態
②目の状態識別 同じ人物の開眼写真
④顔の特徴点で位置合わせる ③同じ人物の顔認証
⑤マスク画像の処理
完成
①顔の特徴点検出
Interaction Design Lab, Osaka Institute of Technology
①顔の特徴点検出
• 今回は、Dlib[3]で学習済みモデルを使って、顔の特徴点
の検出をした
• 特徴点の数が68個になる
10
[3]Kazemi, V,Sullivan, J,“One Millisecond Face Alignment with an Ensemble of Regression Trees”, The IEEE
Conference on Computer Vision and Pattern Recognition(CVPR), 2014, pp. 1867-1874(2014)
Interaction Design Lab, Osaka Institute of Technology
②目の状態識別について
• 顔のランドマーク検出し、目の周りのランドマークを使う
• 関連研究によるとEARの閾値は0.2(+-0.05)なので、
今回は0.2にした[2]
• また、 imutilsというライブラリを使うと、簡単にDlibで検出した
ランドマークが使える
11
[2]Tereza Soukupova and Jan ,Cech “ Real-Time Eye Blink Detection using Facial Landmarks”,21st Computer
Vision Winter Workshop,Rimske Toplice, Slovenia, February 3–5, 2016
Interaction Design Lab, Osaka Institute of Technology
③顔の認証
• 顔認証は、同一人物であれば類似度が高く、異なる人物で
あれば類似度が低いという類似度を計算することにある。
• 類似度は、コサイン類似度またはユークリッド距離を用いて計算
できる
• 今回は顔の特徴点をベクトルとして抽出し、特徴点のベクトルを
ユークリッド距離で比較することで顔認証を実現する
12
異なる人物の認証 ユークリッド距離 ユークリッド距離
同じ人物の認証
Interaction Design Lab, Osaka Institute of Technology
④顔の特徴点で位置合わせる(プロクラステス)
13
プロクラステスの重ね合わせ
として、
(a)両方の構成を同じサイズ
にスケーリングする
(b)重心の同じ位置への
移動
(c)対応するランドマーク間
の距離の2乗の最小合計を
提供する方向への回転[4]
[4] https://en.wikipedia.org/wiki/Procrustes_analysis (参照日:2021/12/06)
Interaction Design Lab, Osaka Institute of Technology
⑤マスク画像の処理
• 今回の入れ替え対象は、マスク部分は目と眉毛にした
• 目と眉毛の特徴点から、 Convex-Hull(凸包)を使用して、各特徴点が
内在するような最小の図形でマスクを取った
14
集合写真1
(閉眼写真)
集合写真2
(開眼写真)
閉眼マスク画像 開眼マスク画像
閉眼写真の
上に被せる
完成写真
Interaction Design Lab, Osaka Institute of Technology
データセット
15
• 合計 34 枚の写真から構成
• 11人集合写真を正解写真(全員目を開いて状態)1枚、一人ずつ
テスト写真(目を閉じて状態) 3枚を撮影した
• 閉眼人物に対して、残りの10人からの30枚のテスト写真は
予備写真として、開眼させる
サンプル写真
Interaction Design Lab, Osaka Institute of Technology
事前準備(顔のトリミング)
• Dlibで検出した特徴点により、両眼の中心座標と両眼の角度を
計算し、この二つの結果で、アフィン・マトリックスの計算をする
• 今回はGetRotationMatrix2D (center, angle, scale)を使用した
• 結果による、アフィン変換をし、フェイスアライメントができる
• 今回トリミングした顔のサイズがすべて250*250にした
16
顔認識から顔
のランドマー
クを検出
両目の座標か
ら画像を水平
に回転
写真に対し、
顔認識
データとして
保存
Interaction Design Lab, Osaka Institute of Technology
実験手法
• 本研究では、提案手法の比較をした
• 予備写真の顔に対して、正解写真の顔とユークリッド距離の
最小値の顔で入れ替えるやり方(以下はメソッド A と呼ぶ)
• 予備写真の顔に対して、閉眼写真の顔とユークリッド距離の
最小値の顔で入れ替えるやり方(以下はメソッド B と呼ぶ)
• 実験結果の考察では、アンケートを実施した
17
メソッド
A
メソッド
B
自由記述
Interaction Design Lab, Osaka Institute of Technology
実験
18
一枚のテスト写真
正解写真
Interaction Design Lab, Osaka Institute of Technology
メソッドA(正解写真からの顔)
メソッドAでは、正解写真からの顔特徴点からのユークリッド距離を
使い、予備写真からの顔でユークリッド距離が短いの結果を示す
19
正解写真の
対象顔
予備写真での
最も差が小さい顔
入れ替えた写真
Interaction Design Lab, Osaka Institute of Technology
メソッドB(閉眼写真からの顔)
メソッドBでは、閉眼写真からの顔特徴点からのユークリッド距離を
使い、予備写真からの顔でユークリッド距離が短いの結果を示す
20
閉眼写真の
対象顔
予備写真での
最も差が小さい顔
入れ替えた写真
Interaction Design Lab, Osaka Institute of Technology
実験結果
• 参加者11人の閉眼写真にそれぞれのメソッドで、入れ替えた
写真の一部結果を示す
21
正解写真の
対象顔
予備写真での
最も差が小さい顔
閉眼写真の
対象顔
予備写真での
最も差が小さい顔
メソッドB
メソッドA
Interaction Design Lab, Osaka Institute of Technology
アンケート
• 参加者11名全員がアンケートを答えてもらった
• 自由記述に含め、45項目の質問をした
22
Interaction Design Lab, Osaka Institute of Technology
アンケートの結果
• 表1は入れ替え図の目は自然かどうかの評価であり、
表2はアルバムに使ってもいいのかの評価である
• 二つのアンケートともメソッド A がより良い結果と考えられる
• また、それぞれの項目について、割合の検定を実施した
23
P=0.67>0.05 n.s.
表1 入れ替え図の目は自然かどうかの評価結果
表2 アルバムに使ってもいいのかの評価結果
P=0.56>0.05 n.s.
Interaction Design Lab, Osaka Institute of Technology
アンケートの考察
• 自由記述により、本研究の提案手法が参加者に対して、
アルバムに使ってよいの答えが多かった
• そのため、提案手法は成功したと考えられる。
• “どちらの技術でも違和感がない写真が多かったが、メソッドAの方が
違和感が少なく目が自然に見えた。”[参加者A]
• “ほとんど自然に閉眼状態から開眼状態にできていたので、システムの
完成度は高いと感じた。強いていうなら、カメラとの距離が近い前段の
人の方が画像に違和感を感じやすいかなと思った” [参加者B]
24
Interaction Design Lab, Osaka Institute of Technology
まとめ
25
・アルバム業界の負担が大きい
・人工知能の発達に伴い、アルム業界で人工知能を利用して作業効率を向上させたい
背
景
・本研究では、アルバムによくある集合写真の閉眼状態から、開眼させる
・顔の特徴点により、自動的に操作する
手
法
・二つのやり方で比較した
・アンケートを実施し、割合の検定によって有意差が見られなかった
実
験
・アンケートの結果により、本研究の提案手法は成功したと考えられる
・画質評価指標の参考ができなかった
考
察
・完全に動かない顔に閉眼から開眼の評価指標をしていきたい
・集合写真ではなく、もっと活用できるシステムを検討していきたい
展
望

More Related Content

Recently uploaded

リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライドリアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライドKen Fukui
 
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライドリアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライドKen Fukui
 
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライドリアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライドKen Fukui
 
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライドリアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライドKen Fukui
 
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライドリアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライドKen Fukui
 
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptUniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptyuitoakatsukijp
 
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ssusere0a682
 
TEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdfTEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdfyukisuga3
 

Recently uploaded (8)

リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライドリアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
 
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライドリアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
 
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライドリアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
 
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライドリアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
 
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライドリアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
 
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptUniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScript
 
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
 
TEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdfTEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdf
 

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

アルバム作成支援のための集合写真における閉眼状態の開眼手法に関する研究

  • 1. Interaction Design Lab, Osaka Institute of Technology アルバム作成支援のための集合写真に おける閉眼状態の開眼手法に関する 研究 〇†金 朝暉 †大井 翔 †佐野 睦夫 †大阪工業大学情報科学部 1
  • 2. Interaction Design Lab, Osaka Institute of Technology 背景 • 近年の人工知能の発達に伴い、さまざまな業界で人工知能を 利用して作業効率を向上させている • アルバム制作業界の負担が大きい • アルバム制作において、人工知能に使用することで、 効率向上できる部分があると考えられる 2 仕事 多い
  • 3. Interaction Design Lab, Osaka Institute of Technology 効率向上できる部分 • 卒業アルバムの制作では、似たような写真が何枚もある中で、 デザイナーが最適な写真を選ぶことが求められる場合がある • デザイナーによって選択した写真をアレンジする(Photoshopなど) こともある 3 https://www.daicolo.co.jp/for-school/solution/phase2/(参照日:2021/12/06).
  • 4. Interaction Design Lab, Osaka Institute of Technology Photoshopでのやり方 4 https://mappyedit.com/closed-eyes-open/(参照日:2021/12/06) 1. 目をつぶってる人の目が開いた写真を取り込む 2. 目が開いてる写真を目をつぶってる写真の上に置く 3. マスクを使って目だけを塗っていく 4. 目の位置を微調整
  • 5. Interaction Design Lab, Osaka Institute of Technology 目的 • 写真の選択時間や手動調整の時間を短縮する • 作業者の仕事の負担の軽減 • 他の項目なども効率向上できると考えられる 5 https://www.daicolo.co.jp/for-school/solution/phase2/(参照日:2021/12/06).
  • 6. Interaction Design Lab, Osaka Institute of Technology 卒業アルバムの必要な構成 「肖像(生徒の個人、集合写真)」 「生活(学生生活の様子)」 「環境(学校と地域)」 「シナリオ(全体のストーリー)」 6 https://www.daicolo.co.jp/for-school/solution/phase3/(参照日:2021/12/06).
  • 7. Interaction Design Lab, Osaka Institute of Technology 提案手法 7 • 集合写真が何十枚も撮ったのに1枚も全員目を開けている写真 がないということがある[1] • 人工知能により、全員集合写真の閉眼状態を自動で探し出して、 ほかの閉眼状態が存在する集合写真から「目」を自動的に画像 修正する機能 [1]https://mappyedit.com/closed-eyes-open/ (参照日:2021/12/06)
  • 8. Interaction Design Lab, Osaka Institute of Technology 関連研究(目の状態に関する関連研究) • Terezaらは、カメラで撮影されたビデオの中から、目の瞬きを リアルタイムで検出するアルゴリズムを提案している[2] • その結果、ランドマークにより、目の開き具合を確実に推定できる ことを示した • スカラー量「eye as-pect ratio(EAR)」 を抽出することができた 8 [2]Tereza Soukupova and Jan ,Cech “ Real-Time Eye Blink Detection using Facial Landmarks”,21st Computer Vision Winter Workshop,Rimske Toplice, Slovenia, February 3–5, 2016
  • 9. Interaction Design Lab, Osaka Institute of Technology 提案手法の処理の流れ 9 集合写真1 集合写真2 閉眼状態 ②目の状態識別 同じ人物の開眼写真 ④顔の特徴点で位置合わせる ③同じ人物の顔認証 ⑤マスク画像の処理 完成 ①顔の特徴点検出
  • 10. Interaction Design Lab, Osaka Institute of Technology ①顔の特徴点検出 • 今回は、Dlib[3]で学習済みモデルを使って、顔の特徴点 の検出をした • 特徴点の数が68個になる 10 [3]Kazemi, V,Sullivan, J,“One Millisecond Face Alignment with an Ensemble of Regression Trees”, The IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2014, pp. 1867-1874(2014)
  • 11. Interaction Design Lab, Osaka Institute of Technology ②目の状態識別について • 顔のランドマーク検出し、目の周りのランドマークを使う • 関連研究によるとEARの閾値は0.2(+-0.05)なので、 今回は0.2にした[2] • また、 imutilsというライブラリを使うと、簡単にDlibで検出した ランドマークが使える 11 [2]Tereza Soukupova and Jan ,Cech “ Real-Time Eye Blink Detection using Facial Landmarks”,21st Computer Vision Winter Workshop,Rimske Toplice, Slovenia, February 3–5, 2016
  • 12. Interaction Design Lab, Osaka Institute of Technology ③顔の認証 • 顔認証は、同一人物であれば類似度が高く、異なる人物で あれば類似度が低いという類似度を計算することにある。 • 類似度は、コサイン類似度またはユークリッド距離を用いて計算 できる • 今回は顔の特徴点をベクトルとして抽出し、特徴点のベクトルを ユークリッド距離で比較することで顔認証を実現する 12 異なる人物の認証 ユークリッド距離 ユークリッド距離 同じ人物の認証
  • 13. Interaction Design Lab, Osaka Institute of Technology ④顔の特徴点で位置合わせる(プロクラステス) 13 プロクラステスの重ね合わせ として、 (a)両方の構成を同じサイズ にスケーリングする (b)重心の同じ位置への 移動 (c)対応するランドマーク間 の距離の2乗の最小合計を 提供する方向への回転[4] [4] https://en.wikipedia.org/wiki/Procrustes_analysis (参照日:2021/12/06)
  • 14. Interaction Design Lab, Osaka Institute of Technology ⑤マスク画像の処理 • 今回の入れ替え対象は、マスク部分は目と眉毛にした • 目と眉毛の特徴点から、 Convex-Hull(凸包)を使用して、各特徴点が 内在するような最小の図形でマスクを取った 14 集合写真1 (閉眼写真) 集合写真2 (開眼写真) 閉眼マスク画像 開眼マスク画像 閉眼写真の 上に被せる 完成写真
  • 15. Interaction Design Lab, Osaka Institute of Technology データセット 15 • 合計 34 枚の写真から構成 • 11人集合写真を正解写真(全員目を開いて状態)1枚、一人ずつ テスト写真(目を閉じて状態) 3枚を撮影した • 閉眼人物に対して、残りの10人からの30枚のテスト写真は 予備写真として、開眼させる サンプル写真
  • 16. Interaction Design Lab, Osaka Institute of Technology 事前準備(顔のトリミング) • Dlibで検出した特徴点により、両眼の中心座標と両眼の角度を 計算し、この二つの結果で、アフィン・マトリックスの計算をする • 今回はGetRotationMatrix2D (center, angle, scale)を使用した • 結果による、アフィン変換をし、フェイスアライメントができる • 今回トリミングした顔のサイズがすべて250*250にした 16 顔認識から顔 のランドマー クを検出 両目の座標か ら画像を水平 に回転 写真に対し、 顔認識 データとして 保存
  • 17. Interaction Design Lab, Osaka Institute of Technology 実験手法 • 本研究では、提案手法の比較をした • 予備写真の顔に対して、正解写真の顔とユークリッド距離の 最小値の顔で入れ替えるやり方(以下はメソッド A と呼ぶ) • 予備写真の顔に対して、閉眼写真の顔とユークリッド距離の 最小値の顔で入れ替えるやり方(以下はメソッド B と呼ぶ) • 実験結果の考察では、アンケートを実施した 17 メソッド A メソッド B 自由記述
  • 18. Interaction Design Lab, Osaka Institute of Technology 実験 18 一枚のテスト写真 正解写真
  • 19. Interaction Design Lab, Osaka Institute of Technology メソッドA(正解写真からの顔) メソッドAでは、正解写真からの顔特徴点からのユークリッド距離を 使い、予備写真からの顔でユークリッド距離が短いの結果を示す 19 正解写真の 対象顔 予備写真での 最も差が小さい顔 入れ替えた写真
  • 20. Interaction Design Lab, Osaka Institute of Technology メソッドB(閉眼写真からの顔) メソッドBでは、閉眼写真からの顔特徴点からのユークリッド距離を 使い、予備写真からの顔でユークリッド距離が短いの結果を示す 20 閉眼写真の 対象顔 予備写真での 最も差が小さい顔 入れ替えた写真
  • 21. Interaction Design Lab, Osaka Institute of Technology 実験結果 • 参加者11人の閉眼写真にそれぞれのメソッドで、入れ替えた 写真の一部結果を示す 21 正解写真の 対象顔 予備写真での 最も差が小さい顔 閉眼写真の 対象顔 予備写真での 最も差が小さい顔 メソッドB メソッドA
  • 22. Interaction Design Lab, Osaka Institute of Technology アンケート • 参加者11名全員がアンケートを答えてもらった • 自由記述に含め、45項目の質問をした 22
  • 23. Interaction Design Lab, Osaka Institute of Technology アンケートの結果 • 表1は入れ替え図の目は自然かどうかの評価であり、 表2はアルバムに使ってもいいのかの評価である • 二つのアンケートともメソッド A がより良い結果と考えられる • また、それぞれの項目について、割合の検定を実施した 23 P=0.67>0.05 n.s. 表1 入れ替え図の目は自然かどうかの評価結果 表2 アルバムに使ってもいいのかの評価結果 P=0.56>0.05 n.s.
  • 24. Interaction Design Lab, Osaka Institute of Technology アンケートの考察 • 自由記述により、本研究の提案手法が参加者に対して、 アルバムに使ってよいの答えが多かった • そのため、提案手法は成功したと考えられる。 • “どちらの技術でも違和感がない写真が多かったが、メソッドAの方が 違和感が少なく目が自然に見えた。”[参加者A] • “ほとんど自然に閉眼状態から開眼状態にできていたので、システムの 完成度は高いと感じた。強いていうなら、カメラとの距離が近い前段の 人の方が画像に違和感を感じやすいかなと思った” [参加者B] 24
  • 25. Interaction Design Lab, Osaka Institute of Technology まとめ 25 ・アルバム業界の負担が大きい ・人工知能の発達に伴い、アルム業界で人工知能を利用して作業効率を向上させたい 背 景 ・本研究では、アルバムによくある集合写真の閉眼状態から、開眼させる ・顔の特徴点により、自動的に操作する 手 法 ・二つのやり方で比較した ・アンケートを実施し、割合の検定によって有意差が見られなかった 実 験 ・アンケートの結果により、本研究の提案手法は成功したと考えられる ・画質評価指標の参考ができなかった 考 察 ・完全に動かない顔に閉眼から開眼の評価指標をしていきたい ・集合写真ではなく、もっと活用できるシステムを検討していきたい 展 望