cvpaper.challenge の Meta Study Group 発表スライド
cvpaper.challenge はコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文サマリ・アイディア考案・議論・実装・論文投稿に取り組み、凡ゆる知識を共有します。2019の目標「トップ会議30+本投稿」「2回以上のトップ会議網羅的サーベイ」
http://xpaperchallenge.org/cv/
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
cvpaper.challenge の Meta Study Group 発表スライド
cvpaper.challenge はコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文サマリ・アイディア考案・議論・実装・論文投稿に取り組み、凡ゆる知識を共有します。2019の目標「トップ会議30+本投稿」「2回以上のトップ会議網羅的サーベイ」
http://xpaperchallenge.org/cv/
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
セル生産方式におけるロボットの活用には様々な問題があるが,その一つとして 3 体以上の物体の組み立てが挙げられる.一般に,複数物体を同時に組み立てる際は,対象の部品をそれぞれロボットアームまたは治具でそれぞれ独立に保持することで組み立てを遂行すると考えられる.ただし,この方法ではロボットアームや治具を部品数と同じ数だけ必要とし,部品数が多いほどコスト面や設置スペースの関係で無駄が多くなる.この課題に対して音𣷓らは組み立て対象物に働く接触力等の解析により,治具等で固定されていない対象物が組み立て作業中に運動しにくい状態となる条件を求めた.すなわち,環境中の非把持対象物のロバスト性を考慮して,組み立て作業条件を検討している.本研究ではこの方策に基づいて,複数物体の組み立て作業を単腕マニピュレータで実行することを目的とする.このとき,対象物のロバスト性を考慮することで,仮組状態の複数物体を同時に扱う手法を提案する.作業対象としてパイプジョイントの組み立てを挙げ,簡易な道具を用いることで単腕マニピュレータで複数物体を同時に把持できることを示す.さらに,作業成功率の向上のために RGB-D カメラを用いた物体の位置検出に基づくロボット制御及び動作計画を実装する.
This paper discusses assembly operations using a single manipulator and a parallel gripper to simultaneously
grasp multiple objects and hold the group of temporarily assembled objects. Multiple robots and jigs generally operate
assembly tasks by constraining the target objects mechanically or geometrically to prevent them from moving. It is
necessary to analyze the physical interaction between the objects for such constraints to achieve the tasks with a single
gripper. In this paper, we focus on assembling pipe joints as an example and discuss constraining the motion of the
objects. Our demonstration shows that a simple tool can facilitate holding multiple objects with a single gripper.
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matchingharmonylab
公開URL:https://arxiv.org/pdf/2404.19174
出典:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. ascimento: XFeat: Accelerated Features for Lightweight Image Matching, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
概要:リソース効率に優れた特徴点マッチングのための軽量なアーキテクチャ「XFeat(Accelerated Features)」を提案します。手法は、局所的な特徴点の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本的な設計を再検討します。特に、リソースが限られたデバイス向けに迅速かつ堅牢なアルゴリズムが必要とされるため、解像度を可能な限り高く保ちながら、ネットワークのチャネル数を制限します。さらに、スパース下でのマッチングを選択できる設計となっており、ナビゲーションやARなどのアプリケーションに適しています。XFeatは、高速かつ同等以上の精度を実現し、一般的なラップトップのCPU上でリアルタイムで動作します。
11. IM2GPS: estimating geographic information from a single image
11
会議 : CVPR 2008
著者 : James Hays and Alexei A. Efros
● 画像から地理情報を推定
● テスト画像はFlickrからランダムに抽出した400枚を使用
● 推定した地理情報を地球表面上にヒートマップとして表示
様々な地理情報タスクでのアプローチを
定量的に評価し、有望なパフォーマンス
左から,入力画像,最近傍,地理情報のヒートマップ
12. Detecting influenza epidemics using search engine query data
12
会議 : Nature 2009
著者 : Jeremy Ginsberg, Matthew H. Mohebbi, Rajan S. Patel, Lynnette Brammer,
Mark S. Smolinski and Larry Brilliant
● 毎年、インフルエンザによって世界中で25万人から50万人の人々が亡くなっている
● 人から人へ空気感染するインフルエンザは数百万人規模のパンデミックを引き起こしやすいため、早
期の発見が迅速な対応へと繋がる
○ U.S. Centers for Disease Control and Preventionによる感染者数などのデータ開示にはタイムラ
グが生じてしまう
● Googleによる検索クエリを分析することにより、インフルエンザに関する検索クエリの相対的な頻度と受
診率が高い相関があることを解析
Googleの検索履歴からインフルエンザの
流行を早期に検出
13. Mapping the World’s Photos
13
会議:WWW 2009
著者:David Crandall, Lars Backstrom, Daniel Huttenlocher and Jon Kleinberg
● 視覚的特徴,テキスト特徴,geotag情報を活用し世界的に人気の場所を予測
○ 人気のある場所同士の相互作用を解析
○ 視覚的特徴と時間的特徴を組み合わせることで高精度な位置推定を実現
● 写真管理システムに自動的にgeotagを提案することでアノテーションコストを削減
○ 整理されていないデータベースから代表的なランドマーク画像を検索
人気のある都市やランドマークを世界規模で解析
14. The Wisdom of Social Multimedia: Using Flickr For Prediction and Forecas
14
会議 : ACM 2010
著者 : Xin Jin, Andrew Gallagher, Liangliang Cao, Jiebo Luo and Jiawei Han
● Flickrの画像から2008年の米大統領選挙を予測
○ 各候補者をクエリとして、Flickrへのアップロード数などから予測
● 携帯やPC、ゲーム機の商品売り上げの公開前にFlickrの画像のみから売り上げを予測
● 地理的情報も用いることで世界的に製品の流通を可視化
○ この当時ではマーケティングへの期待性が大きかった?
SNS画像から大統領選挙・商品の販売予測を実現
15. Mining Photo-sharing Websites to Study Ecological Phenomena
15
会議 : WWW 2012
著者 : Haipeng Zhang, Mohammed Korayem, David Crandall and Gretchen LeBuhn
● Flickrの画像から積雪量、緑化面積などの生態学的な現象を推測
○ 画像の背景に映り込む積雪(子供達のソリに乗る画像など)や動物、タイムスタンプなどから推測
● 人工衛星や気象観測所のデータには欠落が存在するが、大規模なデータをGround Truthとして用いる
ことが可能
○ 従来のGeotag Data MiningはGroud Truthが存在せず、データ収集におけるバイアスなども不考
慮
Flickrの画像から地球温暖化の進行を把握
16. Mining Multiple Queries for Image Retrieval: On-the-fly learning
of an Object-specific Mid-level Representation
16
会議 : ICCV 2013
著者 : Basura Fernando and Tinne Tuytelaars
● 複数クエリを用いた画像検索手法の提案
● パターンマイニングアルゴリズムであるminimal description length(MDL)を適用し、特定のオブジェク
ト検索のための局所構造パターンを発見
● MDLによってノイズを含むデータから意味のある規則性を抽出可能
パターンマイニングに基づく新しい
クエリ拡張法を提示
17. Time-Sensitive Web Image Ranking and Retrieval via Dynamic
Multi-Task Regression
17
会議 : WSDM 2013
著者 : Gunhee Kim and Eric P. Xing
● 時間に依存する画像検索の問題について調査
● Flicker画像から時間情報,所有者のIDに加え,画像の説明とユーザーの説明の2種類の情報を抽出
● 提案したフレームワークにより,時間的要因の関係を発見
● 30トピックのキーワードに対して700万以上のFlickr画像を使った実験をし,提案された
アプローチが他の手法よりも優れていることを確認
時間情報を含めた画像検索手法により,時間情報を含
めない手法より優れたパフォーマンスを発揮
18. Recognizing City Identity via Attribute Analysis of Geo-tagged Images
18
会議 : ECCV 2014
著者 : Bolei Zhou, Liu Liu, Aude Oliva, Antonio Torralba
● 3大陸を超える21都市から200万枚のGeotag画像を収集し分析
● 都市の特徴から大規模なGeotag画像データベース”the City Perception Database”を作成
○ 顕著な特徴を有する都市の画像から識別
○ 誤分類の結果を用いて都市間の類似度・関係性を推定
● データ収集にはInstagram、Flickr、Panoramioを使用
○ 各都市における画像から視覚的特徴として地形的特徴と社会的特徴を取得
Geotag画像を分析して都市毎に特徴を付与
19. Geotagging One Hundred Million Twitter Accounts with Total
Variation Minimization
19
会議 : Big Data 2014
著者 : Ryan Compton, David Jurgens and David Allen
● 位置情報が公開されていないTwitterユーザの位置を推定
○ 特定したいユーザの知人の位置情報から推定
● Twitterユーザーの位置を示す最大級のデータベースを作成
● ユーザー移動に関する統計情報を用いて、静的ユーザーに付与されたGeotagの有用性について検証
Twitterの@メンションによる
つながりをもとに位置を推定
20. Analyzing the Language of Food on Social Media
20
会議:Big Data 2014
著者:Daniel Fried
● Twitterのツイートから地理的情報と人口特性の関係性を調査
● TwitterのAPIを用いてツイートを収集
○ ツイートのトピックを推定してラベル付け
○ 位置情報を示す単語を正規化(e.g.El Paso,Texas→TX)
● Twitterから食品 #に関係するツイートを収集し,投稿主の位置と
肥満率,糖尿病の有病率,政治的傾向との3つのデータベースから関係性を分析
食品関連のツイートのデータから
地理的な傾向を発見
21. Predicting the Location of Users on Twitter from Low Density Graphs
21
会議:Big Data 2015
著者:Sofia Apreleva
● グラフ構造を用いたアルゴリズムにおいてTwitterのユーザーの位置を推定
○ 従来の手法と異なり少量データで解析可能であり,グラフのdensityが小さい
● 少量データで解析するために,retweets, in-replies, @mentionsの3つのカテゴリに分類
○ 親密な人ほど頻繁に交流しているという仮定に基づく
● ユーザ間の距離を推定するタスクに置換!?することで検証
従来のグラフモデルと比較して
軽量なモデルで高精度な推測を実現
23. Describing and Understanding Neighborhood Characteristics through
Online Social Media
23
会議 : WWW 2015
著者 : Mohamed Kafsi, Henriette Cramer, Bart Thomee and David A. Shamma
● 地域ごとの特徴を表面化させるために、確率的階層モデルGHM(Geographical Hierarchy Model)を提案
○ 地理的な領域を具体的に記述している用語を検出
○ 都市ごとに特異な地域を検出しつつ、都市の類似性をマッピング
● Naive BayesとHierarchical TF-IDFの2つから評価
地域の特徴を明らかにする
確率的階層モデルを提案
24. Deep Learning the City: Quantifying Urban Perception At A Global Scale
24
会議:ECCV 2016
著者:Abhimanyu Dubey, Nikhil Naik, Devi Parikh Ramesh Raskar and Cesar Hidalgo
● 世界中のシーン画像から都市の豊かさなどを定量的に評価
○ ランダムで2枚選択され,どちらが安全か?のような質問にアノテーターが回答して評価
● データセットには,56都市,110,998枚の画像を有するPlace Pulse 2.0 (PP2.0)を使用
○ safe, lively, boring, wealthy, depressing, and beautiful の6つの属性を付与
● PP2.0に含まれていない都市外観で評価
○ Ground Truthが無いので定量的ではないが直感的に合致していることを確認
●
世界規模で都市に対する外観評価を生成可能
25. Recognizing Cities from Street View Images
25
会議:2016
著者:David Hershey and Blake Wulfe
● Geotagが付与されていない画像から位置を推定する事は困難
○ CNNから得られた視覚的特徴と都市を関連付ける
● 画像のみからCNNを用いて位置を推定
○ Google Street View APIから100,000通りの画像を取得
○ 従来では緯度経度を推定するタスクであったが都市の分類タスクとして位置を推定
● Street View Data Setにおいて75%の精度で分類可能(位置推定可能)
● Flickrを用いた分類タスクでは分類精度が低迷
○ タスクに対してドメインが乖離しすぎているのが原因!?
Street View Datasetでの
位置推定にて高い精度を実現
26. StreetStyle: Exploring world-wide clothing styles from millions of photos
26
会議:arXiv 2017
著者:Kevin Matzen, Kavita Bala and Noah Snavely
● Instagramの写真から,世界中のファッションのトレンドを解析
○ 1,500万規模のファッション,Geotagが付与されたSTREETSTYLE-27Kの構築
● Flikcr 100Mから頻繁に画像がアップロードされている都市を分析
○ 分析した都市からInstagramのGeotag画像を収集
● Instagramを利用しているが故にバイアスを考慮
○ 事後確率モデルを利用して分類器のパラメータをチューニング
世界におけるファッショントレンドを可視化
27. Multiview Deep Learning for Predicting Twitter Users’ Location
27
会議:arXiv 2017
著者:Tien Huu Do, Duc Minh Nguyen, Evaggelia Tsiligianni, Bruno Cornelis, and Nikos
Deligiannis
● テキスト情報やユーザの相互情報,時間に即した行動情報などから得られた特徴を用いてユーザの位
置を推定を推定するMENETを提案
● 位置をセル状に分割することでクラス分類タスクに置換
● GeoTextとUTGeo2011,TwitterWorldのベンチマークデータベースにおいてSOTA
Twitterのユーザーの位置を
テキスト情報やユーザーの関係性から予測
28. Privacy-protected place of activity mining on big location data
28
会議:Big Data 2017
著者:Shuo Wang, Richard Sinnott and Surya Nepal
● 大規模データセットにおけるPOAの探索に対して、プライバシーの観点から
問題提起を行った
● 提案したフレームワークは大きく2つの工程に分かれている
● 前半の工程で重要位置に対して摂動(Perturbation)を与え、位置情報を秘匿しながら
後半の工程に渡す
プライバシーを秘匿しながら人の
行動や場所を追跡・推定
29. Travel Purpose Inference with GPS Trajectories, POIs,
and Geo-tagged Social Media Data
29
会議:Big Data 2017
著者:Chuishi Meng, Yu Cui, Qing He, Lu Su and Jing Gao
● 地理的情報のみから人間の行動軌跡は解析可能だが,行動目的は解析不可
● TwitterやGoogle Places,地理的情報などの複数データから人間の行動目的を予測
● Dynamic Bayesian Networkにて最終目的地の人気度・一連の行動による性質や特徴を獲得し,POIへ
の行動目的を予測
TwitterやGoogle Placesを用いて
人間がPOIへ向かう行動目的を推測
すべてのベースラインよりも高
精度に予測可能
人間が目的地に
する場所と頻繁に
ツイートされる位
置が類似
30. Text-based Geolocation Prediction of Social Media Users with Neural Networks
30
会議:Big Data 2017
著者:Ismini Lourentzou
● テキストデータ (Bag-of-words; TF-IDF特徴; 50000 unigrams)からSNSユーザの位置を
特定
○ ユーザの位置は座標,米国の州または地域の2つを推定
● ネットワーク構造,活性化関数,バッチ正規化が精度向上に寄与することを確認
● GeoText,TWUS,TWWORLDの3つのデータセットで比較検討
位置推定において回帰タスクである座標の
推定に加え,地理的領域を分類
32. 32
会議 : KDD 2017
著者 : Adrian Albert and Marta Gonzalez
● 都市部の土地利用,地理的形状の分析は困難
○ 衛星画像を用いて都市周辺における地理的形状の分析
● Urban Atlasから取得した土地利用,土地被覆データをGoogle Maps Static APIから取得した衛星画像
と組み合わせ,新しいデータセットを構築(140,000枚以上)
● 衛星画像に土地利用をラベル付けしてCNNで分類器を作成し,都市環境の比較
Using Convolutional Networks and Satellite Imagery to Identify
Patterns in Urban Environments at a Large Scale
trainを学習し,testを識別
衛星画像を用いることでより容易に土地利用を解析
33. Using Real-World Store Data for Foot Traffic Forecasting
33
会議:Big Data 2018
著者:Sohelia Abrishami
● WiFiのアクセスポイントから商業施設の来客数を取得し,歩行の追跡タスクにおいて異なる予測モデル
を組み合わせることで予測
● Facebookが提案したProphetやRFをベースラインとしてRF+FE, LSTM, LSTM+FE, RF+NNの組み合わせ
手法で比較検証
○ 最初の11ヶ月間を学習データとし最後の1ヶ月をテストデータとする
○ 評価指標としてはMAPEを用いる
● ProphetやRFよりも高精度に予測可能
LSTMなどを組み合わせたモデルで
商業施設への来客数を推測
34. A Large-scale Analysis of Regional Tendency of
Twitter Photos Using Only Image Features
34
会議:MIPR 2019
著者:Tetsuya Nagano, Takumi Ege, Wataru Shimoda and Keiji Yanai
● Twitterから収集した画像を用いて各地域における投稿傾向を調査
○ 200万枚,Geo-tag,5つのジャンル(人,飲食物,建物など)に分類することで投稿傾向を解析
● 特徴量抽出をした層の次元数別に比較
○ 128次元,4096次元
○ 一方に有意差が見られなかったため128次元を採用
● クラスターのジャンル分類後,各地域の画像のジャンル分布を比較
世界規模でTwitterの投稿傾向を解析
35. Lending Orientation to Neural Networks for Cross-view Geo-localization
35
会議 : CVPR 2019
著者 : Liu Liu and Hongdong Li
● 画像だけでなく画像の方位情報を加味してCNNに入力することで,方位情報を含んだ特徴を獲得
● 方位情報を単純に入力するのは困難なためU-V mapに情報を置換することで扱い可能
● 衛星画像とStreet View画像をマッチングさせたCVACTデータセットを構築
● 従来のCVM-netなどの手法と比較してSOTAを達成
従来のCross View Matchingに方位情報を
加えることでより正確に位置を推定