HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Est...harmonylab
公開URL:https://arxiv.org/abs/1908.10357
出典:Cheng B, Xiao B, Wang J, Shi H, Huang T S, Zhang L : Higherhrnet: Scale-aware representation learning for bottom-up human pose estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 5386-5395 (2020) https://arxiv.org/abs/1908.10357
概要:高解像度特徴量ピラミッドを用いて人物の大きさに考慮したBottom-Up型の姿勢推定手法の一つです.HRNetの特徴マップ出力と,転置畳み込みによるアップサンプリングされた高解像度な出力で構成されています.COCO test-devにおいて,中人数以上で従来のBottom-Up型手法を2.5%AP上回り,後処理などを含めない場合においてBottom-Up型でSOTA (70.5%AP)を達成しました.
Several recent papers have explored self-supervised learning methods for vision transformers (ViT). Key approaches include:
1. Masked prediction tasks that predict masked patches of the input image.
2. Contrastive learning using techniques like MoCo to learn representations by contrasting augmented views of the same image.
3. Self-distillation methods like DINO that distill a teacher ViT into a student ViT using different views of the same image.
4. Hybrid approaches that combine masked prediction with self-distillation, such as iBOT.
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matchingharmonylab
公開URL:https://arxiv.org/pdf/2404.19174
出典:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. ascimento: XFeat: Accelerated Features for Lightweight Image Matching, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
概要:リソース効率に優れた特徴点マッチングのための軽量なアーキテクチャ「XFeat(Accelerated Features)」を提案します。手法は、局所的な特徴点の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本的な設計を再検討します。特に、リソースが限られたデバイス向けに迅速かつ堅牢なアルゴリズムが必要とされるため、解像度を可能な限り高く保ちながら、ネットワークのチャネル数を制限します。さらに、スパース下でのマッチングを選択できる設計となっており、ナビゲーションやARなどのアプリケーションに適しています。XFeatは、高速かつ同等以上の精度を実現し、一般的なラップトップのCPU上でリアルタイムで動作します。
HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Est...harmonylab
公開URL:https://arxiv.org/abs/1908.10357
出典:Cheng B, Xiao B, Wang J, Shi H, Huang T S, Zhang L : Higherhrnet: Scale-aware representation learning for bottom-up human pose estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 5386-5395 (2020) https://arxiv.org/abs/1908.10357
概要:高解像度特徴量ピラミッドを用いて人物の大きさに考慮したBottom-Up型の姿勢推定手法の一つです.HRNetの特徴マップ出力と,転置畳み込みによるアップサンプリングされた高解像度な出力で構成されています.COCO test-devにおいて,中人数以上で従来のBottom-Up型手法を2.5%AP上回り,後処理などを含めない場合においてBottom-Up型でSOTA (70.5%AP)を達成しました.
Several recent papers have explored self-supervised learning methods for vision transformers (ViT). Key approaches include:
1. Masked prediction tasks that predict masked patches of the input image.
2. Contrastive learning using techniques like MoCo to learn representations by contrasting augmented views of the same image.
3. Self-distillation methods like DINO that distill a teacher ViT into a student ViT using different views of the same image.
4. Hybrid approaches that combine masked prediction with self-distillation, such as iBOT.
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matchingharmonylab
公開URL:https://arxiv.org/pdf/2404.19174
出典:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. ascimento: XFeat: Accelerated Features for Lightweight Image Matching, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
概要:リソース効率に優れた特徴点マッチングのための軽量なアーキテクチャ「XFeat(Accelerated Features)」を提案します。手法は、局所的な特徴点の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本的な設計を再検討します。特に、リソースが限られたデバイス向けに迅速かつ堅牢なアルゴリズムが必要とされるため、解像度を可能な限り高く保ちながら、ネットワークのチャネル数を制限します。さらに、スパース下でのマッチングを選択できる設計となっており、ナビゲーションやARなどのアプリケーションに適しています。XFeatは、高速かつ同等以上の精度を実現し、一般的なラップトップのCPU上でリアルタイムで動作します。
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...harmonylab
This study focuses on addressing the challenges associated with decision-making in winter road snow removal operations, aiming to alleviate the burden on snow removal personnel. Specifically, we propose an approach to develop a system that collects and visualizes information on road snow conditions and weather data to support decision-making by personnel. Additionally, by sharing the collected information, we aim to facilitate the sharing of premonitions about changes in decision-making among snow removal personnel, reducing the need for physical inspections.We have validated the effectiveness of the system and confirmed its efficacy.
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
公開URL:https://openaccess.thecvf.com/content/CVPR2023/html/Vasu_MobileOne_An_Improved_One_Millisecond_Mobile_Backbone_CVPR_2023_paper.html
出典:Vasu, Pavan Kumar Anasosalu, et al.: MobileOne: An Improved One Millisecond Mobile Backbone, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (2023)
概要:モバイル端末向けのニューラルネットワークは多くの場合、FLOPsやパラメータ数で最適化されています。しかし、これらの最適化は実際のモバイルデバイスで実行した場合のネットワークの応答時間に相関しない場合があります。我々は昨今のニューラルネットワークの最適化のボトルネックを特定・分析し、その結果をもとにした新たな効率的なバックボーンMobileOneを設計しました。結果はMobileFormerと同等の性能を得ながら、38倍高速であり、最先端の効率性を達成しました。
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Modelsharmonylab
公開URL:https://arxiv.org/pdf/2307.09288.pdf
出典:Touvron Hugo, et al.: Llama 2: Open foundation and fine-tuned chat models, arXiv preprint arXiv:2307.09288 (2023)
概要:70億から700億のパラメータを持つ大規模言語モデル(LLM)の事前学習であるLlama 2を開発し、リリースしました。Llama 2-Chatと呼ばれるファインチューニングされたLLMは、対話のユースケースに最適化されています。提案モデルは、検証したほとんどのベンチマークにおいて、オープンソースのチャットモデルを凌駕しており、有用性と安全性に関する人間による評価に基づいて、クローズドソースのモデルの適切な代替となる可能性があります。コミュニティが我々の研究を基に、LLMの責任ある開発に貢献できるようにすることも目的にあります。
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
公開URL:https://arxiv.org/abs/2210.03629
出典:Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao : ReAct: Synergizing Reasoning and Acting in Language Models, arXiv: 2210.03629 (2022)
概要:本論文では大規模言語モデルにおいて推論(Reasoning)と行動(Acting)を組合わせるprompt手法であるReActを提案した。知識集約型の推論タスク(QAタスク・事実検証タスク)と意思決定タスク(テキストゲーム、ウェブナビゲーション)でReActの性能を評価した。推論タスクにおいてReActはWikipedia APIとの対話によりChain of ThoughtのHallucinationを軽減し、意思決定タスクにおいては模倣学習や強化学習による手法を上回る性能を示した。
A Study on Estimation of Household Kerosene Consumption for Optimization of D...harmonylab
Kerosene is a very important source for heating in many areas. In cold regions of Japan, delivery companies regularly visit household oil tanks to replenish them so that they do not run out of fuel. However, it is hard to make a good delivery plan, since the delivery companies do not know how much kerosene is left in the kerosene tank. And most of the existing methods about energy consumption estimation are focused on one target. Little work has been done in kerosene consumption with many users. We present Deep learning based model to estimate the consumption and mean consumption of one time span. The model includes time series augmentation to extract more information from the time span and attention mechanism to extract inner connection between each time step. The experimental results indicate that our proposed approaches have MAE around 50L for refuel recordings and MAE around 4L for daily consumption. In order to evaluate our model in a realistic way, the estimation result is applied to an inventory routing algorithm. The result using our estimation is close to the result using real consumption data.
25. 研究業績
・国際学会 口頭発表、査読あり
1)○Mizuki Kambe, Soichiro Yokoyama, Tomohisa Yamashita, Hidenori Kawamura, Estimating impressions for
clothing, landscape, and indoor images using CNN, The 23rd Asia Pacific Symposium on Intelligent and
Evolutionary Systems (IES 2019), Tottori, Japan(2019)
・国内学会 口頭発表 査読なし
1) ○神戸瑞樹,横山想一郎,山下倫央,川村秀憲,畳み込みニューラルネットワークを用いた服飾画像に対するアノ
テーションの推定, 社会システムと情報技術研究ウィーク2018(WSSIT), 虻田郡留寿都村(2018)
2) ○神戸瑞樹,横山想一郎,山下倫央,川村秀憲,服飾画像に対する印象語の推定のための畳み込みニューラルネッ
トワーク学習方法の検討, 人工知能と知識処理研究会(AI),札幌市(2018)
3) ○神戸瑞樹,横山想一郎,山下倫央,川村秀憲,CNNを用いた服飾・風景画像に対する印象の推定,第18回情報科
学技術フォーラム(FIT),岡山(2019)
4) ○神戸瑞樹,横山想一郎,山下倫央,川村秀憲,服飾画像に対する印象推定のためのデータセットの構築, 社会シス
テムと情報技術研究ウィーク2020(WSSIT), 虻田郡留寿都村(2020),発表予定
・展示会
1) GTC Japan ポスター出展(2018/09/13-14 東京)
2) ビジネスEXPO ポスター出展 (2018/11/8-9 札幌)
24
Editor's Notes
However, impression may vary depending on the recipient.
For example, some people feel this clothing is cute and summerish, and some people feel this clothing is cute and girly.
Therefore, impressions cannot be analyze quantitatively.
The same can be said about the brand image.
For example, some people feel this clothing is like Brand A, and some people feel this clothing is like Brand B.
Moreover, there is a situation where only some people, such as designers, decide what kind of product should be made.
So, there is a need for a system that can quantitatively evaluate impressions and analyze sales and return to product development.
The data distribution in the category is like this.
Although there is a difference in the number of products between categories, it did not pose a major problem for category estimation in preliminary experiments.
In the following, we will discuss together.