Recursively Summarizing Books with Human Feedbackharmonylab
公開URL:https://arxiv.org/abs/2109.10862
出典:Jeff Wu, Long Ouyang, Daniel M. Ziegler, Nisan Stiennon, Ryan Lowe, Jan Leike, Paul Christiano : Recursively Summarizing Books with Human Feedback, arXiv:2109.10862 (2021).
概要:MLモデルの学習のために行動の良し悪しを表すtraining signalを人間がループの中で提供する必要があるタスクが多く存在する.人間による評価に時間や専門的な知識を要するタスクの学習のためには,効果的なtraining signalを生成するためのスケーラブルな手法が必要となる.本論文では書籍全体の要約タスク(abstractive)を対象として,再帰的なタスクの分解と人間のフィードバックからの学習を組み合わせたアプローチを紹介する.モデルによる要約の中には人間が書いた要約の品質に匹敵する要約もあるが,平均するとモデルの要約は人間の要約に著しく劣ることが示された.
Recursively Summarizing Books with Human Feedbackharmonylab
公開URL:https://arxiv.org/abs/2109.10862
出典:Jeff Wu, Long Ouyang, Daniel M. Ziegler, Nisan Stiennon, Ryan Lowe, Jan Leike, Paul Christiano : Recursively Summarizing Books with Human Feedback, arXiv:2109.10862 (2021).
概要:MLモデルの学習のために行動の良し悪しを表すtraining signalを人間がループの中で提供する必要があるタスクが多く存在する.人間による評価に時間や専門的な知識を要するタスクの学習のためには,効果的なtraining signalを生成するためのスケーラブルな手法が必要となる.本論文では書籍全体の要約タスク(abstractive)を対象として,再帰的なタスクの分解と人間のフィードバックからの学習を組み合わせたアプローチを紹介する.モデルによる要約の中には人間が書いた要約の品質に匹敵する要約もあるが,平均するとモデルの要約は人間の要約に著しく劣ることが示された.
MLP-Mixer: An all-MLP Architecture for Visionharmonylab
出典:Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Andreas Steiner, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, Alexey Dosovitskiy : Mlp-mixer: An all-mlp architecture for vision, Advances in Neural Information Processing Systems 34 (2021)
公開URL:https://arxiv.org/abs/2105.01601
概要:最近の画像処理分野ではCNNやVision Transformerのようなネットワークが人気です。この論文では、多層パーセプトロン(MLP)のみで作成したアーキテクチャ"MLP-Mixer"を提案します。MLP-Mixerは2種類のレイヤーを保持しており、チャネルとトークン(位置)をそれぞれ別のMLPで学習しています。このモデルは画像分類ベンチマークにおいて、事前学習と推論コストが最新モデルに匹敵するスコアを達成しました
MLP-Mixer: An all-MLP Architecture for Visionharmonylab
出典:Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Andreas Steiner, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, Alexey Dosovitskiy : Mlp-mixer: An all-mlp architecture for vision, Advances in Neural Information Processing Systems 34 (2021)
公開URL:https://arxiv.org/abs/2105.01601
概要:最近の画像処理分野ではCNNやVision Transformerのようなネットワークが人気です。この論文では、多層パーセプトロン(MLP)のみで作成したアーキテクチャ"MLP-Mixer"を提案します。MLP-Mixerは2種類のレイヤーを保持しており、チャネルとトークン(位置)をそれぞれ別のMLPで学習しています。このモデルは画像分類ベンチマークにおいて、事前学習と推論コストが最新モデルに匹敵するスコアを達成しました
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...harmonylab
公開URL:https://openaccess.thecvf.com/content/CVPR2022/papers/Chen_Self-Supervised_Learning_of_Adversarial_Example_Towards_Good_Generalizations_for_Deepfake_CVPR_2022_paper.pdf
出典:Chen, Liang, et al. "Self-supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake Detection." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
概要:DeepFakeの検出器をより一般化するための学習手法を提案しており、モデルの学習にフェイクの構成を推定するアプローチを組み込むことで、汎化性能の向上を狙っている。学習とは異なるデータセットでテストを行い、従来手法より精度向上したことから、提案手法が汎化性能向上に貢献していることが示されている。
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
公開URL:https://arxiv.org/abs/2210.03629
出典:Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao : ReAct: Synergizing Reasoning and Acting in Language Models, arXiv: 2210.03629 (2022)
概要:本論文では大規模言語モデルにおいて推論(Reasoning)と行動(Acting)を組合わせるprompt手法であるReActを提案した。知識集約型の推論タスク(QAタスク・事実検証タスク)と意思決定タスク(テキストゲーム、ウェブナビゲーション)でReActの性能を評価した。推論タスクにおいてReActはWikipedia APIとの対話によりChain of ThoughtのHallucinationを軽減し、意思決定タスクにおいては模倣学習や強化学習による手法を上回る性能を示した。
Towards Total Recall in Industrial Anomaly Detectionharmonylab
公開URL:https://openaccess.thecvf.com/content/CVPR2022/papers/Roth_Towards_Total_Recall_in_Industrial_Anomaly_Detection_CVPR_2022_paper.pdf
出典:Karsten Roth, Latha Pemula, Joaquin Zepeda, Bernhard Schölkopf, Thomas Brox, Peter Gehler: Towards Total Recall in Industrial Anomaly Detection, Conference on Computer Vision and Pattern Recognition (CVPR), pp. 14318-14328 (2022)
概要:本論文では位置情報を考慮した特徴量の集合和であるメモリバンクとCoresetによる画像パッチ特徴量の削減を行うPatchCoreアルゴリズムを提案する.結果として、異常検出のベンチマークであるMVTecにおいてAUROC99%以上の精度を出力し,2022年時点でのSoTAを記録した.また,PatchCoreによる特徴量削減により,学習のサンプル数を20%に減らした場合でも以前のSoTAに匹敵する精度となった.
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
公開URL:https://openaccess.thecvf.com/content/CVPR2023/html/Vasu_MobileOne_An_Improved_One_Millisecond_Mobile_Backbone_CVPR_2023_paper.html
出典:Vasu, Pavan Kumar Anasosalu, et al.: MobileOne: An Improved One Millisecond Mobile Backbone, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (2023)
概要:モバイル端末向けのニューラルネットワークは多くの場合、FLOPsやパラメータ数で最適化されています。しかし、これらの最適化は実際のモバイルデバイスで実行した場合のネットワークの応答時間に相関しない場合があります。我々は昨今のニューラルネットワークの最適化のボトルネックを特定・分析し、その結果をもとにした新たな効率的なバックボーンMobileOneを設計しました。結果はMobileFormerと同等の性能を得ながら、38倍高速であり、最先端の効率性を達成しました。
Emotionally Intelligent Fashion Design Using CNN and GANharmonylab
全体的な製品の性能が向上したことにより、消費者は機能よりもイメージのような感情に訴えられる部分に注目するようになった。そこで本研究では、靴に着目することで商品イメージを識別するProduct Image Recognition model とイメージ通りの商品を生成するIntelligent Design Generation Model を提案する。Product Image Recognition model では、アンケートによって得られた各商品の画像のイメージ情報をCNNベースのモデルによって学習を行い、商品イメージの識別を実現した。Intelligent Design Generation Model では、GANベースのモデルより、イメージに沿った商品の生成を実現した。見た目による定性的な評価や被検者による実験の結果などから、提案手法の実現可能性と有効性が示せた。
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matchingharmonylab
公開URL:https://arxiv.org/pdf/2404.19174
出典:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. ascimento: XFeat: Accelerated Features for Lightweight Image Matching, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
概要:リソース効率に優れた特徴点マッチングのための軽量なアーキテクチャ「XFeat(Accelerated Features)」を提案します。手法は、局所的な特徴点の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本的な設計を再検討します。特に、リソースが限られたデバイス向けに迅速かつ堅牢なアルゴリズムが必要とされるため、解像度を可能な限り高く保ちながら、ネットワークのチャネル数を制限します。さらに、スパース下でのマッチングを選択できる設計となっており、ナビゲーションやARなどのアプリケーションに適しています。XFeatは、高速かつ同等以上の精度を実現し、一般的なラップトップのCPU上でリアルタイムで動作します。
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...harmonylab
This study focuses on addressing the challenges associated with decision-making in winter road snow removal operations, aiming to alleviate the burden on snow removal personnel. Specifically, we propose an approach to develop a system that collects and visualizes information on road snow conditions and weather data to support decision-making by personnel. Additionally, by sharing the collected information, we aim to facilitate the sharing of premonitions about changes in decision-making among snow removal personnel, reducing the need for physical inspections.We have validated the effectiveness of the system and confirmed its efficacy.
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Modelsharmonylab
公開URL:https://arxiv.org/pdf/2307.09288.pdf
出典:Touvron Hugo, et al.: Llama 2: Open foundation and fine-tuned chat models, arXiv preprint arXiv:2307.09288 (2023)
概要:70億から700億のパラメータを持つ大規模言語モデル(LLM)の事前学習であるLlama 2を開発し、リリースしました。Llama 2-Chatと呼ばれるファインチューニングされたLLMは、対話のユースケースに最適化されています。提案モデルは、検証したほとんどのベンチマークにおいて、オープンソースのチャットモデルを凌駕しており、有用性と安全性に関する人間による評価に基づいて、クローズドソースのモデルの適切な代替となる可能性があります。コミュニティが我々の研究を基に、LLMの責任ある開発に貢献できるようにすることも目的にあります。
A Study on Estimation of Household Kerosene Consumption for Optimization of D...harmonylab
Kerosene is a very important source for heating in many areas. In cold regions of Japan, delivery companies regularly visit household oil tanks to replenish them so that they do not run out of fuel. However, it is hard to make a good delivery plan, since the delivery companies do not know how much kerosene is left in the kerosene tank. And most of the existing methods about energy consumption estimation are focused on one target. Little work has been done in kerosene consumption with many users. We present Deep learning based model to estimate the consumption and mean consumption of one time span. The model includes time series augmentation to extract more information from the time span and attention mechanism to extract inner connection between each time step. The experimental results indicate that our proposed approaches have MAE around 50L for refuel recordings and MAE around 4L for daily consumption. In order to evaluate our model in a realistic way, the estimation result is applied to an inventory routing algorithm. The result using our estimation is close to the result using real consumption data.
The profit in the bus business is declining, and service improvements such as route planning and optimization are required. Information about the attributes of bus passengers is necessary to improve operational management and develop more services. In this research, a method for attribute estimation utilizing multiple images of the same passenger is proposed. Passenger attributes such as age group and gender are inferred by the Swin-Transformer-based algorithm. To evaluate the performance of the proposed approach, a bus passenger dataset is collected from cameras installed at bus entrances and exits. Experimental results on the collected dataset indicate that our proposed algorithm achieves high accuracy in most attribute categories and proves its effectiveness.