Variational Template Machine for Data-to-Text Generationharmonylab
公開URL:https://openreview.net/forum?id=HkejNgBtPB
出典:Rong Ye, Wenxian Shi, Hao Zhou, Zhongyu Wei, Lei Li : Variational Template Machine for Data-to-Text Generation, 8th International Conference on Learning Representations(ICLR2020), Addis Ababa, Ethiopia (2020)
概要:Table形式の構造化データから文章を生成するタスク(Data-to-Text)において、Variational Auto Encoder(VAE)ベースの手法Variational Template Machine(VTM)を提案する論文です。Encoder-Decoderモデルを用いた既存のアプローチでは、生成文の多様性に欠けるという課題があります。本論文では多様な文章を生成するためにはテンプレートが重要であるという主張に基づき、テンプレートを学習可能なVAEベースの手法を提案します。提案手法では潜在変数の空間をテンプレート空間とコンテンツ空間に明示的に分離することによって、正確で多様な文生成が可能となります。また、table-textのペアデータだけではなくtableデータのないraw textデータを利用した半教師あり学習を行います。
Variational Template Machine for Data-to-Text Generationharmonylab
公開URL:https://openreview.net/forum?id=HkejNgBtPB
出典:Rong Ye, Wenxian Shi, Hao Zhou, Zhongyu Wei, Lei Li : Variational Template Machine for Data-to-Text Generation, 8th International Conference on Learning Representations(ICLR2020), Addis Ababa, Ethiopia (2020)
概要:Table形式の構造化データから文章を生成するタスク(Data-to-Text)において、Variational Auto Encoder(VAE)ベースの手法Variational Template Machine(VTM)を提案する論文です。Encoder-Decoderモデルを用いた既存のアプローチでは、生成文の多様性に欠けるという課題があります。本論文では多様な文章を生成するためにはテンプレートが重要であるという主張に基づき、テンプレートを学習可能なVAEベースの手法を提案します。提案手法では潜在変数の空間をテンプレート空間とコンテンツ空間に明示的に分離することによって、正確で多様な文生成が可能となります。また、table-textのペアデータだけではなくtableデータのないraw textデータを利用した半教師あり学習を行います。
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...harmonylab
Ahmed Rashed, Shayan Jawed, Lars Schmidt-Thieme, Andre Hintsches : MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Auction Systems, RecSys '20: Fourteenth ACM Conference on Recommender Systems, Virtual Event, Brazil (2020)
公開URL:https://dl.acm.org/doi/10.1145/3383313.3412242
概要:オークションにおける推薦の需要は存在するが,従来アルゴリズムの適用は困難です.
本論文ではユーザ-アイテム間の関係に加えて入札関係や落札価格などを組み込んだシンプルな推薦モデルMultiRecを提案しています.プロプライエタリの現実のオークションデータセットおよびパブリックなeBayデータセットで他のimplicit feedbackに対応するSOTAモデルを凌駕する性能を発揮しました.
Hazop and othere analysis method include STAMP and FRAMKiyoshi Ogawa
HAZOP is a very abstract method. so you can use any analysis method with HAZOP. It will be very helpfull for you. Nazenaze, FTA, FMEA, ETA, TRIZ, UML, What if, 4M5E, RCA, GSN, USDM, VTA, STAMP and FRAM are included.
Towards Knowledge-Based Personalized Product Description Generation in E-comm...harmonylab
出典:Qibin Chen, Junyang Lin, Yichang Zhang, Hongxia Yang, Jingren Zhou, Jie Tang : Towards Knowledge-Based Personalized Product Description Generation in E-commerce, Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD2019), Anchorage, Alaska, USA, (2019)
公開URL:https://arxiv.org/abs/1903.12457
概要:ECサイトにおける商品説明文の自動生成に関する論文です。商品タイトルから商品説明文を生成するEncoder-Decoderモデル(Base lineモデル)を考えます。このBase lineモデルによって生成される文章は一般的で曖昧な記述をすることが多くあまり使い物にならないとされています。商品説明文に必要な要素は次の2点であると本論文では主張しています。1.顧客の興味を促進するために、商品説明文は顧客の好みに基づいてパーソナライズされる必要があるとされています。2.顧客の意思決定に役立つ説明文には、商品の関連知識が含まれている必要があります。本論文では、パーソナライズされた情報量の多い説明文を生成するために、ユーザカテゴリや外部の知識ベースから取得してきた知識に基づいて商品紹介文を生成するKnowledge Based Personalizedモデルを提案します。
Recursively Summarizing Books with Human Feedbackharmonylab
公開URL:https://arxiv.org/abs/2109.10862
出典:Jeff Wu, Long Ouyang, Daniel M. Ziegler, Nisan Stiennon, Ryan Lowe, Jan Leike, Paul Christiano : Recursively Summarizing Books with Human Feedback, arXiv:2109.10862 (2021).
概要:MLモデルの学習のために行動の良し悪しを表すtraining signalを人間がループの中で提供する必要があるタスクが多く存在する.人間による評価に時間や専門的な知識を要するタスクの学習のためには,効果的なtraining signalを生成するためのスケーラブルな手法が必要となる.本論文では書籍全体の要約タスク(abstractive)を対象として,再帰的なタスクの分解と人間のフィードバックからの学習を組み合わせたアプローチを紹介する.モデルによる要約の中には人間が書いた要約の品質に匹敵する要約もあるが,平均するとモデルの要約は人間の要約に著しく劣ることが示された.
Integral Operation on Safety and Security Analysis using Hazop with other Ana...Kiyoshi Ogawa
Integral Operation on Safety and Security Analysis using Hazop with other Analysis method including FTA, FMEA, STAMP/STPA, FRAM, RCA, What if, SHELL, nazenaze, incident/accident database, TRIZ, 4M5E, UML, GSN, USDM and ETA
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...harmonylab
Ahmed Rashed, Shayan Jawed, Lars Schmidt-Thieme, Andre Hintsches : MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Auction Systems, RecSys '20: Fourteenth ACM Conference on Recommender Systems, Virtual Event, Brazil (2020)
公開URL:https://dl.acm.org/doi/10.1145/3383313.3412242
概要:オークションにおける推薦の需要は存在するが,従来アルゴリズムの適用は困難です.
本論文ではユーザ-アイテム間の関係に加えて入札関係や落札価格などを組み込んだシンプルな推薦モデルMultiRecを提案しています.プロプライエタリの現実のオークションデータセットおよびパブリックなeBayデータセットで他のimplicit feedbackに対応するSOTAモデルを凌駕する性能を発揮しました.
Hazop and othere analysis method include STAMP and FRAMKiyoshi Ogawa
HAZOP is a very abstract method. so you can use any analysis method with HAZOP. It will be very helpfull for you. Nazenaze, FTA, FMEA, ETA, TRIZ, UML, What if, 4M5E, RCA, GSN, USDM, VTA, STAMP and FRAM are included.
Towards Knowledge-Based Personalized Product Description Generation in E-comm...harmonylab
出典:Qibin Chen, Junyang Lin, Yichang Zhang, Hongxia Yang, Jingren Zhou, Jie Tang : Towards Knowledge-Based Personalized Product Description Generation in E-commerce, Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD2019), Anchorage, Alaska, USA, (2019)
公開URL:https://arxiv.org/abs/1903.12457
概要:ECサイトにおける商品説明文の自動生成に関する論文です。商品タイトルから商品説明文を生成するEncoder-Decoderモデル(Base lineモデル)を考えます。このBase lineモデルによって生成される文章は一般的で曖昧な記述をすることが多くあまり使い物にならないとされています。商品説明文に必要な要素は次の2点であると本論文では主張しています。1.顧客の興味を促進するために、商品説明文は顧客の好みに基づいてパーソナライズされる必要があるとされています。2.顧客の意思決定に役立つ説明文には、商品の関連知識が含まれている必要があります。本論文では、パーソナライズされた情報量の多い説明文を生成するために、ユーザカテゴリや外部の知識ベースから取得してきた知識に基づいて商品紹介文を生成するKnowledge Based Personalizedモデルを提案します。
Recursively Summarizing Books with Human Feedbackharmonylab
公開URL:https://arxiv.org/abs/2109.10862
出典:Jeff Wu, Long Ouyang, Daniel M. Ziegler, Nisan Stiennon, Ryan Lowe, Jan Leike, Paul Christiano : Recursively Summarizing Books with Human Feedback, arXiv:2109.10862 (2021).
概要:MLモデルの学習のために行動の良し悪しを表すtraining signalを人間がループの中で提供する必要があるタスクが多く存在する.人間による評価に時間や専門的な知識を要するタスクの学習のためには,効果的なtraining signalを生成するためのスケーラブルな手法が必要となる.本論文では書籍全体の要約タスク(abstractive)を対象として,再帰的なタスクの分解と人間のフィードバックからの学習を組み合わせたアプローチを紹介する.モデルによる要約の中には人間が書いた要約の品質に匹敵する要約もあるが,平均するとモデルの要約は人間の要約に著しく劣ることが示された.
Integral Operation on Safety and Security Analysis using Hazop with other Ana...Kiyoshi Ogawa
Integral Operation on Safety and Security Analysis using Hazop with other Analysis method including FTA, FMEA, STAMP/STPA, FRAM, RCA, What if, SHELL, nazenaze, incident/accident database, TRIZ, 4M5E, UML, GSN, USDM and ETA
Introduction of sensitivity analysis for randamforest regression, binary classification and multi-class classification of random forest using {forestFloor} package
Exploring Practices in Machine Learning and Machine Discovery for Heterogeneo...Ichigaku Takigawa
Video https://youtu.be/P4QogT8bdqY
ACS Spring 2023 Symposium on AI-Accelerated Scientific Workflow
https://acs.digitellinc.com/acs/sessions/526630/view
ACS SPRING 2023 ———— Crossroads of Chemistry
Indianapolis, IN & Hybrid, March 26-30
https://www.acs.org/meetings/acs-meetings/spring-2023.html
Slide PDF
https://itakigawa.page.link/acs2023spring
Our Paper
Accelerated discovery of multi-elemental reverse water-gas shift catalysts using extrapolative machine learning approach (2022, ChemRxiv)
https://doi.org/10.26434/chemrxiv-2022-695rj
Ichi Takigawa
https://itakigawa.github.io/
Machine Learning for Molecules: Lessons and Challenges of Data-Centric ChemistryIchigaku Takigawa
Perspectives on Artificial Intelligence and Machine Learning in Materials Science
February 4, 2022. – February 6, 2022.
https://joint.imi.kyushu-u.ac.jp/post-2698/
Machine Learning for Molecular Graph Representations and GeometriesIchigaku Takigawa
Dec 1, 2021, Pacifico Yokohama, Japan.
Symposium 1AS-17 "Data science and machine learning: Tackling the Noise and Heterogeneity of the Real World"
The 44th Annual Meetingn of the Molecular Biology Society of Japan
https://www2.aeplan.co.jp/mbsj2021/english/designation/index.html
6. ① Subclass coverの研究
ユースケースを真剣に考える
「すごく計算時間のかかるその厳密最適化は本当に必要ですか?」
② Graph miningとそれに基づく機械学習の研究
データマイニングは「発⾒」じゃない!?
「ビール買うとき実際にオムツを⾒かけたことありますか?」
③ SIG-FPAIと発⾒科学の研究
機械学習から機械発⾒へ:「発⾒」は合理化できるのか?
• 有川先⽣の科研費特定領域「巨⼤学術社会情報からの知識発⾒に関する基
礎研究 (略称:発⾒科学)」(1998 ~ 2001)の計画・⽅法・成果を再考する
• 領域出版物「発⾒科学とデータマイニング」(2001, 森下 真⼀・宮野 悟 編)
本⽇のケーススタディ:巨⼈の肩と反省の上に⽴つ
7. ① Subclass coverの研究
背景とアイデア:凸集合による部分クラス被覆
機械学習のマージン理論
線形分離可能な場合、マージン最⼤化
(or ベイズポイント)が汎化に良い
線形分離可能じゃない場合は?
多クラスの場合は?
(どことどこのマージンを最⼤化?)
部分クラスに分解して局所的な分離として解けると⾃然
(classificationは部分クラスへのk-最⼩射影で解く)
Logical analysis of data (LAD)
by Peter L. Hammer
Subclass method
by Mineichi Kudo
Decision Trees / CART
by BFOS
→ 「点集合Xから⼀意に定まる凸集合S(X)が他のクラスの
点を含まないような極⼤な部分集合Xの列挙」として解く
8. やったこと: 最⼩包含球族による被覆 + 凸包による被覆への拡張
Takigawa I, Kudo M, Nakamura A, Convex sets as prototypes for classifying patterns. (EAAI 2009)
Takigawa I, Kudo M, Nakamura A, The convex subclass method: combinatorial classifier based on a family of convex sets (MLDM 2005)
① Subclass coverの研究
9. この問題は考えだすととても⾯⽩いが…
• 極⼤集合(台集合がSperner族になるように)の列挙なのでmaximal freqent setsやhypergraph
traversals (or 単調な論理関数の双対化)と本質的に同じ構造を含み、当時、宇野先⽣や牧野先⽣の解説
や論⽂で勉強 (c.f. Heikki Mannilaのborders of theories)
• ⼀⽅で、本当に全ての凸包部分クラス被覆を厳密列挙すると「本来の⽬的としては好ましくないもの」
が⾊々含まれることも判明(e.g. “spiky” hulls)。最⼩包含「楕円体」versionも同様
• 計算時間かかるわりにCV精度的にはSVMやRF等の主流の⽅法と⽐べて有意に良いわけでもなかった。
① Subclass coverの研究
12. やったこと: すべての出現部分構造から「予測に貢献するのだけ」を選ぶ
① 線形モデルに対して「loss + L1罰則 + L2罰則」を座標勾配降下で解く!
until 解が収束
for x in すべての出現部分グラフ:
bx ←bx - η∂L/∂bx
predy = b0 + Σx bx
Brute-force (現実的には動かない)
until 解が収束
for x in DFS of 列挙⽊(すべての出現部分グラフ):
if xの⼦孫zでは更新後のbzがゼロ:
prune
bx ←bx - η∂L/∂bx
predy = b0 + Σx bx
Takigawa I, Mamitsuka H, Generalized sparse learning of linear models over the complete subgraph feature set (TPAMI 2017)
Takigawa I, Mamitsuka H, Efficiently mining δ-tolerance closed frequent subgraphs (Machine Learning 2011)
⽅針:Branch & Boundで更新後の係数が⾮ゼロのものだけ計算
② 決定⽊学習のsplitter searchについて同様にして⾮線形モデルを得る!
Shirakawa R, Yokoyama Y, Okazaki F, Takigawa I. Jointly learning relevant subgraph patterns and nonlinear models of their indicators. (MLG 2018)
「いま⼿元にある事例Sを最もよく分ける部分構造xの探索」を再帰的に⾏うので、bound
を求めておけば直接branch & boundが適⽤できる (津⽥先⽣のgBoostやgLARS的に)
→回帰⽊を得られれば(正則化)勾配ブースティングなどで⽊アンサンブルへも拡張できる
② Graph miningとそれに基づく機械学習の研究
※ 実際は対⾓Hessianも使うBCGD法に適⽤
提案アルゴリズム (スパース条件下では解が求まる)