テーブルからテキストへの生成は、構造化または半構造化された表形式のデータから自然な言語の記述を自動的に生成することを目的としています。従来のテキスト生成タスクとは異なり、このタスクではモデルが表の構造を正確に理解し表現する能力が求められます。既存のアプローチは、表を線形化したりグラフ構造に変換したりして処理するものが一般的です。しかし、これらの方法は表の構造を適切に捕捉できないか、複雑な注意メカニズムに依存するため、適用範囲が限定されています。
これらの課題に対処するため、研究チームはQuASARを提案しました。これは、モデルの構造的認識と表現能力を向上させるための質問駆動型自己教師付き学習アプローチです。具体的には、QuASARは自己教師付き学習のための構造関連クエリのセットを定義し、モデルがローカルおよびグローバルなテーブル構造を明示的に捕捉するように導きます。さらに、私たちは2つの補助的な事前学習タスクを導入します:単語から文への再構築タスクと数値要約タスクです。これらのタスクは、生成されるテキストの流暢さと事実性をさらに向上させます。ToTToとHiTabデータセットでの実験結果は、私たちのアプローチが既存の方法よりも高品質なテキストを生成することを示しています。