大量の表形式データを有効活用するための方法論 – 70個以上のソフトウェア作成からの知見–

大量の表形式データを
有効活用するための方法論
– 70個以上のソフトウェア作成からの知見–
山梨大学疫学・環境医学講座助教
統計数理研究所客員助教
下野寿之 (しものとしゆき)
脳科学若手の会秋の懇話会 Short Talk 2025-10-11 (sat)
https://github.com/tulamili
https://metacpan.org/author/tulamili

ソフトウェアを自作
2
(1) データは、様々な不具合を必ず含む。
― 私の経験上のいくつかの例外を除いて。
欠損, 意味不明な特別値, 不要なデータの混入,
不自然な値の頻発, 表または列を結合時の不整合
→ 不具合の様子を、全把握するのは困難。
(2) データがあっても、活用の困難が生じる。
値の意味が解読困難, 列が多すぎ, 表が多すぎ,
よく似た列または表がいくつもある(⇒ 把握の困難)
→ 既存ソフトでは、効果的な対処は困難。
Pythonのcsvkit, pandas, R言語のsummaryなどでは不十分。
コマンドラインのプログラムとして、70個以上を
GitHub と MetaCPANで、それぞれ公開している。
数式を書くには LaTeX、統計処理はR言語。表データには?
高機能・親切設計のソフトを自分で作った。
どの国の統計局でも、大企業の古いDBサーバーでも使えるように設計した。
各プログラムについて :
- UNIX哲学に基づいて設計された機能を持つ。
- オプションにより、様々な機能を設定可能。
- コピペでエクセルなどに結果を簡単に保存可能。
-コマンド端末操作での親切さを追求。色など。
使い慣れると、他のソフトウェアを使う気が失せるようなコマンド体系である。

3
▼1個の表に対して全ての列について、異なる値の数、値の範囲、最頻値と頻度、桁数を、整理して出力。
どんな文字が各行の先頭から何文字目に何回出現したのかを出力。書式の理解に容易になる。 ▲
1. 整理した出力表が、上記の様にコマンドによって、一発で現れる。
データの値に不具合が存在した場合 : 「どの列にどんな不具合があった」について、ほぼ一目瞭然となる。
データの「把握と活用の困難」に対し : 上記のコマンド出力でほぼ解決。(エクセル等にコピペし、後で便利に参照が容
易。)
2. 様々な作業が非常に楽になる : Data cleansing、使い易いDatabaseの設計、うっかり大事なdataを忘れることの防止
3. このことにより、世の中に多数ある表形式データの有効活用が大きく進む。
表形式データ(CSV形式など) の形式 (文字列の様子や作られ方)を、即座に解読して、
その結果を整理可能な形で出力するコマンドラインを多数作った(70個以上公開)。
表形式データを、多分野にて活用可能にする、方法論の体系化を試みたい。

大量の表形式データを 有効活用するための方法論 – 70個以上のソフトウェア作成からの知見–

More Related Content

Similar to 大量の表形式データを 有効活用するための方法論 – 70個以上のソフトウェア作成からの知見–

More from Toshiyuki Shimono