UCI Census データセット [1] の 9 つの分類特徴量のうち、2 つを Facets Overview で可視化したもの。特徴量は分布間距離の順に並べ替えられており、トレーニング(青)とテスト(オレンジ)のデータセット間の差がもっとも不均等な特徴量が一番上に表示されている。トレーニングとテストのデータセットの間で「Target」特徴量のラベルの値が異なっている点に注意。テストセットの末尾にはピリオドがついている(「<=50K」と「<=50K.」)。この点は特徴量のグラフと、表の「top」列からもわかる。ラベルが一致していないため、このデータを使ってトレーニングやテストを行うモデルは正しく評価されない可能性がある。 |