森林に覆われた土地に関するデータ分析

Kaggle
こんにちは。Kota(@k_ta0306)です。 Kaggleを参考に森林に覆われた土地に関するデータ分析をしてみようと思います。 IPython Notebookでの分析となりますが、環境は以下のようになります。 Python 3.6.2 :: Anaconda custom (64-bit)

森林に覆われた土地に関するデータとは?

オリジナルデータはKaggleでコンペティションに参加することで得ることができます。 今回扱うデータは、「the Roosevelt National Forest of northern Colorado」の森林データになります。 データの概要としては、
  • Id                                    15120 non-null int64
  • Elevation                             15120 non-null int64 :高度
  • Aspect                                15120 non-null int64 :局面
  • Slope                                 15120 non-null int64 :傾斜
  • Horizontal_Distance_To_Hydrology      15120 non-null int64 :水平方向距離(水文学)
  • Vertical_Distance_To_Hydrology        15120 non-null int64 :垂直方向距離
  • Horizontal_Distance_To_Roadways       15120 non-null int64 :水平方向距離(地理学)
  • Hillshade_9am                         15120 non-null int64 :陰影起伏(9AM)
  • Hillshade_Noon                        15120 non-null int64 :陰影起伏(昼)
  • Hillshade_3pm                         15120 non-null int64 :陰影起伏(3PM)
  • Horizontal_Distance_To_Fire_Points    15120 non-null int64 :火山口までの水平距離
  • Wilderness_Area1                      15120 non-null int64 :未開拓地区の面積
  • Soil_Type1                            15120 non-null int64 :土壌種類
  • Cover_Type                            15120 non-null int64 :森林植物の種類
となります。

森林植物の種類一覧

森林植物の種類は以下のようになります。 Forest Cover Types: 1 — Spruce/Fir: スプルースマツ科の植物 2 — Lodgepole Pine: コントルタマツ 3 — Ponderosa Pine: ポンデローサマツ 4 — Cottonwood/Willow: ヒロハハコヤナギ 5 — Aspen: ハコヤナギ 6 — Douglas-fir: ベイマツ 7 — Krummholz: 屈曲した低木

植物の種類別の分類

Covertypeのみでデータを分類すると上のようなグラフになります。テスト用のデータなので、全ての植物が均等に存在していることがわかります。 さらに、詳細にデータを分解していきます。

各植物は森林内でどのように存在しているのか?

植物の存在位置を、垂直・水平位置のデータを使って表すと上図のようになります。 “7”の低木植物は全体的に存在しているのに対し、ベイマツなどは狭い範囲で存在していることが読み取れます。 さらに、植物の土地占有は均等ではなく単調増加の1次関数的に増えていることもわかります。これらのデータからこの森林ではどのような植物がどういう特徴を持って存在しているのか考察できそうです。
【参考】 Forest Cover Type : EDA + Baseline Model
 

コメント

タイトルとURLをコピーしました