BLOG

2019.05.20

Pythonとデータフレームについて

こんにちは、サービス&ソリューショングループの尼崎です。

昨今、Pythonという言葉を目にする機会が増えたのではないかと思っています。

その理由はやはり簡単に書けて馴染みやすい言語であることはもちろん、
AIやIoTの基盤としてライブラリが充実しているからではないでしょうか。

私が所属するサービス＆ソリューショングループでは、Pythonによる開発をメインに行っていますが、
社内外から高い生産性を求められています…

ということで、AI・IoTに欠かせないライブラリの一つであるPandasをご紹介したいと思います。

Pandasとは

データ解析を支援する機能を提供するライブラリである。
特に、数表および時系列データを操作するためのデータ構造と演算を提供する。
PandasはBSDライセンスのもとで提供されている。
（wikipediaより引用）

弊社では、PythonによるAI・IoT関連プロジェクトを行っていますが、

大量のCSVファイルを処理するためにPandasを使用しています。

その中でも、よく使用する操作について紹介したいと思います。

CSVファイルの読み込みについて
- CSV読み込みとオプションの説明
条件に適合する行を抽出する
- 完全一致の抽出
- 特定の文字を含む抽出（部分一致抽出）
- 正規表現による抽出
- 式を用いた抽出
CSVファイルを結合・連結する
- 結合・連結のパターンについて
- CSVファイルを結合する（内部結合）
- CSVファイルを連結する（縦方向）

1．CSVファイルの読み込みについて

データ操作のために使用するデータは、郵便局が公開している郵便番号データ（CSV）を使用して行いたいと思います。

郵便番号データの各列は、下記のように定義されています。

郵便局HPより引用（https://www.post.japanpost.jp/zipcode/dl/readme.html）

CSV読み込みとオプションの説明

CSVファイルの読み込みは、pd.read_csv関数を利用して行うことが出来ます。

pd.read_csv関数には、読み込むCSVに合わせたオプションを指定する必要があります。

今回は使用する郵便番号データには、下記3つのオプションを指定して読み込みを行っていきます。

①読み込むCSVファイルの文字コードを指定します。UTF-8以外の文字コードの場合には、文字コードの指定が必要です。

②各列の名前を指定しています。読み込むCSVファイルに列の名前のデータを持っていない場合は、指定が必要です。

　この名前は、列を指定したデータ操作を行う場合に使用する名前になります。

　本項目を指定しない場合は、自動的に1から連番で数値の列名が割り当てられます。

③データの型を指定しています。先頭が0から始まる数値のみのデータがある場合などは、データ型が数値型と認識されて、

　先頭の0が欠落してしまうため、明示的なデータ型の指定が必要です。

　今回扱うデータは郵便番号であり、先頭0始まりのデータがあり得ます。

　Pandasがデータ型を自動認識しないようにするため、明示的に指定を行っています。

　1列目～9列目まではobject型（文字列型）、10列目～15列目まではuint8（符号なし8ビット整数型）で定義しています。

④ヘッダー行無しを指定しています。

　Pandasは、読み込むCSVファイルの先頭行をヘッダー行として認識します。今回使用する郵便番号データには、

　ヘッダー行が含まれていないため指定を行っています。

# CSV内のデータ名を定義
ken_all_names = [
    "全国地方公共団体コード",
    "（旧）郵便番号（5桁）",
    "郵便番号（7桁）",
    "都道府県名_カナ",
    ︙
]


# データ型を定義
data_types = {
    "全国地方公共団体コード": 'object',
    "（旧）郵便番号（5桁）": 'object',
    "郵便番号（7桁）": 'object',
    "都道府県名_カナ": 'object',
    "市区町村名_カナ": 'object',
    "町域名_カナ": 'object',
      ︙
    "一つの郵便番号で二以上の町域を表す場合の表示": 'uint8',
    "更新の表示": 'uint8',
    "変更理由": 'uint8',
}


# CSVを読み込み
ken_all = pd.read_csv(os.path.join(base_dir, 'KEN_ALL.CSV'),
                      encoding='cp932',                        # エンコードを指定　－－－－－－①
                      names=ken_all_names,                     # 列名を指定　　　　－－－－－－②
                      dtype=data_types,                        # データの型を指定　－－－－－－③
                      header=None)                             # ヘッダー行無しを指定　－－－－④

上記の『ken_all』変数に、読み込んだCSVファイルのデータが格納されています。

この変数を使って、データ操作を行っていきたいと思います。

2．条件に適合する行を抽出する

完全一致の抽出

都道府県名_カナが『ﾌｸｵｶｹﾝ』（福岡県）のデータのみ抽出します。

完全一致の条件でデータを抽出するには、==演算子を使用します。

# 検索条件に完全一致するデータ行を抽出
データフレーム[検索対象列名] == 検索文字列

処理結果は以下のようになりました。

福岡県（ﾌｸｵｶｹﾝ）に完全一致するデータが抽出されましたね。

# ﾌｸｵｶにマッチするデータ行を抽出
ken_all[ken_all['都道府県名_カナ'] == 'ﾌｸｵｶｹﾝ']


# 以下は処理結果


全国地方公共団体コード （旧）郵便番号（5桁） 郵便番号（7桁） 都道府県名_カナ       市区町村名_カナ           町域名_カナ 都道府県名_漢字 市区町村名_漢字
40101       800    8000000   ﾌｸｵｶｹﾝ  ｷﾀｷｭｳｼｭｳｼﾓｼﾞｸ  ｲｶﾆｹｲｻｲｶﾞﾅｲﾊﾞｱｲ      福岡県  北九州市門司区  以下に掲載がない場合
40101       800    8000045   ﾌｸｵｶｹﾝ  ｷﾀｷｭｳｼｭｳｼﾓｼﾞｸ          ｱｵﾊﾞﾀﾞｲ      福岡県  北九州市門司区         青葉台
40101       80001  8000101   ﾌｸｵｶｹﾝ  ｷﾀｷｭｳｼｭｳｼﾓｼﾞｸ              ｲｶﾜ      福岡県  北九州市門司区          伊川
40101       800    8000041   ﾌｸｵｶｹﾝ  ｷﾀｷｭｳｼｭｳｼﾓｼﾞｸ         ｲｽﾞﾐｶﾞｵｶ      福岡県  北九州市門司区         泉ケ丘
40101       800    8000048   ﾌｸｵｶｹﾝ  ｷﾀｷｭｳｼｭｳｼﾓｼﾞｸ            ｲﾅﾂﾞﾐ      福岡県  北九州市門司区          稲積
...

前方一致の抽出

都道府県名が『ﾌｸ』から始まるデータ行にマッチするデータのみ抽出します。

前方一致等の条件でデータを抽出するには、startswith関数を使用します。

期待値としては、福岡県、福島県、福井県の3県が表示される想定です。

# 検索条件から始まるデータ行を抽出
データフレーム[検索対象列名].str.startswith(検索文字列)

以下のように『ﾌｸ』から始まるデータが表示されました。

# 都道府県名がﾌｸから始まるデータ行を抽出
ken_all[ken_all['都道府県名_カナ'].str.startswith('ﾌｸ')]


# 以下は抽出結果


全国地方公共団体コード （旧）郵便番号（5桁） 郵便番号（7桁） 都道府県名_カナ 市区町村名_カナ
07201       960    9600000   ﾌｸｼﾏｹﾝ    ﾌｸｼﾏｼ  ｲｶﾆｹｲｻｲｶﾞﾅｲﾊﾞｱｲ   
07201       960    9608113   ﾌｸｼﾏｹﾝ    ﾌｸｼﾏｼ           ｱｻﾋﾁｮｳ   
07201       96021  9602156   ﾌｸｼﾏｹﾝ    ﾌｸｼﾏｼ              ｱﾗｲ   
07201       96021  9602102   ﾌｸｼﾏｹﾝ    ﾌｸｼﾏｼ            ｱﾗｲｷﾀ   
07201       960    9608042   ﾌｸｼﾏｹﾝ    ﾌｸｼﾏｼ             ｱﾗﾏﾁ   
...

正しく3県のみが抽出されているか確認するため、都道府県名_カナでグループ化し、それぞれの重複した行をまとめてみます。

グループ化するには、groupby関数を使用します。

# 都道府県名_カナでグループ化し、それぞれの件数を表示
ken_all[ken_all['都道府県名_カナ'].str.startswith('ﾌｸ')].groupby('都道府県名_カナ').size()


# 以下は抽出結果


都道府県名_カナ
ﾌｸｲｹﾝ     2263
ﾌｸｵｶｹﾝ    3294
ﾌｸｼﾏｹﾝ    3950

上記では、件数も含めて出力を行っていますが、件数が必要ない場合はunique関数を利用しても同様のことが出来ます。

# 重複した行をまとめる
データフレーム[列名].unique()

# 都道府県名_カナの重複した行をまとめる
ken_all[ken_all['都道府県名_カナ'].str.startswith('ﾌｸ')]['都道府県名_カナ'].unique()


# 以下は抽出結果
array(['ﾌｸｼﾏｹﾝ', 'ﾌｸｲｹﾝ', 'ﾌｸｵｶｹﾝ'], dtype=object)

上記のように、3県で絞り込みがされていることが確認できましたね。

特定の文字を含む抽出（部分一致抽出）

都道府県名_カナ列に、『ﾌ』が含まれるデータのみ抽出します。

特定の文字を含むデータのみを抽出する場合は、contains関数を使用します。

期待する結果は、以下の2府4県が絞り込まれるはずです。

大阪府（ｵｵｻｶﾌ）
京都府（ｷｮｳﾄﾌ）
岐阜県（ｷﾞﾌｹﾝ）
福井県（ﾌｸｲｹﾝ）
福岡県（ﾌｸｵｶｹﾝ）
福島県（ﾌｸｼﾏｹﾝ）

# 検索条件から始まるデータ行を抽出
データフレーム[検索対象列名].str.contains(検索文字列)

都道府県名_カナでグループ化してカウントを表示しています。

2府4県が抽出されましたね。

# 都道府県名_カナ列に『ﾌ』が含まれるデータのみ抽出
ken_all[ken_all['都道府県名_カナ'].str.contains('ﾌ')].groupby('都道府県名_カナ').size()


# 以下は処理結果


都道府県名_カナ
ｵｵｻｶﾌ     3846
ｷｮｳﾄﾌ     6658
ｷﾞﾌｹﾝ     3371
ﾌｸｲｹﾝ     2263
ﾌｸｵｶｹﾝ    3294
ﾌｸｼﾏｹﾝ    3950

正規表現による抽出

郵便番号（7桁）の1文字目と3文字目が0のデータのみ抽出します。

正規表現を使用した抽出は、完全一致でも使用したmatch関数を使用します。

# 検索条件に完全一致するデータ行を抽出
データフレーム[検索対象列名].str.match(正規表現)

正規表現指定を用いて、2文字目が『ｳ』のデータを抽出してみます。

.（ドット）は任意の一文字を示しています。

この正規表現検索によって得られる結果の期待値は、東京都（ﾄｳｷｮｳﾄ）と高知県（ｺｳﾁｹﾝ）となります。

ken_all[ken_all['都道府県名_カナ'].str.match('.ｳ')]

以下のように期待値が得られました。

全国地方公共団体コード （旧）郵便番号（5桁） 郵便番号（7桁） 都道府県名_カナ 市区町村名_カナ 町域名_カナ
13101       100    1000000   ﾄｳｷｮｳﾄ    ﾁﾖﾀﾞｸ  ｲｶﾆｹｲｻｲｶﾞﾅｲﾊﾞｱｲ   
13101       102    1020072   ﾄｳｷｮｳﾄ    ﾁﾖﾀﾞｸ          ｲｲﾀﾞﾊﾞｼ   
13101       102    1020082   ﾄｳｷｮｳﾄ    ﾁﾖﾀﾞｸ         ｲﾁﾊﾞﾝﾁｮｳ   
13101       101    1010032   ﾄｳｷｮｳﾄ    ﾁﾖﾀﾞｸ          ｲﾜﾓﾄﾁｮｳ   
13101       101    1010047   ﾄｳｷｮｳﾄ    ﾁﾖﾀﾞｸ           ｳﾁｶﾝﾀﾞ   
…
39201       780    7800000    ｺｳﾁｹﾝ     ｺｳﾁｼ  ｲｶﾆｹｲｻｲｶﾞﾅｲﾊﾞｱｲ   
39201       780    7800054    ｺｳﾁｹﾝ     ｺｳﾁｼ          ｱｲｵｲﾁｮｳ   
39201       780    7800813    ｺｳﾁｹﾝ     ｺｳﾁｼ         ｱｵﾔｷﾞﾁｮｳ   
39201       780    7800936    ｺｳﾁｹﾝ     ｺｳﾁｼ          ｱｶｲｼﾁｮｳ   
39201       780    7808072    ｺｳﾁｹﾝ     ｺｳﾁｼ         ｱｹﾎﾞﾉﾁｮｳ   
…

ken_all[ken_all['都道府県名_カナ'].str.match('.ｳ')].groupby('都道府県名_カナ').size()
都道府県名_カナ
ｺｳﾁｹﾝ     1695
ﾄｳｷｮｳﾄ    3887

更に、正規表現指定を以下のように変更し、都道府県名にｷを含み、末尾がﾄで終わる条件へと変更してみます。

*（アスタリスク）は0回以上の直前の指定の繰り返しを意味しています。

また、$（ダラー）は末尾の文字列の指定を行っています。この場合は、『ﾄ』で終わることを指定しています。

ken_all[ken_all['都道府県名_カナ'].str.match('.*ｷ.*ﾄ$')].groupby('都道府県名_カナ').size()
都道府県名_カナ
ﾄｳｷｮｳﾄ    3887

『ﾄｳｷｮｳﾄ』（東京都）のみが抽出されました。

上記の正規表現で、末尾の$を指定しない場合は、『ｷｮｳﾄﾌ』（京都府）も抽出対象になってしまいます。

ken_all[ken_all['都道府県名_カナ'].str.match('.*ｷ.*ﾄ')].groupby('都道府県名_カナ').size()
都道府県名_カナ
ｷｮｳﾄﾌ     6658
ﾄｳｷｮｳﾄ    3887

式を用いた抽出

SQL文のようなクエリでAND条件、OR条件を指定しての抽出を行うこともできます。

式を用いた抽出には、query関数を使用します。

都道府県_カナが福岡（ﾌｸｵｶ）または佐賀（ｻｶﾞ）で、かつ”丁目を有する町域の場合の表示”列が該当（値が1）するデータのみ抽出するには、

下記で行うことが出来ます。

ken_all.query("(都道府県名_カナ=='ﾌｸｵｶｹﾝ' | 都道府県名_カナ=='ｻｶﾞｹﾝ') & 丁目を有する町域の場合の表示 == 1")

3．CSVファイルを結合・連結する

複数のCSVファイルを結合する操作についてご紹介したいと思います。

CSVファイルの結合は、特定の列や条件を利用してデータベースのように結合処理を行うことが出来ます。

結合・連結のパターンについて

Pandasでは、複数のCSVファイルを一つのデータの塊としてまとめることができます。

よく使用する結合や連結は、以下のように大きく2種類あります。

　　・結合：特定のキー情報が一致するデータを、1行のデータとしてまとめる操作（merge）

　　・連結：データをつなぎ合わせる（concat、join）

上記2種類のパターンのうち、代表的なものを1種類ずつ紹介したいと思います。

結合処理に使用するCSV読み込みとオプションの説明

使用するデータは、郵便番号データ（ken_all）と、ローマ字表記の郵便番号データ（ken_all_rome）の2つを利用したいと思います。

新たに利用するローマ字表記の郵便番号データは以下のようなデータとなります。

ローマ字表記の郵便番号データの各列は、下記のように定義されています。

郵便局HPより引用（https://www.post.japanpost.jp/zipcode/dl/readme_ro.html）

ローマ字表記の郵便番号データを読み込むにあたり、下記のコードを追加しました。

本記事の初めに利用していた郵便番号データと異なる点は、下記の①です。

これから使用するローマ字表記の郵便番号データの全ての列を文字列として認識させるために、列のデータ型に'object'を利用しました。（①）

# ローマ字
ken_all_rome_column_names = [
    "郵便番号（7桁）",
    "都道府県名_漢字",
    "市区町村名_漢字",
    "町域名_漢字",
    "都道府県名_ローマ",
    "市区町村名_ローマ",
    "町域名_ローマ",
]


# CSV読み込み
ken_all_rome = pd.read_csv(os.path.join(base_dir, 'KEN_ALL_ROME.CSV'),
                           encoding='cp932',                  # エンコード
                           names=ken_all_rome_column_names,   # 列名を指定
                           dtype='object',                    # データタイプ　－－－－－①
                           header=None)                       # 1行目をヘッダーとして扱わない

CSVファイルを結合する（内部結合）

指定したデータのキー情報をもとに、双方のデータを一つのデータフレームとして取得することが出来ます。

結合には、複数のやり方があり、得られる結果が異なります。

内部結合（inner）：両方のデータに含まれるキーだけを残す。どちらか一方にのみ含まれている場合は、削除される。
外部結合（outer）：全てのキーを残す
左外部結合（left）：1つ目のデータのキーを全て残す
右外部結合（right）：2つ目のデータのキーを全て残す

下記のように、leftに1つ目のデータフレームを、rightに2つ目のデータフレームを設定します。

onには、結合に使用する列名を指定します。

howには、上記の結合のパターンを指定します。省略した場合は、内部結合が使用されます。

# 結合処理を行う
pd.merge(left, right, on='key', how='left')

今回は、内部結合のパターンをご紹介したいと思います。

日本語表記の郵便番号とローマ字表記の郵便番号データを内部結合します。

内部結合では、それぞれの郵便番号（7桁）が存在するデータのみが結合されます。

どちらか一方にのみ存在するデータは結合されません。

# CSVファイルを結合（内部結合）する
pd.merge(ken_all, ken_all_rome, on='郵便番号（7桁）', how='inner')

郵便番号（7桁）をキーとして、結合した結果が以下となります。

ファイルの左側（B列～P列）は、日本語表記の郵便番号データが出力されており、

ファイルの右側（Q列～V列）に、ローマ字表記の郵便番号データが出力されています。

■ファイルの左側を出力した図

■ファイルの右側を出力した図

CSVファイルを連結する（縦方向）

複数データをつなぎ合わせるような操作は、concat関数を用いて行います。

concat関数では、縦方向または横方向など軸となる方向を指定してつなぎ合わせることが出来ます。

連結するデータフレームに制限はなく、複数指定することができます。

# データを連結する
pd.concat([データフレーム1, データフレーム2, ...], axis=1)

オプションであるaxisには、軸を設定します。軸は、下記のように設定します。

未指定の場合は、縦方向に連結されます。

縦方向の連結：axis=0 または axis='index'
横方向の連結：axis=1 または axis='columns'

今回は、縦方向による連結処理をご紹介したいと思います。

連結処理に使用するCSV読み込み

本記事の『条件に適合する行を抽出する』の中では全国の郵便番号が全て格納されたものを利用していました。

連結処理の説明で使用するデータは、郵便番号データが県ごとにわかれたものを利用して行いたいと思います。

各都道府県毎に分かれたCSVファイルは、下記よりダウンロード可能です。

郵便局HPより引用（https://www.post.japanpost.jp/zipcode/dl/kogaki-zip.html）

全国一括のCSVデータと異なる点は、県毎にデータが分かれていることのみで、データの形式は変わりありません。

以下のように、県ごとに分けてデータを読み込んだデータを連結していきます。

# 福岡県データを読み込み
fukuoka = pd.read_csv(os.path.join(base_dir, 'fukuoka.CSV'),
                      encoding='cp932',
                      names=column_names,
                      dtype=data_types,
                      header=None)




# 佐賀県データを読み込み
saga = pd.read_csv(os.path.join(base_dir, 'saga.CSV'),
                   encoding='cp932',
                   names=column_names,
                   dtype=data_types,
                   header=None)

縦方向に連結する

福岡県と佐賀県のデータを縦方向に連結します。

縦方向の連結では、福岡県と佐賀県それぞれに存在する行が連結され、それぞれの行データが足し合わされたデータを取得することが出来ます。

# 縦方向に連結する
pd.concat([fukuoka, saga], axis='index')

連結した結果は下記のように福岡県のデータの後に佐賀県のデータが連結されました。

フィルタの選択肢に、佐賀県（ｻｶﾞｹﾝ）と福岡県（ﾌｸｵｶｹﾝ）の2県が表示されています。

終わりに

Pandasにおけるデータ処理の基本的な操作をピックアップしてご紹介させて頂きましたが、いかがだったでしょうか。

少ないコード量で、効率的に処理が行えることが少しでもお分かり頂けたと思います。

今回紹介させて頂いたいくつかの例を通して、Pandasでこんなことが簡単に出来るのかと知って頂けましたら幸いです。

これだけ簡単にデータ操作ができれば、本当にやりたい事のみに注力することが出来ますね。

本当にやりたいことのみに注力できれば、おのずと生産性が上がってくるのではないでしょうか。

みなさんも生産性をガンガン上げていきましょう！

Python 関連技術記事

一緒に開発しませんか？

サンビット株式会社では、開発技術者を募集しています！
興味のある方はぜひお問い合わせください。

サンビット株式会社　採用サイト

by サンビット株式会社
08:55

«5月»
日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

BLOG

Pythonとデータフレームについて

Python 関連技術記事

一緒に開発しませんか？

カレンダー

最近のエントリー

カテゴリーリスト

アーカイブ

ブログ内検索

採用情報

«5月»
日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

«5月»
日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

«5月»
日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31