[pandasの使い方] 24. pandasにおける文字列の操作

Pandas
スポンサーリンク
スポンサーリンク

pandasにおける文字列の操作について

DataFrameで文字列を操作する

pandasはnumpyよりも柔軟に文字列を操作できるので、その文字列の操作方法について説明する。

リスト中の文字列の操作

ここでは、capitalize(先頭の一文字を大文字にして、それ以下を小文字にする)を行っている。リストの場合、一回の操作で全てcapitalizeできないので、for文でやることになる。

欠損値があると、エラーとなり、#AttributeError: ‘NoneType’ object has no attribute ‘capitalize’が返ってくる。

pandasの場合

pandasの場合、dataをSeries化して、.str.capitalize()することで、エラーなく、capitalizeすることができる。

names.str.cat()で全ても文字列を結合することができる。

.str.len()で文字列のサイズを得ることができる。

.str.upper()ですべて大文字にすることができる。

.str.endswith(‘a’)で文字列の最後がaのものをTrueとできる。

正規表現を使ったメソッド

taniku.str.extract(‘([A-Z])’)でAからZ(大文字)のみを抽出することができる。小文字も含めたい場合は、.str.extract(‘([A-Za-z]+)’)のようにする。

文字列のスライス

.str[0:5]とすることで、各文字列の先頭から5コまでを抽出できる。

スポンサーリンク

参考

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

スポンサーリンク
Pandaspython
スポンサーリンク
この記事をシェアする
sabopy.comをフォローする
スポンサーリンク
サボテンパイソン

コメント