大量のデータを分析する過程で、行と列を追加したり、一部の行と列を削除したりする必要がある場合があります。
今日は、データ分析の5番目のレッスンを紹介し、Pythonでデータフレームを更新する方法を説明します。
この記事の内容
注:この記事では、データ分析の最初のレッスンでデータフレームdate_frameを使用します[[Pythonデータ分析-データ作成](http://mp.weixin.qq.com/s?__biz=MzIxMjA1NzQzMQ==&mid=2247485128&idx=1&sn=64a6f87a16fa3cd41dadfcfea2f76787&chksm=974aaaf0a03d23e69179350c6fd900a2ba12d34c0a82426654fb76b5315e0936251d307375f1&scene=21#wechat_redirect)]:
** 1 データフレームの最後に行を追加します**
元のデータフレームに行を追加する場合、最初にその行に対応する辞書を定義できます。具体的な文は次のとおりです。
new_row ={'ID':['1000009'],'name':['唐の詩'],'gender':['女性'],'age':[21],'height':[1.68]}
注:形式は元のデータフレームと一致している必要があります。
append関数を使用して、新しい行を元のデータフレームに追加します。具体的なステートメントは次のとおりです。
new_row1 = pd.DataFrame(new_row)
date_frame.append(new_row1)
結果は次のとおりです。
** 2 データフレームに列を挿入します**
データフレームに行を追加できるため、データフレームに列を追加することもできます。挿入機能を使用して、データフレームの任意の場所に列を追加できます。
たとえば、データフレームの最初の列に新しい列を挿入する場合は、次のステートメントをpythonで実行できます。
date_frame.insert(0,'calss',['class1','class1','class1','class1','class2','class2','class2','class2','class2'])
結果は次のとおりです。
その中で、.insertの0は新しく挿入された列の位置を表し、「calss」は新しく追加された列の名前を表し、['class1'、...、 'class2']は新しく追加された列の内容を表します。追加される新しい列に注意してください。元のデータフレームの長さは同じです。
データフレームに行と列を追加できるため、データフレームの行と列を削除することもできます。まず、データフレームの行を削除する方法を見てください。
** 3 データフレームの行を削除します**
ドロップ機能を使用して、1つまたは複数の行を削除できます。
最初に特定のコードを見て、最初の行を削除します。
date_frame.drop([0])
結果は次のとおりです。
. drop([0])は、インデックス番号が0の行(最初の行)を削除することを意味します。他の行を削除するには、0を対応する行のインデックス番号に変更します。
次に、特定のコードを見て、1行目と5行目を削除します。
date_frame.drop([0,4])
結果は次のとおりです。
. drop([0,4])は、実際には1行目と5行目を表すインデックス番号0と4の行を削除することを意味します。
さらに行を削除するには、2行を削除するためのコードを参照できます。
** 4 データフレームの列を削除**
ドロップ機能を使用して列を削除することもできます。最初に特定のコードを見て、名前の列を削除します。
date_frame.drop(columns ='name')
date_frame.drop('name', axis =1) #axis =1はカラムを操作することを意味します
結果は次のとおりです。
名前列と性別列を削除する場合は、次のコードを入力できます。
date_frame.drop(columns =['name','gender'])
date_frame.drop(['name','gender'], axis =1)
結果は次のとおりです。
複数の列を削除するためのコードは、2つの列を削除するためのコードを参照することもできます。
** 5 特定の条件を満たす行を削除する**
18歳を超えるすべてのレコードを削除する場合、pythonで次のステートメントを入力できます。
date_frame.drop(index =(date_frame.loc[(date_frame.age>18)].index))
結果は次のとおりです。
その中で、.loc [(date_frame.age> 18)]。indexは、年齢が18を超えるインデックスを表します。
この時点で、pythonでのデータフレームの変更の導入は完了しています。これを練習して、データフレームに対して他の操作を実行できるかどうかを考えることができます。
Recommended Posts