dataframe踩坑笔记(2):表格合并、拼接
1. 表格简单合并
1.1按行合并(上下合并):
import numpy as np df1= pd.DataFrame(np.random.randn(4),columns=["a"]) df2= pd.DataFrame(np.random.randn(4),columns=["b"])
df3=pd.concat([df1,df2],axis=0)
df4=pd.concat([df1,df2],axis=1)
如果两个dataframe长度不一致,缺少的部分用nan补齐:
df2= pd.DataFrame(np.random.randn(6),columns=["a"])
df4=pd.concat([df1,df2],axis=1)
2. 按某一列作为索引拼接:
方法1为简单粗暴的合并,两个表格之间没有共性,如果两个表格存在相同部分,需要根据某一列作为索引进行合并,需要用到pd.merge()函数,内容比较多,参考这篇文章。
代码格式如下:
pd.merge(left, right, how='inner',on=None, left_on=None, right_on=None,left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None,)
一般用到left, right, how='inner',on=None, left_on=None, right_on=None,left_index=False, right_index=False, suffixes=('_x', '_y')比较多,需要指出的一点是:括号里面的left也可以拿出来,变成left.merge(right)