利用Python进行数据分析

归拢数据集

pandas.merge依照多个或多个键连接差异的DataFrame。(相似数据库连接的内连接外连接左右总是等)
pandas.concat沿着一条轴把两个对象聚成堆起来。
combine_first用二个指标的值填充到另八个目标的缺点和失误值。(补充到这些指标上)

pandas.merge合并

pd.merge(df1,df2,on='key'):依据key那列连接(df1,df2都有key列)。
pd.merge(df1,df2,left_on='lkey',right_on='rkey'):依照左侧包车型地铁lkey和右臂的rkey举办接二连三。
暗中认可进行的是内一连,即得到交集,左右key值单唯有的都去掉了。

亟需修正时利用参数how,如:how='outer',how='left',how='right默认是how='inner'。
根据多少个键合併:on=['key1','key2'](相符把将key1和key2四个键组合在同步,当成单个连接键)
重复列名的管理:比如五个列名相像,用了此中多少个(key1)作为on连接,那么其余那列(key2)确定就不能够用雷同的名字。能够利用参数suffixes=('_left','_right'卡塔尔(قطر‎就会在新变化的列key2_left和key2_right。

数量规整化

直白获取的数据超越四分之二是无法平素运用的,所以要求通过清理调换等等,这一步就是数量规整化。

目录上的集合

偶然候候用的并非列来统风华正茂,有的时候候使用的是索引。那么就要用到left_index=True或right_index=True(或然五个都传卡塔尔表达索引被用来一连。写法如:pd.merge(left1,right1,left_on='key',right_index=True)

本来除了上边说的这种,还足以选取DataFrame的join方法。left2.join(right2,how='outer')不等的是,它默许的是左连接。
也能兑现DataFrame的列与索引的接连:`left1.join(right1,on='key'卡塔尔(قطر‎实现left1的key列和right1的目录连接。

集结重叠数据

怎样看头呢?先看下NumPy中的where函数np.where(pd.isnull(a),b,a),你势必已经能从字面上明白那几个的意思了,就是对a推断假设为null则取b的数据,不然的话取a。
而pandas中对于DataFrame和Series有combine_first方法df1.combine_first(df2):对于df1中缺点和失误值用df2补充。应该很好通晓呢~

轴向连接

复杂的轴向上连接使用concat函数,相关参数如下:

参数 说明
objs 参与连接的pandas对象的列表或字典。唯一必须的参数
axis 指明连接的轴向,默认为0
join "inner" , "outer“其中之一默认为“outer二指明其他轴向上的索引是按交集(inner)还是并集(outer)进行合并
join_axes 指明用于其他n-t条轴的索引.不执行并集/文集运算
keys 与连接对象有关的值,用于形成连接轴向上的层次化索引。可以是任意值的列表或数组、元组数组、数组列表(如果将levels设置成多级数组的话)
levels 指定用作层次化索引各级别上的索引,如果设里了keys的话
names 用于创建分层级别的名称.如果设置了keys和(或)levels的话
verify_integrity 检查结果对象新轴上的重复情况.如果发现则引发异常。默认 (False)允许重复
ignore_index 不保留连接轴上的索引,产生一组新索引range(total_length)

总结

本章主要讲的是数量规整化中的数据的集结连接!前面再跟着学习其余的局地操作。

本文由澳门新葡萄京所有网站发布于澳门新葡萄京所有网站,转载请注明出处:利用Python进行数据分析

TAG标签:
Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。