0으로 채워진 팬더 데이터 프레임 만들기

Nice programing

0으로 채워진 팬더 데이터 프레임 만들기

nicepro 2020. 10. 29. 19:55

0으로 채워진 팬더 데이터 프레임 만들기

주어진 크기의 0으로 채워진 팬더 데이터 프레임을 만드는 가장 좋은 방법은 무엇입니까?

나는 사용했다 :

zero_data = np.zeros(shape=(len(data),len(feature_list)))
d = pd.DataFrame(zero_data, columns=feature_list)

더 나은 방법이 있습니까?

이것을 시도 할 수 있습니다.

d = pd.DataFrame(0, index=np.arange(len(data)), columns=feature_list)

내 의견으로는 numpy로 이것을하는 것이 가장 좋습니다.

import numpy as np
import pandas as pd
d = pd.DataFrame(np.zeros((N_rows, N_cols)))

@Shravan과 비슷하지만 numpy를 사용하지 않습니다.

  height = 10
  width = 20
  df_0 = pd.DataFrame(0, index=range(height), columns=range(width))

그런 다음 원하는대로 할 수 있습니다.

post_instantiation_fcn = lambda x: str(x)
df_ready_for_whatever = df_0.applymap(post_instantiation_fcn)

새 데이터 프레임이 기존 데이터 프레임과 동일한 인덱스 및 열을 갖도록하려면 기존 데이터 프레임에 0을 곱하면됩니다.

df_zeros = df * 0

이미 데이터 프레임이있는 경우 다음이 가장 빠른 방법입니다.

In [1]: columns = ["col{}".format(i) for i in range(10)]
In [2]: orig_df = pd.DataFrame(np.ones((10, 10)), columns=columns)
In [3]: %timeit d = pd.DataFrame(np.zeros_like(orig_df), index=orig_df.index, columns=orig_df.columns)
10000 loops, best of 3: 60.2 µs per loop

비교 :

In [4]: %timeit d = pd.DataFrame(0, index = np.arange(10), columns=columns)
10000 loops, best of 3: 110 µs per loop

In [5]: temp = np.zeros((10, 10))
In [6]: %timeit d = pd.DataFrame(temp, columns=columns)
10000 loops, best of 3: 95.7 µs per loop

여기에 0 값을 입력하여 복사하려는 템플릿 DataFrame이 있다고 가정합니다.

데이터 세트에 NaN이없는 경우 0을 곱하면 훨씬 빠를 수 있습니다.

In [19]: columns = ["col{}".format(i) for i in xrange(3000)]                                                                                       

In [20]: indices = xrange(2000)

In [21]: orig_df = pd.DataFrame(42.0, index=indices, columns=columns)

In [22]: %timeit d = pd.DataFrame(np.zeros_like(orig_df), index=orig_df.index, columns=orig_df.columns)
100 loops, best of 3: 12.6 ms per loop

In [23]: %timeit d = orig_df * 0.0
100 loops, best of 3: 7.17 ms per loop

개선은 DataFrame 크기에 따라 다르지만 속도가 느리다는 것을 알 수 없습니다.

그리고 그것을 위해 :

In [24]: %timeit d = orig_df * 0.0 + 1.0
100 loops, best of 3: 13.6 ms per loop

In [25]: %timeit d = pd.eval('orig_df * 0.0 + 1.0')
100 loops, best of 3: 8.36 ms per loop

그러나:

In [24]: %timeit d = orig_df.copy()
10 loops, best of 3: 24 ms per loop

편집하다!!!

Assuming you have a frame using float64, this will be the fastest by a huge margin! It is also able to generate any value by replacing 0.0 to the desired fill number.

In [23]: %timeit d = pd.eval('orig_df > 1.7976931348623157e+308 + 0.0')
100 loops, best of 3: 3.68 ms per loop

Depending on taste, one can externally define nan, and do a general solution, irrespective of the particular float type:

In [39]: nan = np.nan
In [40]: %timeit d = pd.eval('orig_df > nan + 0.0')
100 loops, best of 3: 4.39 ms per loop

참고URL : https://stackoverflow.com/questions/22963263/creating-a-zero-filled-pandas-data-frame

'Nice programing' 카테고리의 다른 글

명명 된 문자형 벡터를 data.frame으로 변환 (0)	2020.10.29
Node.js http get 요청에서 데이터를 가져 오는 방법 (0)	2020.10.29
XAMPP에서 가상 호스트를 만드는 방법 (0)	2020.10.29
OAuth 권한 부여 및 인증 (0)	2020.10.29
Fedora 29 업그레이드 후 Slack이 분할 오류를 반환하는 이유는 무엇입니까? (0)	2020.10.29

현재글0으로 채워진 팬더 데이터 프레임 만들기

nicepro

0으로 채워진 팬더 데이터 프레임 만들기

0으로 채워진 팬더 데이터 프레임 만들기

'Nice programing' 카테고리의 다른 글

'Nice programing'의 다른글

티스토리툴바

0으로 채워진 팬더 데이터 프레임 만들기

0으로 채워진 팬더 데이터 프레임 만들기

'Nice programing' 카테고리의 다른 글

'Nice programing'의 다른글

관련글

티스토리툴바