본문 바로가기
반응형

분류 전체보기233

데이터 전처리의 핵심은 apply 이다. [ 데이터프래임, DataFrame ] 우리는 간단한 데이터를 보기 좋게 확인할 때 엑셀(Excel)을 사용한다. 그리고 엑셀에 데이터를 시트(Sheet)에 넣어서 집계를 한다. 하지만 엑셀은 행x열에 한계가 있다. 1,048,576행x16,384열이 전부 차면 더 이상 값을 넣을 수 없다. 그래서 데이터 사이언티스트는 데이터프래임을 사용하기 시작했다. 왜냐? 데이터프래임에는 한계가 없기 때문이다. 데이터 프래임의 한계라면 메모리이다. 결국 메모리가 버텨주는한 데이터는 계속 넣을 수 있다. 그리고 이 데이터프래임을 정말 편하게 사용하게 해주는 도구가 있다. 그것이 바로 판다스(Pandas)다. 파이썬에서는 엑셀이 판다스가 되고, 시트가 데이터프래임이 된다. [ 판다스의 기능 찾기 ] 판다스(Pandas).. 2020. 4. 22.
python groupby로 그룹끼리 한줄 정리하기 [ 데이터 그룹 하기 ] 파이썬에서 엑셀처럼 데이터를 사용할 때 나는 데이터프래임(DataFrame) 타입으로 데이터를 만들어서 주물럭 거린다. 그러다 보면 데이터를 그룹끼리 묶어야 하는 순간이 온다. SQL을 사용할때 사용해본 Group by와 같은 기능이 필요하다. 먼저 예제로 데이터를 생성해 보겠다. df = pd.DataFrame(np.array([['사자', "1반", '어흥','010-1234-1234'], ['사자', "2반", '야옹','010-1234-4321'], ['늑대', "1반", '컹컹','010-4331-1234'], ['하마', "2반", '므허','010-1234-3567']]), columns=['종류', '반', '별명', "연락처"]) 왼쪽에 있는 데이터프레임으로 생성.. 2020. 4. 20.
동백꽃과 수선화 그리고 남쪽 마을 [ 국내 여행 ] 봄이라서 꽃이 보고 싶었다. 20대에는 눈에 밟히지도 않던 꽃들이 요즘에는 왜 이렇게 좋은지 모르겠다. 꽃집만 보면 집에 한두개 사서 놔두고 싶은 마음이 간절해진다. 나이가 드니까 꽃 사진만 하루에 10장이 넘는다. 왜 엄마 집의 포인트 벽지가 꽃인지 이제야 이해가 간다. 그러던 와중에 알게 된 동네가 있다. 남쪽 마을로 가자. [ 남쪽 마을 통영과 거제 여행 방법 ] 우리나라에서 꽃을 빨리 볼 수 있는 곳을 택했고 통영과 거제를 다녀오기로 했다. 먼저 네이버 지도에서 거리를 예측해봤다. 5시간 정도 운전하면, 도착하는 거리였다. 운전.... 운전.....을 되뇌었지만, 도착해서 차 없이 고통받는 거보다 편리를 생각하기로 했다. 그리고 가는 길이 너무 아름다워서 생각보다 힘들지 않았다... 2020. 4. 19.
반응형