Data 준비

Microsoft Excel에서 데이터 준비

데이터 준비하기

Microsoft Excel을 이용한 데이터 준비

분석을 위해 Microsoft Excel 파일을 로드하기 전에, 데이터 스프레드시트가 불필요한 정보를 포함하지 않고 올바른 구조를 갖추었는지 확인하는 것이 중요합니다. 분석에 적합한 데이터 형식을 만들기 위해 실행할 수 있는 작업에는 컨텍스트 정보를 제거하고 컬럼을 결합하는 과정이 포함됩니다.

Excel 스프레드시트의 데이터는 분석을 위한 데이터 테이블로 변환될 때, 스프레드시트 상의 첫 번째 행이 데이터 컬럼의 이름으로, 그 다음 행들이 데이터 값으로 사용됩니다.

컨텍스트 정보 제거하기

실제 데이터 테이블 위에 추가된 컨텍스트 정보는 데이터를 잘못 해석하게 만들 수 있습니다. 따라서 분석을 시작하기 전에 이러한 컨텍스트 정보를 제거하는 것이 좋습니다. 제거 후의 데이터는 실제 데이터 집합만을 포함하게 되어, 원하는 형식으로

컬럼 결합하기

데이터는 동일한 정보를 포함하고 있음에도 불구하고, 다양한 형태(짧고 넓은 형태 또는 길고 얇은 형태)로 구성될 수 있습니다. 때로는 데이터를 길고 얇은 형태로 구성하는 것이 시각화를 더 쉽게 만들 수 있습니다. Excel에서 데이터를 직접 조작할 수 있으며, 이는 Spotfire에서 컬럼을 언피벗하는 것과 유사한 작업을 수행하는 것입니다.

예를 들어, 여러 데스크에서 판매된 입장 티켓의 수를 포함하는 Excel 스프레드시트가 있을 수 있습니다. 이 데이터가 처음에는 여러 컬럼에 걸쳐 짧고 넓게 배열되어 있지만, 데스크의 값을 하나의 컬럼으로 결합하여 길고 얇은 형식으로 재구성할 수 있습니다.

이와 같이 Excel에서 사전 데이터 준비 작업을 통해, 분석에 적합한 구조의 데이터를 생성할 수 있으며, 이후에 Spotfire 같은 분석 도구로 로드하여 더 효율적으로 데이터 분석을 수행할 수 있습니다.

Microsoft Excel 파일을 분석으로 로드하기 전에 데이터 스프레드시트에 관련 없는 정보가 없으며 잘못된 해석을 방지하기 위한 적절한 구조를 가졌는지 확인하는 것이 중요합니다. 데이터를 로드하기 전에 수행 가능한 작업으로는 컨텍스트 정보를 제거하고 컬럼을 하나로 결합하는 작업입니다.

Excel 스프레드시트의 테이블 형식 데이터는 분석에서 데이터 테이블로 표현됩니다. 스프레드시트에서 데이터가 있는 첫 번째 행은 테이블에서 데이터 컬럼의 이름으로 해석되며, 그 뒤의 행은 데이터 행으로 해석됩니다.

컨텍스트 정보 제거

다음은 실제 데이터 테이블 위에 컨텍스트 정보가 포함된 스프레드시트입니다. 이로 인해 데이터가 잘못 해석될 수 있습니다.

Category	Date	Michael Johnson	Emily Smith	David Williams	Jessica Brown	kangmin
Mango	5/1/2012	62	19	26	111	34
Apple	5/1/2012	20	6	5	11	8
Banana	5/1/2012	102	47	42	6	49
Kiwi	5/2/2012	74	35	37	4	65

좋은 결과를 얻기 위해 데이터를 로드하기 전에 컨텍스트 정보를 제거합니다. 아래 시트에는 실제 데이터 집합 앞에 컨텍스트 정보가 없으므로 올바르게 해석됩니다.

컬럼 결합

데이터는 같은 정보가 포함되어 있더라도, 짧고 넓게 또는 길고 얇게와 같이 다양한 방식으로 구성될 수 있습니다. 경우에 따라 길고 얇은 형식으로 구성된 데이터의 시각화가 더 쉬울 수 있습니다. Spotfire에서 컬럼을 언피벗하여 데이터를 변환할 수 있지만, 이 작업을 Excel에서 하는 것이 더 익숙한 경우 데이터를 Spotfire로 업로드하기 전에 이 작업을 할 수도 있습니다.

예를 들어 다음 Excel 스프레드시트에는 데스크 5곳에서 판매된 입장 티켓의 수가 포함되어 있습니다. 데이터가 짧고 넓은 형식으로 구성되어 있습니다. 즉, 스프레드시트에는 비슷한 데이터가 포함된 여러 개의 컬럼이 있습니다.

아래 스프레드시트에서는 동일한 데이터가 길고 얇은 형식으로 구성되어 있습니다. 데스크의 값이 하나의 컬럼으로 결합되었습니다.