데이터베이스의 필요성
데이터 : 현실 세계에서 단순히 관찰하거나 측정하여 수집한 사실이나 값으로 자료라고도 한다.
정보 : 데이터를 의사 결정에 유용하게 활용할 수 있도록 처리하여 체계적으로 조직한 결과물.
가치 있는 정보를 얻으려면 현재 상황을 정확히 관찰하고 측정하여 의미 있는 데이터를 많이 수집해야 한다.
그리고 수집한 데이터를 효율적으로 저장했다가 필요할 때 언제든 사용할 수 있어야 한다.
따라서 유용하게 활용할 수 있는 정보를 정확히 추출할 수 있도록 데이터를 대신 관리해 주는 데이터베이스가 필요하다.
데이터베이스의 정의와 특징
데이터베이스 : 특정 조직의 여러 사용자가 '공유'하여 사용할 수 있도록 '통합'해서 '저장'한 '운영' 데이터의 집합.
데이터베이스의 정의 4가지
- 공유 데이터 : 특정 조직의 여러 사용자가 함께 소유하고 이용할 수 있어야 하는 공용 데이터.
- 통합 데이터 : 데이터의 중복을 최소화하고 통제가 가능한 중복만 허용하는 데이터.
- 저장 데이터 : 주로 컴퓨터가 처리, 컴퓨터가 접근할 수 있는 매체에 데이터베이스를 저장.
- 운영 데이터 : 조직을 운영하고 조직의 주요 기능을 수행하기 위해 필요.
데이터베이스의 특징 4가지
- 실시간 접근성 : 사용자의 데이터 요구에 실시간으로 응답.
- 계속 변화 : 데이터를 계속 삽입, 삭제, 수정하여 현재의 정확한 데이터를 유지.
- 동시 공유 : 여러 사용자가 서로 다른 데이터를 동시에 사용하는 것뿐 아니라 같은 데이터를 동시에 사용하는 것도 모두 지원.
- 내용 기반 참조 : 저장된 주소나 위치가 아닌 데이터의 내용, 값으로 참조.
데이터 과학 시대의 데이터
나에게 맞는 데이터를 수집하기 위해서는 먼저 수집 대상이 되는 데이터의 유형을 파악하고 있어야 한다.
그리고 유형별로 저장 및 처리 기술을 적합하게 선택하는 것이 중요하다.
형태에 따른 데이터 분류
- 정형 데이터 : 구조화된 데이터, 미리 정해진 구조에 따라 저장된 데이터.
- 반정형 데이터 : 구조에 따라 저장된 데이터, 데이터 내용 안에 구조에 대한 설명이 함께 존재.
- 비정형 데이터 : 정해진 구조가 없이 저장된 데이터.
특성에 따른 데이터 분류
- 범주형 데이터 : 범주로 구분할 수 있는 값, 종류를 나타내는 값을 가진 데이터.
- 명목형 데이터 : 서열이 없는 값을 가지는 데이터.
- 순서형 데이터 : 서열이 있는 값을 가지는 데이터.
- 수치형 데이터 : 양적 측면에서 크기 비교와 산술적인 연산이 가능한 숫자 값을 가진 데이터.
- 이산형 데이터 : 단절된 숫자 값을 가지는 데이터.
- 연속형 데이터 : 연속적으로 이어진 숫자 값을 가지는 데이터.
반응형