JJ's blog

데이터 통합 (DI, Data Integration) 본문

Technology

데이터 통합 (DI, Data Integration)

Jayden_Ji 2021. 3. 29. 22:55
기업 내 산재되어 있는 다양한 데이터 소스들과 시스템, 애플리케이션 등으로부터 데이터를 모으고, 이 데이터들이 가치있고 재사용 가능한 정보, 즉 “지능적인 정보”가 되도록 만들어 주는 과정. 현재 기업내의 방대한 양의 데이터가 다양한 형태로 곳곳에 산재해 있어 부분적으로만 효용가치가 있을 뿐, 전사적으로 즉각적인 활용이 가능한 데이터가 되지 못하고 있는 경우가 많다. DI 에서는 데이터 소스에 질의를 보내면 그 질의는 네트워크를 돌아 다니면서 XML 문서, 전자우편, 멀티미디어 파일 등 구조화 데이터와 비구조화 데이터들을 모두 한 곳에 저장돼 있는 것처럼 가상 데이터베이스를 구축해 줌으로써 데이터를 복제하거나 애플리케이션의 기존 소스를 변경하지 않고도 즉시로 이용할 수 있게 한다. 미리 계획되지 않고 정기적으로 반복되지 않는 물음에 신속한 대답을 얻을 수 있다는 것이 강점이다. 

[네이버 지식백과] 데이터 통합 [Data Integration, -統合] (IT용어사전, 한국정보통신기술협회) 
데이터 통합(DI)은 데이터의 추출, 변환, 적재를 위한 ETL 솔루션이 핵심인데 ETL 솔루션을 활용하면 일일이 수많은 데이터를 기업 데이터 포맷으로 코딩하지 않아도 되고 데이터 품질을 제고할 수 있기 때문에 DI는 빅데이터 환경에 꼭 필요한 데이터 솔루션으로 평가받고 있는 단계까지 진입되었다
:: ko.wikipedia.org/wiki/%EB%B9%85_%EB%8D%B0%EC%9D%B4%ED%84%B0
대표적인 내부 데이터 수집 방법으로는 ETL(Extraction, Transformation, Loading)이 있다. ETL이란 다양한 소스 시스템으로부터 필요한 데이터를 추출(extract)하여 변환(transformation) 작업을 거쳐 저장하거나 분석을 담당하는 시스템으로 전송 및 적재(loading)하는 모든 과정을 포함한다. 대부분의 ETL 연산은 중복을 제거하고 일관성을 확보하기 위한 정제를 포함한다. 예를 들어, 성별에서 ‘남’은 ‘M’, ‘man’, ‘male’, ‘1’ 등으로 표현될 수 있는데, 이것들을 모두 동일한 것으로 인식하여 한결같이 ‘M’으로 표현하는 것이 일관성 확보를 위한 정제의 예가 된다.

[네이버 지식백과] ETL과 크롤링 엔진 (빅데이터 플랫폼 전략, 2013. 2. 11., 황승구, 최완, 허성진, 장명길, 이미영, 박종열, 원희선, 김달)

 

 실제 회사에서 간단한 데이터들부터 복잡한 데이터들까지 많은 데이터들이 만들어지고 사장된다. 만들어진 데이터들이 재사용되지 않는다면 끊임없는 양식이 생겨나고 반복적으로 데이터를 생성해내야되기에 공수 낭비가 되기 십상이다. 

데이터 통합은 추출 Extract, 변환 Transform, 적재 Load를 통해 이루어지게되는데 확장 가능성이 고려되지 않는 데이터는 3가지 요소를 모두 만족시키지 못한다. 

 

 


ETL(Extraction, Transformation, Loading)

 


데이터웨어하우스(DW, Data Warehouse)
데이터 마이닝(Data Mining)
데이터 파이프라인 Data Pipeline

 

외계생명(Extraterrestrial life)

Comments