Detailed Information

Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

쿠쿠 필터 유사도를 적용한 다중 필터 분산 중복 제거 시스템 설계 및 구현Design and Implementation of Multiple Filter Distributed Deduplication System Applying Cuckoo Filter Similarity

Other Titles
Design and Implementation of Multiple Filter Distributed Deduplication System Applying Cuckoo Filter Similarity
Authors
김영아김계희김현주김창근
Issue Date
Oct-2020
Publisher
중소기업융합학회
Keywords
분산중복제거; 빅 데이터; 쿠쿠 해시; 다중계층 쿠쿠 필터; 소프트웨어 스토리지; Distributed Deduplication; Big Data; Cuckoo Hash; Multilayer Cuckoo Filter; Software Storage
Citation
융합정보논문지, v.10, no.10, pp 1 - 8
Pages
8
Indexed
KCI
Journal Title
융합정보논문지
Volume
10
Number
10
Start Page
1
End Page
8
URI
https://scholarworks.gnu.ac.kr/handle/sw.gnu/7150
DOI
10.22156/CS4SMB.2020.10.10.001
ISSN
2586-1816
2586-4440
Abstract
최근 몇 년 동안 기업이 수행하는 비즈니스 활동에서 생성된 데이터를 기반으로 하는 기술이 비즈니스 성공의 열쇠로 부상함에 따라 대체 데이터에 대한 저장, 관리 및 검색 기술에 대한 필요성이 대두되었다. 기존 빅 데이터 플랫폼 시스템은 대체 데이터인 비정형 데이터를 처리하기 위해 실시간으로 생성된 대량의 데이터를 지체 없이 로드하고 중복 데이터 발생 시 서로 다른 스토리지의 중복 제거 시스템을 활용하여 스토리지 공간을 효율적으로 관리해야 한다. 본 논문에서는 빅 데이터의 특성을 고려하여 쿠쿠 해싱 필터 기법의 유사도를 이용한 다중 계층 분산 데이터 중복 제거 프로세스 시스템을 제안한다. 가상 머신 간의 유사성을 쿠쿠 해시로 적용함으로써 개별 스토리지 노드는 중복 제거 효율성으로 성능을 향상시키고 다중 레이어 쿠쿠 필터를 적용하여 처리 시간을 줄일 수 있다. 실험 결과 제안한 방법은 기존 블룸 필터를 이용한 중복 제거 기법에 의해 8.9%의 처리 시간 단축과 중복 제거율이 10.3% 높아짐을 확인하였다.
The need for storage, management, and retrieval techniques for alternative data has emerged as technologies based on data generated from business activities conducted by enterprises have emerged as the key to business success in recent years. Existing big data platform systems must load a large amount of data generated in real time without delay to process unstructured data, which is an alternative data, and efficiently manage storage space by utilizing a deduplication system of different storages when redundant data occurs. In this paper, we propose a multi-layer distributed data deduplication process system using the similarity of the Cuckoo hashing filter technique considering the characteristics of big data. Similarity between virtual machines is applied as Cuckoo hash, individual storage nodes can improve performance with deduplication efficiency, and multi-layer Cuckoo filter is applied to reduce processing time. Experimental results show that the proposed method shortens the processing time by 8.9% and increases the deduplication rate by 10.3%.
Files in This Item
There are no files associated with this item.
Appears in
Collections
ETC > Journal Articles

qrcode

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.

Related Researcher

Researcher Kim, Chang Geun photo

Kim, Chang Geun
IT공과대학 (컴퓨터공학부)
Read more

Altmetrics

Total Views & Downloads

BROWSE