Elk: 10개의 글
오늘 간단히 다루어볼 내용은 엘라스틱서치의 REST 자바 클라이언트인 Rest High Level Client를 이용하여 Index Template을 생성해보는 예제이다. 바로 예제로 들어간다. public void indexTemplate() throws IOException { String typeName = "_doc"; if(!existTemplate()) { try(RestHighLevelClient client = createConnection();){ PutIndexTemplateRequest templateRequest = new PutIndexTemplateRequest("log-template"); templateRequest.patterns(Arrays.asList("logstash-..
엘라스틱서치는 대량의 데이터를 처리하기 위해 기본적으로 데이터를 분산해서 처리한다. 검색요청이 발생하면 엘라스틱서치는 모든 샤드에게 브로드캐스트 방식으로 동시에 요청을 보내고 각각 샤드들이 데이터를 검색한후 결과를 반환하면 엘라스틱서치는 모든 결과를 취합하여 사용자에게 검색 결과를 전달한다. 이러한 동작 방식 때문에 제공되는 부가적인 환경설정값이 있다. 동적 분배 방식의 샤드 선택 엘라스틱서치는 부하 분산과 장애처리를 위하여 원본 샤드 + 복제 리플리카 샤드를 운영한다. 물론 원본 샤드와 복제 리플리카 샤드는 각각 다른 노드에 위치하게 된다. 그렇다면 위에서 엘라스틱서치는 검색요청시 모든 샤드에 브로드캐스트 방식으로 검색요청을 보낸다 했는데, 원본 샤드와 복제 리플리카 샤드 두개 모두에게 검색 요청이 갈..
엘라스틱서치는 인덱스에 저장된 문서를 검색할 수 있도록 다양한 검색기능을 제공한다. 문서는 색인시 설정한 Analyzer에 의해 분석과정을 거쳐 토큰으로 분리되는데, 이러한 Analyzer는 색인 시점 말고도 검색 시점에도 이용된다. 특정 문장이 검색어로 요청되면 분석기를 통해 분석된 토큰의 일치 여부를 판단하여 그 결과에 Score을 매긴다. 이러한 엘라스틱서치에서는 다양한 검색 조건을 주기위하여 Query DSL이라는 특수한 쿼리 문법을 제공한다. 1. 검색 API 문장은 색인 시점에 텀으로 분리된다. 검색 시에는 이 텀을 일치시켜야 검색이 가능하다. 엘라스틱서치는 루씬기반이기 때문에 색인 시점에 Analyzer를 통해 분석된 텀을 Term, 출현빈도, 문서번화와 같이 역색인 구조로 만들어 내부적으로..
ELK - Filebeat 란? 만약 많은 애플리케이션이 분산되어 있고, 각 애플리케이션이 로그 파일들을 생성한다고 생각해보자. 만약 해당 로그 파일을 하나의 서버에 일일이 ssh 터미널을 이용하여 로그 파일을 수집하는 것이 합리적인 행동일까? 만약 엄청난 규모의 서비스이고 분산되어 있는 서비스의 애플리케이션이 수백개라고 생각하면 ssh를 이용하는 방법은 생각하기도 싫은 방법일 것이다. 이런 상황에서 Filebeat는 로그와 혹은 파일을 경량화된 방식으로 전달하고 중앙 집중화하여 작업을 보다 간편하게 만들어 주는 역할을 한다. 다시한번 Elastic 공식 홈페이지에서 소개하는 Filebeat를 설명하자면, Filebeat는 로그 데이터를 전달하고 중앙화하기 위한 경량의 Producer이다. 서버에 에이전..
grok은 비정형 데이터를 파싱하여 정형데이터로 만드는 라이브러리다. key/value형태로 적재된다. 골때리는건 정규표현식쓰는 방법이 독특하다는 거다.. 참조문서 : https://www.elastic.co/guide/en/logstash/current/plugins-filters-grok.html 1. 기본문법 %{SYNTAX:SEMANTIC} SYNTAX = 텍스트와 일치하는 패턴의 이름 SEMANTIC = 식별자 (ex) %{NUMBER:duration} %{IP:client} (필터링) SEMANTIC SYNTAX 식별자 텍스트 (결과) 버전 3.44 클라이언트 1.1.1.1 2. 기존 패턴 라이브러리 https://github.com/elastic/logstash/blob/v1.4.0/patt..
centos 7을 기준으로 한다. jdk8이 필요하다. 참조문서: https://www.elastic.co/guide/en/logstash/5.4/index.html 1. 설치 curl -L -O https://artifacts.elastic.co/downloads/logstash/logstash-5.4.0.tar.gz tar -xvf logstash-5.4.0.tar.gz cd logstash-5.4.0/bin 테스트 ./logstash -e 'input { stdin { } } output { stdout {} }' input을하면 ouput이 출력된다. -e 는 명령창에 직접 코드치는 옵션이다. localhost:9600 에 들어가보면 json이 간단히 떠있다. 종료는 ctrl+d로 한다. {"ho..
현재 날짜기준 최신버전인 5.4를 설치해보자, 5.x부터 많이 바뀌어서 설치에 문제가 있었다. centos 7을 기준으로 한다. jdk8이 필요하다. 참조문서: https://www.elastic.co/guide/en/elasticsearch/reference/5.4/index.html 1. 설치 5.x부터는 root유저로 돌릴 수 없기때문에, 애초에 useradd를 통해 es_user를 만든 후 진행해야한다. curl -L -O https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.4.0.tar.gz tar -xvf elasticsearch-5.4.0.tar.gz cd elasticsearch-5.4.0/bin ./elasticsea..
키바나는 Elastic Stack의 일부분으로, 저장 계층인 Elastic Search에 색인된 데이터 위에서 시각화 계층을 제공합니다. 데이터는 다양한 형태와 규모로 다가옵니다. 통신 업계의 경우, 10만 개의 네트워크 디바이스에서 수집한 데이터로부터 서비스 품질을 분석하는 프로젝트는 흔히 볼 수 있습니다. - 빠르게 증가하는 데이터를 취급하기 위해 복잡성을 어떻게 줄일 것인가? - 가장 효과적이면서 실시간으로 데이터를 시각화하기 위해 조직은 어떻게 해야 할까? 대부분의 애플리케이션은 위치와 프로파일에 기반을 둔 추천 항목을 만드는데 관련된 다양한 기술 계층에서 데이터를 생산합니다. 이들 위에서 돌아가는 모든 컴퓨터와 프로세스와 애플리케이션은 CPU 틱이나 사용자의 클릭에 의해 효과적으로 시스템의 '현..
ELK스택 ElasticSearch를 실습하기 전에 ELK스택에 대해 알아보겠습니다. 데이터과학은 깊고 넓은 분야입니다. 분야가 다양하기때문에 데이터과학은 각 분야의 팀워크가 생명입니다. 아래는 데이터 과학을 구성하는 각각의 영역을 다이어그램으로 나타낸 그림입니다. 빅데이터 개발자는 어떤 데이터이든지 수집하고 빠르게 검색하고 데이터 무더기에서 쓸만한 정보를 보기좋게 시각화 할수 있어야 합니다. 오픈소스를 이용해 어떤 운영체제를 만나도 운영 가능하도록, 만약 ELK 스택을 마스터한다면, 어떤 빅데이터를 만나도 쉽게 관련 개발을 할 수 있습니다. 위 그림은 특정 로그를 수집하고 이를 시각화하는 전체 구조를 도식화 한 것입니다. Logstash는 데이터베이스에 무관하게 어떠한 데이터든지 수집해주는 역할을 합니..
개발자로써 빅데이터를 다뤄볼 수 있는 영역은 빅데이터 엔지니어링 분야입니다. 대용량 데이터 수집이나 분석을 돕기위한 기술을 제공하는 가장 대표적인 영역이 ELK 스택으로 알고 있습니다. 개념은 익히 들어 알고 있지만 이 내용을 실제로 다뤄본적은 없는데요. IT 인터넷 강의 사이트 "인프런"에서 ELK 스택 관련 강좌를 무료로 제공하고 있습니다. 개발에 욕심있는 개발자라면 관심을 가질만한 기술 스택입니다. 강좌명은 "ELK 스택(ElasticSearch, Logstash, Kibana)으로 데이터"이며,총 19개 강의로 1시간 19분으로 구성되어 있습니다. 섹션1. 데이터과학 소개 및 환경 구축01 데이터 과학 소개 - 02:00 수강완료02 우분투에 엘라스틱서치 설치하기 - 03:00 수강완료 섹션2. ..