본문 바로가기
반응형

빅데이터/Hadoop8

SPARK STREAMING 데이터 중복처리 예시로 의미없는 로그 데이터를 스트리밍 처리하는 예제를 하고 출력하는 부분까지 완료했었다. 나는 로그에대해 counting을해서 3개 이상이 되면 메일전송과 DB에 저장하는 기능을 추가하고 싶었다. 하지만 ReducebykeyandWindow를 사용하여 RDD값을 출력하니..... 윈도우에 남아있는 값들을 계속 뽑아내는 현상을 발견했다. 첫번째 ----- ReduceByKeyAndWindow를 실행할때 키를 체크하여 처리해주는 함수에서 Counting 하여 처리하는 방법 . . . 하지만... value값만 가져올 수 있고 key값을 가져오지 못해서 실패 두번째 ---- reduceBykeyAndWindow에 두번째 함수 즉.. 윈도우가 끝날때 중복체크해주는 함수가 있지만 이미 key로 중복을 제거한 상.. 2020. 7. 20.
KAFKA 와 JAVA 의 HTTP 통신 kafka 연결 부분 def conn(ip:String,count:Int): Unit ={ implicit val system = ActorSystem() implicit val materializer = ActorMaterializer() // needed for the future flatMap/onComplete in the end implicit val executionContext = system.dispatcher val responseFuture: Future[HttpResponse] = Http().singleRequest(HttpRequest(uri = "http://59.28.4.28:5000/sendEmail.do?ip="+ip+"&count="+count)) responseFutur.. 2020. 7. 6.
스파크 카프카 실시간 연동 구축 ㄹㅇ 여기저기 다찾아봄 참고사이트 : https://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html 나는 아직 scala에 대한 공부가 더 필요한거 같다... def main(args: Array[String]) { val brokers = "master01:9092,slave01:9092" // classOf[StringDeserializer], "value.deserializer" -> classOf[StringDeserializer], "group.id" -> "use_a_separate_group_id_for_each_stream", "auto.offset.reset" -> "latest", "enable.auto.commit.. 2020. 7. 1.
SPARK 설치 후 zepplien까지 ~ 설치 사이트 http://mirror.navercorp.com/apache/spark/spark-2.4.6/ 저는 wget mirror.navercorp.com/apache/spark/spark-2.4.6/spark-2.4.6-bin-hadoop2.7.tgz 이걸로 햇음 설치완료 후 압축 풀고 설정 /etc/profile에 경로설정은 기본 # conf/spark-env.sh /bin/spark-shell실행 끝!! 그 다음은 제플린 설정해야한다. 제플린 http://apache.tt.co.kr/zeppelin/zeppelin-0.8.2/ Index of /zeppelin/zeppelin-0.8.2 apache.tt.co.kr wget apache.tt.co.kr/zeppelin/zeppelin-0.8.2.. 2020. 6. 25.
CentOs7 - Python 3.6.8 설치 ㄹㅇ 설치할라고 찾아보니깐 yum install -y https://centos7.iuscommunity.org/ius-release.rpm 이런거 존나 많은데 하나도 안됌 뭐 Loaded plugins: fastestmirror Cannot open: https://centos7.iuscommunity.org/ius-release.rpm. Skipping. Error: Nothing to do 이딴거 존나 뜸 ㅇㅈ ? 어 나만 인정 개빡쳐서 찾아봄 https://www.python.org/ftp/python/ 여기서 원하는 버전 찾으셈 개꿀? 설치하고 압축풀고 물론 tgz로 받으셧죠? ./configure 실행 make altinstall 실행 which python3.6 하면 위치 나옴 개꿀 vi /.. 2020. 6. 23.
카프카 구축하기 기존에 하둡설치에서 master01 , slave01 을 구축했었습니다. 저는 이 두개의 서버에 카프카를 구축 합니다. wget http://apache.mirror.cdnetworks.com/kafka/2.5.0/kafka_2.12-2.5.0.tgz 두 서버에 카프카를 먼저 설치합니다. * 참고!! 2888, 3888, 2181 포트를 모두 개방해주세요 vi config/zookeeper.properties (master01,slave01) 설정합니다. 그 다음 vi config/server.properties master01 에서는 만 찾아서 설정해주시고 slave01은 id값만 2로 변경!! 이후에 위에 dataDir을 설정한 경로에 파일을 만들고 master01 - echo 1 > /opt/kaf.. 2020. 6. 23.