반응형 빅데이터24 CentOs7 - Python 3.6.8 설치 ㄹㅇ 설치할라고 찾아보니깐 yum install -y https://centos7.iuscommunity.org/ius-release.rpm 이런거 존나 많은데 하나도 안됌 뭐 Loaded plugins: fastestmirror Cannot open: https://centos7.iuscommunity.org/ius-release.rpm. Skipping. Error: Nothing to do 이딴거 존나 뜸 ㅇㅈ ? 어 나만 인정 개빡쳐서 찾아봄 https://www.python.org/ftp/python/ 여기서 원하는 버전 찾으셈 개꿀? 설치하고 압축풀고 물론 tgz로 받으셧죠? ./configure 실행 make altinstall 실행 which python3.6 하면 위치 나옴 개꿀 vi /.. 2020. 6. 23. 카프카 구축하기 기존에 하둡설치에서 master01 , slave01 을 구축했었습니다. 저는 이 두개의 서버에 카프카를 구축 합니다. wget http://apache.mirror.cdnetworks.com/kafka/2.5.0/kafka_2.12-2.5.0.tgz 두 서버에 카프카를 먼저 설치합니다. * 참고!! 2888, 3888, 2181 포트를 모두 개방해주세요 vi config/zookeeper.properties (master01,slave01) 설정합니다. 그 다음 vi config/server.properties master01 에서는 만 찾아서 설정해주시고 slave01은 id값만 2로 변경!! 이후에 위에 dataDir을 설정한 경로에 파일을 만들고 master01 - echo 1 > /opt/kaf.. 2020. 6. 23. CentOs7 방화벽 설정 부분 정리 하둡 구축시 포트를 개방하거나 ip전체를 개방하는 일이 있다.. sudo : 관리자 권한으로 실행해라 firewall-cmd : firewall cli명령어 --permanent : 영구적으로 실행해라 (default zone에 등록됩니다.) --add-service : 해당 서비스를 추가해라 --remove-service : 해당 서비스를 삭제해라 서비스로 방화벽 해제 하기 * 추가 sudo firewall-cmd --permanent --add-service=http sudo firewall-cmd --permanent --add-service=https * 제거 sudo firewall-cmd --permanent --remove-service=http sudo firewall-cmd --perma.. 2020. 6. 22. Hadoop 설치 및 실행 먼저 환경에 JDK 설치는 필수 1.8버전을 설치 후 적용시켜 놓았다. 다음 바로 하둡 설치 https://hadoop.apache.org/releases.html 에 들어가서 3.1.3버전 binary 클릭 (3.1.2버전은 http://archive.apache.org/dist/hadoop/common/hadoop-3.1.2/) 혹시몰라 링크 넣어둠 *****3.1.3.버전으로 독립구축하였지만 워드카운터 부분에서 에러 발생... 원인 모름.. 3.1.2.로 하세요..***** 이 중 아무거나 오른쪽 클릭하여 링크 복사 후 다운로드 이후 압축 파일 풀고 난 뒤 vi /etc/profile에 환경설정 그다음 hadoop version 확인 3.1.3버전 다운된것을 확인 할 수 있음 워드 카운터 예제 실행.. 2020. 6. 22. PYTHON 한글만 추출하기 현재 SNS 데이터 수집이후 감정분석을 하는 중에 SNS는 #태그 영어 등 많은 문자나 글자가 있는걸 알게 되었다. 하지만 감정분석은 한글로만 분석을 할 예정이기 때문에 한글만 추출하기로 했다. 먼저 re를 임포트!! 시킨다. 환경은 아나콘다 / 쥬피터를 사용하였다. 파이썬 3.7 complie안에 있는것은 한글과 띄어쓰기 정규식이 되겠다. 이후 이런식으로 출력이 되는걸 볼 수 있겠다~ 2020. 5. 7. 셀레니움과 자바 연동하여 크롤링 나와 같이 자바로 크롤링을 하는 사람들을 위한 글입니다. >gradle에서 셀레니움 추가 필자는 Gradle을 사용하고 있으므로 셀레니움 사용을 위해 가볍게 추가 하였다. Chromedriver 또한 사용해야 하기 때문에 *버전 확인 방법 크롬 더보기 > 도움말 > chrome 정보 확인 누르면 버전확인 가능! 다운받은 크롬드라이버는 프로젝트 내부에 바로 넣어주었다. 리눅스 환경에서 돌리기위해서 headless를 사용한다. 밑에 여러 옵션도 넣어줘야 돌아가더라고요 필자는 하나하나 구분하여 나눠놓는게 편해서 이렇게 해놨다~ 크롤링하시는 분들에게 도움이 잘 되길 바라며 첫글은 여기 까지 2019. 12. 24. 이전 1 2 3 4 다음