본문 바로가기
반응형

빅데이터24

도커 이용하여 py파일 실행시키기 - 도커 설치 먼저 도커를 설치해야 합니다. 도커는 가상 환경으로 컨테이너/ 이미지로 구분되어 있습니다. 자세한건 검색해서 찾아보세요 ㅎㅎ 환경은 리눅스 curl -s https://get.docker.com/ | sudo sh curl -s https://get.docker.com/ | sudo sh 이거 그대로 치면 쪼르르르륵 다운로드가 됩니다 Docker를 사용할때 기본적으로 root 권한이라서 sudo를 써야하는데 따로 권한 주려면 sudo usermod -aG docker '해당 아이디' sudo usermod -aG docker '해당 아이디' 를 쓰면 됩니다. //2021-03-10 수정 만약 권한 부여가 안된다면 sudo gpasswd -a docker 하면됩니다. 설치를 했다면 docker versio.. 2021. 1. 19.
자바 유튜브 API 이용하여 데이터 가져오기( 유튜브 크롤링) 유튜브 크롤링 할때 여러분들은 어떻게 하세요? 뭐 다 똑같겠죠 내용까지 가져오려면 클릭해서 안에 내용가져오고 다시 URL바꿔서 수집하고 .. 이러면 과부하도 걸리고 오래걸리고 그러자나여? 알아여 해봤으니깐 근데 유튜브도 API로 인해 쉽게 데이터를 가져올 수 있다는 사실을 알고 계셨나요? 알았다면 여기서 우리가 만날일은 없었겠죠 자 다시 소스 들어가여~ //동영상 카운트 private int cnt =1; public void getYoutube(String nextToken) { String apikey = "자신의 api key 값"; String channelId = "자신이 수집하고 싶은 채널 id값 UC로 시작하는거"; String UPplaylistid ="UCxxxxx 를 UU로 바꿔줘서 넣.. 2020. 12. 23.
자바 트위터 API를 이용한 데이터 수집 하기 (트위터 크롤링) 님들 트위터 크롤링해본적 있나요? 전 있어요 근데 존나 안돼요 왜냐구요? 그러니깐여.. 우리는 맨날 드라이버를 이용해서 태그찾고 내용 가져오잖아요? 근데 트위터는 api가 매우 잘 되어있기 때문에 우리가 굳이 그렇게 고생 안해도 됩니다 ㅎㅎㅎㅎ 자 소스 들어갑니다. 잘보세요 아아아아 그전에 라이브러리 부터 선언해줘야하는데 gradle이런거 찾아봐도 ㅈㄴ 없더라고요 이거 다운 받으시고 lib파일 안에 그냥 때려박으세염 물론 압축은 해제하고 jar파일 말하는거는 다들 아시겟죠? ㅎㅎㅎㅎ 자 그럼 이제 소스 보세염 public TwitterCrawling() { ArrayList Tlist = new ArrayList(); try { TwitterAPIConn(); Twitter twitter = new Tw.. 2020. 12. 23.
서버에 Chrome 남아있는지 확인하고 일괄 삭제 혹시 크롤링이 중간에 중단되거 에러나서 안꺼지는 경우가 생길 수 있습니다. 물론 모든 예외처리에 했어도 발생 하더라구요.. 서버가 너무 느리다고 생각된다면 가끔 한번 확인해보세요 처음 명령어를 날려본다면 사용중인 프로그램 CPU를 얼마나 사용하는지를 알 수 있을 겁니다. 그리고 ps -ef | grep chrome 를 쳐본다면 아마 확인할 수 있을겁니다. 그리고 너무 많이 있어서 강제 kill 이 불가능할거 같거나 오래걸릴거 같다? 걱정마세요 ps -ef | grep chrome | awk '{print $2}' | xargs kill 명령어만 날린다면 당신은 기분이 좋아질겁니다. 2020. 12. 22.
자바 크롤링 Headless 적용 최신판!!!!(인스타 정책 변경) 님들 혹시 인스타 그램 같은거 크롤링 하세여? 저는 하는데.. 로컬에서는 존나 잘되는데 headless써서 서버에서 하면 안될때 있죠? 있을껄요 왜냐구요? 내가 그랬으니깐 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 이거 거의 무슨 한 3일인가 걸렷는데 이거 특별히 알려드림 대신 도움되면 이거저거 눌러주셈 일단 갯콘지 뭔지 모르겠고 저는 크롬드라이버 사용합니다. 크롬이 짱짱맨임 아무튼 원래는 기존에 추가한거 아시죠 ? 그렇게 했었는데 인스타를 하는 중에 자꾸 에러가 나는거에여? 인스타 정책이 바뀌어서 무조건 로그인을 해야된다고 하더라고요 예? 알고 있었다고요? 저는 아닌데여 아무튼 그래서 아예 로그인을 한후에 해당 url로 다시 보내는 작업을 했습니다. driver.get("www.i.. 2020. 12. 22.
Tensorflow 2.x 버전 설치하기 !! (윈도우) 님들 다들 윈도우에서 !pip install Tensorflow==2.xx 이렇게 설치하지 않으시나요? 저도 그래써요 근데 DLL load failed while importing _pywrap_tensorflow_internal: 지정된 모듈을 찾을 수 없습니다. 이런 에러가 떳지요? 다아~~~~~~ 알아여 support.microsoft.com/en-us/help/2977003/the-latest-supported-visual-c-downloads https://support.microsoft.com/en-us/help/2977003/the-latest-supported-visual-c-downloads Cookies are disabled Please enable cookies and refresh.. 2020. 10. 14.