본문 바로가기
반응형

빅데이터/크롤링7

파이썬 크롤링 예시 소스 from selenium import webdriver from bs4 import BeautifulSoup options = webdriver.ChromeOptions() options.add_argument('headless') options.add_argument('window-size=1920x1080') options.add_argument("disable-gpu") driver = webdriver.Chrome('chromedriver.exe', chrome_options=options) driver.get(''); html = driver.page_source #soup = BeautifulSoup(html,'html.lxml') driver.find_elements_by_css_select.. 2021. 2. 2.
자바 유튜브 API 이용하여 데이터 가져오기( 유튜브 크롤링) 유튜브 크롤링 할때 여러분들은 어떻게 하세요? 뭐 다 똑같겠죠 내용까지 가져오려면 클릭해서 안에 내용가져오고 다시 URL바꿔서 수집하고 .. 이러면 과부하도 걸리고 오래걸리고 그러자나여? 알아여 해봤으니깐 근데 유튜브도 API로 인해 쉽게 데이터를 가져올 수 있다는 사실을 알고 계셨나요? 알았다면 여기서 우리가 만날일은 없었겠죠 자 다시 소스 들어가여~ //동영상 카운트 private int cnt =1; public void getYoutube(String nextToken) { String apikey = "자신의 api key 값"; String channelId = "자신이 수집하고 싶은 채널 id값 UC로 시작하는거"; String UPplaylistid ="UCxxxxx 를 UU로 바꿔줘서 넣.. 2020. 12. 23.
자바 트위터 API를 이용한 데이터 수집 하기 (트위터 크롤링) 님들 트위터 크롤링해본적 있나요? 전 있어요 근데 존나 안돼요 왜냐구요? 그러니깐여.. 우리는 맨날 드라이버를 이용해서 태그찾고 내용 가져오잖아요? 근데 트위터는 api가 매우 잘 되어있기 때문에 우리가 굳이 그렇게 고생 안해도 됩니다 ㅎㅎㅎㅎ 자 소스 들어갑니다. 잘보세요 아아아아 그전에 라이브러리 부터 선언해줘야하는데 gradle이런거 찾아봐도 ㅈㄴ 없더라고요 이거 다운 받으시고 lib파일 안에 그냥 때려박으세염 물론 압축은 해제하고 jar파일 말하는거는 다들 아시겟죠? ㅎㅎㅎㅎ 자 그럼 이제 소스 보세염 public TwitterCrawling() { ArrayList Tlist = new ArrayList(); try { TwitterAPIConn(); Twitter twitter = new Tw.. 2020. 12. 23.
서버에 Chrome 남아있는지 확인하고 일괄 삭제 혹시 크롤링이 중간에 중단되거 에러나서 안꺼지는 경우가 생길 수 있습니다. 물론 모든 예외처리에 했어도 발생 하더라구요.. 서버가 너무 느리다고 생각된다면 가끔 한번 확인해보세요 처음 명령어를 날려본다면 사용중인 프로그램 CPU를 얼마나 사용하는지를 알 수 있을 겁니다. 그리고 ps -ef | grep chrome 를 쳐본다면 아마 확인할 수 있을겁니다. 그리고 너무 많이 있어서 강제 kill 이 불가능할거 같거나 오래걸릴거 같다? 걱정마세요 ps -ef | grep chrome | awk '{print $2}' | xargs kill 명령어만 날린다면 당신은 기분이 좋아질겁니다. 2020. 12. 22.
자바 크롤링 Headless 적용 최신판!!!!(인스타 정책 변경) 님들 혹시 인스타 그램 같은거 크롤링 하세여? 저는 하는데.. 로컬에서는 존나 잘되는데 headless써서 서버에서 하면 안될때 있죠? 있을껄요 왜냐구요? 내가 그랬으니깐 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 이거 거의 무슨 한 3일인가 걸렷는데 이거 특별히 알려드림 대신 도움되면 이거저거 눌러주셈 일단 갯콘지 뭔지 모르겠고 저는 크롬드라이버 사용합니다. 크롬이 짱짱맨임 아무튼 원래는 기존에 추가한거 아시죠 ? 그렇게 했었는데 인스타를 하는 중에 자꾸 에러가 나는거에여? 인스타 정책이 바뀌어서 무조건 로그인을 해야된다고 하더라고요 예? 알고 있었다고요? 저는 아닌데여 아무튼 그래서 아예 로그인을 한후에 해당 url로 다시 보내는 작업을 했습니다. driver.get("www.i.. 2020. 12. 22.
자바 셀레니움 크롤링할때 전체 텍스트가 안가져와질때 자바에서 selenium을 이용한 크롤링을 할때 가끔 display:none로 되어있는 태그안에 문자들을 긁어오지 못할 경우가 있다. 그러면 driver.findElements(By.cssSelector("")).getAttribute("textContent"); 나 한번만 믿고 이렇게 해보셈 태그에 textcontent없는거 암 ㅋㅋㅋㅋㅋ 무조건 댄다 ㄹㅇ 고생하세염 2020. 9. 17.