- 6
- 이니스프리
- 조회 수 524
안녕하세요??
뉴스 기사에서 특정 데이터를 추출하려고 하는데요 :)
국내 뉴스 API 중에서 검색기간 설정이 가능한 것이 있을까요??
예를 들면 최근 1개월 이내의 기사만 필터링하거나, 기간을 직접 입력할 수 있으면 좋겠는데요~
검색해보니 네이버는 아쉽게도 지원하지 않는 것 같네요 ㅠㅠ
https://developers.naver.com/docs/search/news/
아무래도 자사의 수익성을 저해하는 측면이 있을테니 뉴스 API는 다들 부실한 것 같네요 ㅠㅠ
최신순으로 정렬하여 기사를 받아와서 적절히 기간별로 분류하면 되지 않겠냐고 생각하실 수도 있겠지만...
단순히 최신순으로 기사를 받으면 관련성이 너무 낮은 기사까지 여과없이 전달하네요 ㅜㅜ
그럼 저의 우문에 현답을 부탁드릴게요~
항상 감사드려요 :)
굿밤 되세요!!
작성자
댓글 6
오오~ 좋은 아이디어를 주셔서 감사드립니다 :)
1. 정규식 등 여러 방법을 사용해서 필터링을 해볼게요 :)
2. 최신순으로 정렬을 하는 경우에 상대적으로 관련성에서 문제가 발생한다는 취지로 말씀드린거에요~! ^-^
(받아온 데이터를 처리하는 과정 중에서 시간 순으로 정렬하는 것이 관련성을 판단하는 것보다 차라리 쉽네요)
3. 그나마 중복되는 것은 누락되는 것에 비해 괜찮지만 말씀하신 방법을 사용해볼게요!!
그럼 좋은 하루 되세요!!
존재하지 않는 스티커입니다.
일단 naver API가 아니라 사이트 자체를 크롤링하는 것으로 해결하긴 했네요 ㅠㅠ
설정할 수 있는 옵션에서 차이가 꽤 있어서요 ㄷㄷ
다만 네이버 측에서 파싱을 번거롭게 만들어놓았더군요~!
네이버 뉴스를 직접 크롤링하시려면 제가 작성한 글을 참고하시길 바랍니다 ^^
https://studyforus.com/innisfree/693469
여기에 몇가지 도움이 될만한 방안들을 생각해보았습니다.
1. 관련성이 너무 떨어지는것이 문제라면 정규표현식 같은 걸로 필터링해보는건 어떨까요?
2. 글을 읽어보니 이미 검색어가 지정된 상태에서 뉴스를 가져오는것 같습니다.
이럴경우 특종을 좋아하는 기자들 특성상 해당 검색 시점 트렌드에 맞는 최신 기사들이 빠르게 올라올 확률이 매우 높습니다.
이 경우는 관련성 문제가 사실상 없을거라 생각합니다만, 검색 API를 사용하시면서 그것만으로 이미 해결되신것 같은데,
어떤 부분에서 관련성 문제가 있는건지 의문입니다.
3. 중복되는 기사같은것이 문제라면 유사도를 구하는 알고리즘(ex. 자카드 유사도)을 참고하거나 사용해보는것도 좋은 방법중 하나입니다.