• 목록
  • 아래로
  • 위로

안녕하세요?

 

날씨가 무더운데 다들 건강히 계시는지요?? ^^

 

 

수천~수만 개의 이미지 파일이 주어졌을 때 이미지의 중복 여부를 빠르게 검사하는 방법이 있을까요?

 

(1) 속도가 중요하고, (2) 특이도보다는 민감도가 중요한 상황이네요~

 

해쉬값을 비교하는 방법도 있을 것 같고 그 외에도 여러 방법이 있을 것 같은데 좋은 아이디어가 안 떠오르네요 ㅠㅠ

 

 

공개된 프로그램도 좋고, 스크립트를 작성하는 방식도 좋아요!

 

아이디어나 관련된 정보가 있으시면 답변을 부탁드릴게요 :)

 

그럼 맛점 드시고 좋은 오후 되세요!

 

미리 감사드려요 ^-^

작성자
이니스프리 119 Lv. (0%) 1935120/115200000EXP

Make StudyForUs Great Again!

 

CSVpuymXAAAVVpd.jpg

댓글 12

NoYeah
profile image
해시값이 제일 정확하겠지만
바이트 단위의 용량으로 추려내도 잘 걸러지지 않을까요??
comment menu
2020.07.08. 19:57

신고

"NoYeah님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자 → NoYeah
profile image

감사합니다!
저도 러프하지만 (바이트 단위의 용량 + 이미지 가로세로 사이즈)로 걸러내는 방법을 생각하긴 했네요 ^^
일단 이 방법으로 가능한 한 효율적인 알고리즘을 구현해보도록 할게요 :)

comment menu
2020.07.08. 20:49

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

NoYeah → 이니스프리
profile image
해상도나 dpi가 다른 이미지는 걸러내기 어려운 로직이네요.

만약 이미지를 일정 크기로 변환하여 랜덤한 몇 군데의 픽셀의 색상값을 저장(데이터베이스 화)했다가 동일한 픽셀값을 갖는 이미지들을 분류해 낸다면 정확도는 올라갈것 같습니다.
comment menu
2020.07.08. 20:55

신고

"NoYeah님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자 → NoYeah
profile image
오오~ 좋은 아이디어를 제공해주셔서 감사합니다!
제 수준에서 파일이 아주 많을 경우에 효율적인 스크립트를 작성하기는 어렵겠지만, 일단 시도는 해볼게요.
그럼 마스터 님께서도 편안한 저녁 되세요 ^^
comment menu
2020.07.08. 21:07

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

GsusWeb → 이니스프리
오 저도 궁금해하던 기능이네요.
구현되면 저도 시연에 참여해볼게요^^

아래 두 분의 이야기는 겨우 감만 잡아보네요.. ^^;
comment menu
2020.07.09. 00:03

신고

"GsusWeb님의 댓글"

이 댓글을 신고 하시겠습니까?

네모 → NoYeah
profile image
이정도로 할거라면
차라리 아예 Raw한 값으로 읽어서 a번째 문자부터 a+n번째 글짜를 기록하고 그 값을 비교하는게 속도 면에서는 더 빠르겠네요.
파일을 전부 읽을 필요 없이 0~a+n 만 읽어내면 되고, n 값도 적당한 사이즈로만 조절하면 겹치는 내용도 별로 없을거구요.
다만 파일에 따라 전체길이보다 더 큰 좌표를 찍어 읽어내는건 방지해야겠지요.
comment menu
2020.07.08. 23:08

신고

"네모님의 댓글"

이 댓글을 신고 하시겠습니까?

NoYeah → 네모
profile image
아무래도 코딩에 문외한이라 막말로 픽셀값이라고 했지만 제가 생각한 방법이랑 거의 유사합니다.
나머지는 개발자의 역량에 달린걸로 ㅋㅋㅋ
comment menu
2020.07.08. 23:17

신고

"NoYeah님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자 → 네모
profile image
조언해주셔서 감사합니다!
말씀해주신 방법이 속도 측면에서는 훨씬 빠르겠네요 ^^
이 방법을 공부해서 구현해보도록 하겠습니다.
그럼 날씨가 무덥지만 네모 님께서도 좋은 하루 되세요!!
comment menu
2020.07.09. 09:47

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자
profile image
참고로 단순히 이미지의 동일성만을 비교할 때에는 아래 스크립트가 효율적이네요 ^^
https://stackoverflow.com/questions/748675/finding-duplicate-files-and-removing-them
comment menu
2020.07.09. 12:21

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

포인트 폭탄+ → 이니스프리
이니스프리님 축하합니다.
추가로 200포인트만큼 포인트 폭탄+를 받았습니다.
comment menu
2020.07.09. 12:21

신고

"포인트 폭탄+님의 댓글"

이 댓글을 신고 하시겠습니까?

삭제

"포인트 폭탄+님의 댓글"

이 댓글을 삭제하시겠습니까?

갱생협스
profile image
https://www.duplicatephotocleaner.com/
이런 프로그램도 있네요!

속도가 중요하면, 사진을 raw로 읽어와 랜덤한 위치의 몇 글자를 대조해보는것도 방법일 것 같습니다. 헤더부터 끝까지 읽기엔 시간이 너무 오래 걸릴테니 말이죠 ㅠㅠ
근데 이 방법은 어딘가가 수정되거나(일부 모자이크 등), 이미지 확장자가 다르면 검출해내기 쉽지 않을 것 같네요!
comment menu
2020.07.10. 14:08

신고

"갱생협스님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자 → 갱생협스
profile image

오오~ 감사합니다!
일단 급한대로 파이썬으로 구현하기는 했는데 아무래도 이런 공개된 소프트웨어가 더 효율적으로 작동하겠죠 ^^
raw로 읽어와서 비교하는 방식도 구현해봐야겠네요 :)
그럼 즐거운 주말 되세요~!
다시 한 번 감사드립니다 ^-^

comment menu
2020.07.10. 21:24

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

권한이 없습니다.
번호 제목 글쓴이 날짜 조회 수
공지 [작업 완료] 설 명절 맞이 서버 업데이트 안내 3 마스터 24.02.11.17:21 852
공지 [중요] 호스팅 만료와 관련하여 일부 수칙이 변경됩니다. 4 마스터 23.01.14.02:23 4524
공지 [필독] 질문하는 방법 17 마스터 18.02.23.03:09 4479
925 ls는 됫는대 압축풀기가 안되내요 ㅜㅜ 핫슈 20.06.16.21:15 42
924 XE 1.4.XXX 버전 사용하는데 모바일 레이아웃이 계속 적용이 안 되네요. 1 αGO 20.07.02.10:09 42
923 맵네임을 누르면 다른 사이트의 게시판을 나오게 하고싶은데 어떻게 해야하나요? 1 손가락개 20.11.08.01:01 51
922 퍼티에서 command 뜨면 없다는 것인가요? 2 핫슈 20.06.15.19:55 53
921 내 포인트는 어디서 확인하나요? 3 파이리 21.02.08.11:58 54
920 사이트 정보 등록글 링크가 뭐죠..? 2 파이리 21.02.07.20:11 56
919 ftp web파일 1 wikiowner 20.11.11.22:16 57
918 PHP) 위키 문법 정규식 처리 관련 260578 20.09.06.20:59 64
917 홈페이지 디자인을 바꾼 후부터 게시판 스킨 적용이 이상하게 됩니다 image 손가락개 20.12.04.02:56 66
916 가비아 도메인 스터디 포 어스 연결되나요? 1 HighSpeed 21.01.15.17:28 68
915 php 1 wikiowner 21.01.22.11:10 69
914 간단한 질문 드립니다 2 {Cog} 20.07.07.18:44 70
913 구글과 사파리의 결과값에 차이가 있습니다. 조언 부탁드려도 될까요? 7 image GsusWeb 20.06.18.09:52 73
912 그매햇던것이 라이믹스 에 안올라갑니다. 2 image 핫슈 20.06.19.20:52 73
911 요즘 코로나 백신 소식이 자주나오는데 내년에는 괜찮을까요? 3 필우 20.11.13.10:41 74
910 예)www.123.com > 123.com리디렉트 질문 1 image HighSpeed 21.01.21.17:27 74
909 FTP 로 라이믹스 업로드 중 전송실패가 많다. 2 핫슈 20.06.14.19:51 75
908 CentOS vsftp 윈도우 클라이언트에서 접속 불가 2 image 세종대왕 20.09.09.14:04 75
907 최근에 혹시 phpmyadmin 주소가 바뀌었나요? 2 막시모 21.01.28.17:42 75
906 마스터님! 3 citen 21.02.14.12:45 77