목록
아래로
위로

다수의 이미지의 중복 여부를 검사하는 방법이 있을까요?

12
이니스프리
2020.07.08. 12:19
조회 수 824

안녕하세요?

날씨가 무더운데 다들 건강히 계시는지요?? ^^

수천~수만 개의 이미지 파일이 주어졌을 때 이미지의 중복 여부를 빠르게 검사하는 방법이 있을까요?

(1) 속도가 중요하고, (2) 특이도보다는 민감도가 중요한 상황이네요~

해쉬값을 비교하는 방법도 있을 것 같고 그 외에도 여러 방법이 있을 것 같은데 좋은 아이디어가 안 떠오르네요 ㅠㅠ

공개된 프로그램도 좋고, 스크립트를 작성하는 방식도 좋아요!

아이디어나 관련된 정보가 있으시면 답변을 부탁드릴게요 :)

그럼 맛점 드시고 좋은 오후 되세요!

미리 감사드려요 ^-^

작성자

이니스프리 119 Lv. (3%) 4866780/115200000EXP

Make StudyForUs Great Again!

NoYeah

해시값이 제일 정확하겠지만
바이트 단위의 용량으로 추려내도 잘 걸러지지 않을까요??

2020.07.08. 19:57

"NoYeah님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자 → NoYeah

감사합니다!
저도 러프하지만 (바이트 단위의 용량 + 이미지 가로세로 사이즈)로 걸러내는 방법을 생각하긴 했네요 ^^
일단 이 방법으로 가능한 한 효율적인 알고리즘을 구현해보도록 할게요 :)

2020.07.08. 20:49

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

NoYeah → 이니스프리

해상도나 dpi가 다른 이미지는 걸러내기 어려운 로직이네요.

만약 이미지를 일정 크기로 변환하여 랜덤한 몇 군데의 픽셀의 색상값을 저장(데이터베이스 화)했다가 동일한 픽셀값을 갖는 이미지들을 분류해 낸다면 정확도는 올라갈것 같습니다.

2020.07.08. 20:55

"NoYeah님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자 → NoYeah

오오~ 좋은 아이디어를 제공해주셔서 감사합니다!
제 수준에서 파일이 아주 많을 경우에 효율적인 스크립트를 작성하기는 어렵겠지만, 일단 시도는 해볼게요.
그럼 마스터 님께서도 편안한 저녁 되세요 ^^

2020.07.08. 21:07

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

GsusWeb → 이니스프리

오 저도 궁금해하던 기능이네요.
구현되면 저도 시연에 참여해볼게요^^

아래 두 분의 이야기는 겨우 감만 잡아보네요.. ^^;

2020.07.09. 00:03

"GsusWeb님의 댓글"

이 댓글을 신고 하시겠습니까?

네모 → NoYeah

이정도로 할거라면
차라리 아예 Raw한 값으로 읽어서 a번째 문자부터 a+n번째 글짜를 기록하고 그 값을 비교하는게 속도 면에서는 더 빠르겠네요.
파일을 전부 읽을 필요 없이 0~a+n 만 읽어내면 되고, n 값도 적당한 사이즈로만 조절하면 겹치는 내용도 별로 없을거구요.
다만 파일에 따라 전체길이보다 더 큰 좌표를 찍어 읽어내는건 방지해야겠지요.

2020.07.08. 23:08

"네모님의 댓글"

이 댓글을 신고 하시겠습니까?

NoYeah → 네모

아무래도 코딩에 문외한이라 막말로 픽셀값이라고 했지만 제가 생각한 방법이랑 거의 유사합니다.
나머지는 개발자의 역량에 달린걸로 ㅋㅋㅋ

2020.07.08. 23:17

"NoYeah님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자 → 네모

조언해주셔서 감사합니다!
말씀해주신 방법이 속도 측면에서는 훨씬 빠르겠네요 ^^
이 방법을 공부해서 구현해보도록 하겠습니다.
그럼 날씨가 무덥지만 네모 님께서도 좋은 하루 되세요!!

2020.07.09. 09:47

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자

참고로 단순히 이미지의 동일성만을 비교할 때에는 아래 스크립트가 효율적이네요 ^^
https://stackoverflow.com/questions/748675/finding-duplicate-files-and-removing-them

2020.07.09. 12:21

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

포인트 폭탄+ → 이니스프리

이니스프리님 축하합니다.
추가로 200포인트만큼 포인트 폭탄+를 받았습니다.

수정 삭제

2020.07.09. 12:21

"포인트 폭탄+님의 댓글"

이 댓글을 신고 하시겠습니까?

삭제

갱생협스

https://www.duplicatephotocleaner.com/
이런 프로그램도 있네요!

속도가 중요하면, 사진을 raw로 읽어와 랜덤한 위치의 몇 글자를 대조해보는것도 방법일 것 같습니다. 헤더부터 끝까지 읽기엔 시간이 너무 오래 걸릴테니 말이죠 ㅠㅠ
근데 이 방법은 어딘가가 수정되거나(일부 모자이크 등), 이미지 확장자가 다르면 검출해내기 쉽지 않을 것 같네요!

2020.07.10. 14:08

"갱생협스님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자 → 갱생협스

오오~ 감사합니다!
일단 급한대로 파이썬으로 구현하기는 했는데 아무래도 이런 공개된 소프트웨어가 더 효율적으로 작동하겠죠 ^^
raw로 읽어와서 비교하는 방식도 구현해봐야겠네요 :)
그럼 즐거운 주말 되세요~!
다시 한 번 감사드립니다 ^-^

2020.07.10. 21:24

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

권한이 없습니다.

번호	제목	글쓴이	날짜	조회 수
공지	[중요공지] 추석 맞이 서버 업데이트 안내 5	마스터	25.10.09.02:20	56843
공지	[중요] 호스팅 만료와 관련하여 일부 수칙이 변경됩니다. 7	마스터	23.01.14.02:23	349615
공지	[필독] 질문하는 방법 17	마스터	18.02.23.03:09	13033
792	노트북 사설 수리 업체 문의 드립니다 2	이니스프리	20.09.06.21:42	787
791	PHP) 위키 문법 정규식 처리 관련	260578	20.09.06.20:59	711
790	크롬 브라우저 확장 프로그램 좋은게 뭐가있나요? 6	슬기	20.09.04.15:21	739
789	프론트엔드 외주 가격을 어느정도 책정해야 하는지 모르겠습니다. 2	Seia	20.09.01.21:58	2269
788	단축키(핫키) 좀 알려주세요. 6	슬기	20.08.30.12:36	739
787	php 모든 페이지에 적용하기? 1	Ruwaku	20.08.28.17:21	790
786	서버 관련해서 문의드립니다! 1	도돌이폰	20.08.27.09:55	720
785	우분투에서 타임존 변경 및 시간 설정에 대해 질문 드립니다. 9	이니스프리	20.08.12.13:58	970
784	crontab이 task를 전혀 실행하지 않네요 ㅠㅠ 8	이니스프리	20.08.11.16:50	1013
783	[파이썬] concurrent.futures에서 ThreadPoolExecutor의 사용과 관련하여 질문 드립니다 4	이니스프리	20.08.09.14:16	1705
782	파이썬 Requests에서 session을 닫는 방법에 대해 질문 드립니다.	이니스프리	20.08.06.20:51	742
781	브라우저에서 한글이 깨져보이는 문제... 7	슬기	20.07.18.20:39	741
780	TTFB 2	Apache	20.07.14.22:07	734
779	인증서 갱신이 안된 것 같네요.. 4	Tilto_	20.07.12.20:13	669
778	서버 호스팅 이사 잘 했다고 생각했는데 사이트 접속이 안됩니다 ㅜ_ㅜ 14	그라페인	20.07.09.18:20	1051
777	혹시 infinityfree무료호스팅 아시는 분 계신가요? 8	워린이	20.07.08.16:03	2160
776	안녕하세요 git을 사용해서 라이믹스를 설치하려고 하고 있습니다 ㅎㅎ 6	그라페인	20.07.08.14:57	1203
	다수의 이미지의 중복 여부를 검사하는 방법이 있을까요? 12	이니스프리	20.07.08.12:19	824
774	구글 검색 노출을 빠르게 하는방법? 질문 14	슬기	20.07.07.23:51	719
773	간단한 질문 드립니다 2	{Cog}	20.07.07.18:44	694

번호

제목

글쓴이

날짜

조회 수

공지

[중요공지] 추석 맞이 서버 업데이트 안내 5

마스터

25.10.09.02:20

56843

공지

[중요] 호스팅 만료와 관련하여 일부 수칙이 변경됩니다. 7

마스터

23.01.14.02:23

349615

공지

[필독] 질문하는 방법 17

마스터

18.02.23.03:09

13033

792

노트북 사설 수리 업체 문의 드립니다 2

이니스프리

20.09.06.21:42

787

791

PHP) 위키 문법 정규식 처리 관련

260578

20.09.06.20:59

711

790

크롬 브라우저 확장 프로그램 좋은게 뭐가있나요? 6

슬기

20.09.04.15:21

739

789

프론트엔드 외주 가격을 어느정도 책정해야 하는지 모르겠습니다. 2

Seia

20.09.01.21:58

2269

788

단축키(핫키) 좀 알려주세요. 6

슬기

20.08.30.12:36

739

787

php 모든 페이지에 적용하기? 1

Ruwaku

20.08.28.17:21

790

786

서버 관련해서 문의드립니다! 1

도돌이폰

20.08.27.09:55

720

785

우분투에서 타임존 변경 및 시간 설정에 대해 질문 드립니다. 9

이니스프리

20.08.12.13:58

970

784

crontab이 task를 전혀 실행하지 않네요 ㅠㅠ 8

이니스프리

20.08.11.16:50

1013

783

[파이썬] concurrent.futures에서 ThreadPoolExecutor의 사용과 관련하여 질문 드립니다 4

이니스프리

20.08.09.14:16

1705

782

파이썬 Requests에서 session을 닫는 방법에 대해 질문 드립니다.

이니스프리

20.08.06.20:51

742

781

브라우저에서 한글이 깨져보이는 문제... 7

슬기

20.07.18.20:39

741

780

TTFB 2

Apache

20.07.14.22:07

734

779

인증서 갱신이 안된 것 같네요.. 4

Tilto_

20.07.12.20:13

669

778

서버 호스팅 이사 잘 했다고 생각했는데 사이트 접속이 안됩니다 ㅜ_ㅜ 14

그라페인

20.07.09.18:20

1051

777

혹시 infinityfree무료호스팅 아시는 분 계신가요? 8

워린이

20.07.08.16:03

2160

776

안녕하세요 git을 사용해서 라이믹스를 설치하려고 하고 있습니다 ㅎㅎ 6

그라페인

20.07.08.14:57

1203

다수의 이미지의 중복 여부를 검사하는 방법이 있을까요? 12

이니스프리

20.07.08.12:19

824

774

구글 검색 노출을 빠르게 하는방법? 질문 14

슬기

20.07.07.23:51

719

773

간단한 질문 드립니다 2

{Cog}

20.07.07.18:44

694

도와주세요

다수의 이미지의 중복 여부를 검사하는 방법이 있을까요?

작성자

이니스프리 119 Lv. (3%) 4866780/115200000EXP

댓글 12

신고

신고

신고

신고

신고

신고

신고

신고

신고

신고

삭제

신고

신고

검색

스터디 최근글 [1/]

로그인

작성자 이니스프리 119 Lv. (3%) 4866780/115200000EXP

댓글 12

신고

신고

신고

신고

신고

신고

신고

신고

신고

신고

삭제

신고

신고

검색

로그인

작성자

이니스프리 119 Lv. (3%) 4866780/115200000EXP