목록
아래로
위로

다수의 이미지의 중복 여부를 검사하는 방법이 있을까요?

12
이니스프리
2020.07.08. 12:19
조회 수 246

안녕하세요?

날씨가 무더운데 다들 건강히 계시는지요?? ^^

수천~수만 개의 이미지 파일이 주어졌을 때 이미지의 중복 여부를 빠르게 검사하는 방법이 있을까요?

(1) 속도가 중요하고, (2) 특이도보다는 민감도가 중요한 상황이네요~

해쉬값을 비교하는 방법도 있을 것 같고 그 외에도 여러 방법이 있을 것 같은데 좋은 아이디어가 안 떠오르네요 ㅠㅠ

공개된 프로그램도 좋고, 스크립트를 작성하는 방식도 좋아요!

아이디어나 관련된 정보가 있으시면 답변을 부탁드릴게요 :)

그럼 맛점 드시고 좋은 오후 되세요!

미리 감사드려요 ^-^

작성자

이니스프리 119 Lv. (2%) 4154460/115200000EXP

Make StudyForUs Great Again!

NoYeah

해시값이 제일 정확하겠지만
바이트 단위의 용량으로 추려내도 잘 걸러지지 않을까요??

2020.07.08. 19:57

"NoYeah님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자 → NoYeah

감사합니다!
저도 러프하지만 (바이트 단위의 용량 + 이미지 가로세로 사이즈)로 걸러내는 방법을 생각하긴 했네요 ^^
일단 이 방법으로 가능한 한 효율적인 알고리즘을 구현해보도록 할게요 :)

2020.07.08. 20:49

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

NoYeah → 이니스프리

해상도나 dpi가 다른 이미지는 걸러내기 어려운 로직이네요.

만약 이미지를 일정 크기로 변환하여 랜덤한 몇 군데의 픽셀의 색상값을 저장(데이터베이스 화)했다가 동일한 픽셀값을 갖는 이미지들을 분류해 낸다면 정확도는 올라갈것 같습니다.

2020.07.08. 20:55

"NoYeah님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자 → NoYeah

오오~ 좋은 아이디어를 제공해주셔서 감사합니다!
제 수준에서 파일이 아주 많을 경우에 효율적인 스크립트를 작성하기는 어렵겠지만, 일단 시도는 해볼게요.
그럼 마스터 님께서도 편안한 저녁 되세요 ^^

2020.07.08. 21:07

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

GsusWeb → 이니스프리

오 저도 궁금해하던 기능이네요.
구현되면 저도 시연에 참여해볼게요^^

아래 두 분의 이야기는 겨우 감만 잡아보네요.. ^^;

2020.07.09. 00:03

"GsusWeb님의 댓글"

이 댓글을 신고 하시겠습니까?

네모 → NoYeah

이정도로 할거라면
차라리 아예 Raw한 값으로 읽어서 a번째 문자부터 a+n번째 글짜를 기록하고 그 값을 비교하는게 속도 면에서는 더 빠르겠네요.
파일을 전부 읽을 필요 없이 0~a+n 만 읽어내면 되고, n 값도 적당한 사이즈로만 조절하면 겹치는 내용도 별로 없을거구요.
다만 파일에 따라 전체길이보다 더 큰 좌표를 찍어 읽어내는건 방지해야겠지요.

2020.07.08. 23:08

"네모님의 댓글"

이 댓글을 신고 하시겠습니까?

NoYeah → 네모

아무래도 코딩에 문외한이라 막말로 픽셀값이라고 했지만 제가 생각한 방법이랑 거의 유사합니다.
나머지는 개발자의 역량에 달린걸로 ㅋㅋㅋ

2020.07.08. 23:17

"NoYeah님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자 → 네모

조언해주셔서 감사합니다!
말씀해주신 방법이 속도 측면에서는 훨씬 빠르겠네요 ^^
이 방법을 공부해서 구현해보도록 하겠습니다.
그럼 날씨가 무덥지만 네모 님께서도 좋은 하루 되세요!!

2020.07.09. 09:47

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자

참고로 단순히 이미지의 동일성만을 비교할 때에는 아래 스크립트가 효율적이네요 ^^
https://stackoverflow.com/questions/748675/finding-duplicate-files-and-removing-them

2020.07.09. 12:21

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

포인트 폭탄+ → 이니스프리

이니스프리님 축하합니다.
추가로 200포인트만큼 포인트 폭탄+를 받았습니다.

수정 삭제

2020.07.09. 12:21

"포인트 폭탄+님의 댓글"

이 댓글을 신고 하시겠습니까?

삭제

갱생협스

https://www.duplicatephotocleaner.com/
이런 프로그램도 있네요!

속도가 중요하면, 사진을 raw로 읽어와 랜덤한 위치의 몇 글자를 대조해보는것도 방법일 것 같습니다. 헤더부터 끝까지 읽기엔 시간이 너무 오래 걸릴테니 말이죠 ㅠㅠ
근데 이 방법은 어딘가가 수정되거나(일부 모자이크 등), 이미지 확장자가 다르면 검출해내기 쉽지 않을 것 같네요!

2020.07.10. 14:08

"갱생협스님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자 → 갱생협스

오오~ 감사합니다!
일단 급한대로 파이썬으로 구현하기는 했는데 아무래도 이런 공개된 소프트웨어가 더 효율적으로 작동하겠죠 ^^
raw로 읽어와서 비교하는 방식도 구현해봐야겠네요 :)
그럼 즐거운 주말 되세요~!
다시 한 번 감사드립니다 ^-^

2020.07.10. 21:24

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

권한이 없습니다.

번호	제목	글쓴이	날짜	조회 수
공지	시스템 점검 작업 완료 안내 10	마스터	24.09.05.16:25	2055
공지	[중요] 호스팅 만료와 관련하여 일부 수칙이 변경됩니다. 4	마스터	23.01.14.02:23	8846
공지	[필독] 질문하는 방법 17	마스터	18.02.23.03:09	4868
166	극저사양 테스트 서버 구축 OS 및 스포어 호스팅 수정승인대기 13	Apache	20.06.28.12:03	394
165	충전기에 전자제품을 연결했는데 작동이 안 되는 이유는 무엇일까요? 8	이니스프리	20.06.28.19:05	185
164	패널창 정보의 의미가 궁금합니다. 9	GsusWeb	20.06.28.21:36	183
163	확장자 HTML 파일에서 PHP 사용하기? 4	GsusWeb	20.06.29.18:09	508
162	NGINX... 어떤 장단점이 있나요? 14	해피보이	20.06.29.20:55	1119
161	글쓰기 템플릿도 있나요? 4	GsusWeb	20.07.01.11:38	213
160	Sd카드.... 인식.... 도와주세요..., 5	{Cog}	20.07.01.23:59	151
159	XE 1.4.XXX 버전 사용하는데 모바일 레이아웃이 계속 적용이 안 되네요. 1	αGO	20.07.02.10:09	76
158	구글 드라이브 임베디드 오디오 개인 페이지에서 사용 가능한가요? 2	GsusWeb	20.07.02.14:35	179
157	SSL 6	Apache	20.07.02.23:11	165
156	개인 서버 구축? 8	GsusWeb	20.07.03.12:46	418
155	간단한 질문 드립니다 2	{Cog}	20.07.07.18:44	140
154	구글 검색 노출을 빠르게 하는방법? 질문 14	슬기	20.07.07.23:51	201
	다수의 이미지의 중복 여부를 검사하는 방법이 있을까요? 12	이니스프리	20.07.08.12:19	246
152	안녕하세요 git을 사용해서 라이믹스를 설치하려고 하고 있습니다 ㅎㅎ 6	그라페인	20.07.08.14:57	457
151	혹시 infinityfree무료호스팅 아시는 분 계신가요? 8	워린이	20.07.08.16:03	1423
150	서버 호스팅 이사 잘 했다고 생각했는데 사이트 접속이 안됩니다 ㅜ_ㅜ 14	그라페인	20.07.09.18:20	504
149	인증서 갱신이 안된 것 같네요.. 4	Tilto_	20.07.12.20:13	162
148	TTFB 2	Apache	20.07.14.22:07	224
147	브라우저에서 한글이 깨져보이는 문제... 7	슬기	20.07.18.20:39	241

번호

제목

글쓴이

날짜

조회 수

공지

시스템 점검 작업 완료 안내 10

마스터

24.09.05.16:25

2055

공지

[중요] 호스팅 만료와 관련하여 일부 수칙이 변경됩니다. 4

마스터

23.01.14.02:23

8846

공지

[필독] 질문하는 방법 17

마스터

18.02.23.03:09

4868

166

극저사양 테스트 서버 구축 OS 및 스포어 호스팅 수정승인대기 13

Apache

20.06.28.12:03

394

165

충전기에 전자제품을 연결했는데 작동이 안 되는 이유는 무엇일까요? 8

이니스프리

20.06.28.19:05

185

164

패널창 정보의 의미가 궁금합니다. 9

GsusWeb

20.06.28.21:36

183

163

확장자 HTML 파일에서 PHP 사용하기? 4

GsusWeb

20.06.29.18:09

508

162

NGINX... 어떤 장단점이 있나요? 14

해피보이

20.06.29.20:55

1119

161

글쓰기 템플릿도 있나요? 4

GsusWeb

20.07.01.11:38

213

160

Sd카드.... 인식.... 도와주세요..., 5

{Cog}

20.07.01.23:59

151

159

XE 1.4.XXX 버전 사용하는데 모바일 레이아웃이 계속 적용이 안 되네요. 1

αGO

20.07.02.10:09

158

구글 드라이브 임베디드 오디오 개인 페이지에서 사용 가능한가요? 2

GsusWeb

20.07.02.14:35

179

157

SSL 6

Apache

20.07.02.23:11

165

156

개인 서버 구축? 8

GsusWeb

20.07.03.12:46

418

155

간단한 질문 드립니다 2

{Cog}

20.07.07.18:44

140

154

구글 검색 노출을 빠르게 하는방법? 질문 14

슬기

20.07.07.23:51

201

다수의 이미지의 중복 여부를 검사하는 방법이 있을까요? 12

이니스프리

20.07.08.12:19

246

152

안녕하세요 git을 사용해서 라이믹스를 설치하려고 하고 있습니다 ㅎㅎ 6

그라페인

20.07.08.14:57

457

151

혹시 infinityfree무료호스팅 아시는 분 계신가요? 8

워린이

20.07.08.16:03

1423

150

서버 호스팅 이사 잘 했다고 생각했는데 사이트 접속이 안됩니다 ㅜ_ㅜ 14

그라페인

20.07.09.18:20

504

149

인증서 갱신이 안된 것 같네요.. 4

Tilto_

20.07.12.20:13

162

148

TTFB 2

Apache

20.07.14.22:07

224

147

브라우저에서 한글이 깨져보이는 문제... 7

슬기

20.07.18.20:39

241

도와주세요

다수의 이미지의 중복 여부를 검사하는 방법이 있을까요?

작성자

이니스프리 119 Lv. (2%) 4154460/115200000EXP

댓글 12

신고

신고

신고

신고

신고

신고

신고

신고

신고

신고

삭제

신고

신고

검색

스터디 최근글 [1/]

로그인

작성자 이니스프리 119 Lv. (2%) 4154460/115200000EXP

댓글 12

신고

신고

신고

신고

신고

신고

신고

신고

신고

신고

삭제

신고

신고

검색

로그인

작성자

이니스프리 119 Lv. (2%) 4154460/115200000EXP