Data Scientist

Postech KITA AI competition

ย 


When : 2023.07.07~2023.08.25
Where : Offline
Who : 29 people and 4 members (JS.Kwon, SY.Choi, SB.Choi, YJ.Han)
What : A-Z about AI study
Difficulty : ๐Ÿ”ฅ๐Ÿ”ฅ๐Ÿ”ฅ๐Ÿ”ฅ๐Ÿ”ฅ
๊ด€๋ จ ๋งํฌ ์ฒจ๋ถ€
https://newtradecampus.kita.net/page/user_job_AI_details
https://www.youtube.com/watch?v=e_7KcXoqalY&t=698s


2023๋…„ 6์›” 18์ผ ์‹ ์ฒญํ•˜์—ฌ ๋Œ€๋ฉด ๋ฉด์ ‘ ์ง„ํ–‰ ํ›„,
์—ฌ๋ฆ„ ๋ฐฉํ•™ ๋™์•ˆ ์˜คํ”„๋ผ์ธ์œผ๋กœ ํ™œ๋™ํ•œ ํ”„๋กœ๊ทธ๋žจ์ž…๋‹ˆ๋‹ค.

์žฌํ•™ 3๋…„ ์ฐจ ์ด์ƒ์ด๊ณ , ์ผ์ • ์ˆ˜์ค€ ์ด์ƒ์˜ ์˜์–ด ์ ์ˆ˜๊ฐ€ ์ง€์› ์ž๊ฒฉ์ด์—ˆ์Šต๋‹ˆ๋‹ค.

ํฌํ•ญ๊ณต๋Œ€ ์ธ๊ณต์ง€๋Šฅ์—ฐ๊ตฌ์›์˜ ์ธํ„ด์‹ญ ์ง€์› ๊ธฐํšŒ๊ฐ€ ์ œ๊ณต๋์Šต๋‹ˆ๋‹ค.
SK ๋””์Šค์ปค๋ฒ„๋ฆฌ์˜ ์ธํ„ด ๊ธฐํšŒ๋Š” ์žˆ์—ˆ๋Š”๋ฐ ์—†์–ด์กŒ์Šต๋‹ˆ๋‹ค.

๊ต์œก ๋‚ด์šฉ์€ 4์ฃผ ๊ฐ„์˜ AI๊ธฐ์ˆ ๊ณผ, 3์ฃผ ๊ฐ„์˜ AI๋น„์ฆˆ๋‹ˆ์Šค ์ „๋žต ๊ธฐํš์œผ๋กœ ๋‚˜๋ˆ ์กŒ์Šต๋‹ˆ๋‹ค.
AI ๊ธฐ์ˆ  ๊ต์œก ๋‚ด์šฉ์œผ๋กœ๋Š”,
ํŒŒ์ด์ฌ ๊ธฐ์ดˆ, ๋ฐ์ดํ„ฐ ๋ถ„์„, ์•Œ๊ณ ๋ฆฌ์ฆ˜, AI ๋ฆฌํ„ฐ๋Ÿฌ์‹œ, ๋จธ์‹ ๋Ÿฌ๋‹, ๋”ฅ๋Ÿฌ๋‹, ์–ธ์–ด ์ธ๊ณต์ง€๋Šฅ, AI ํ”„๋กœ์ ํŠธ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

AI ๊ธฐ์ˆ  ๊ต์œก ๊ธฐ๊ฐ„์—๋Š” ์›”~๊ธˆ, 10์‹œ๋ถ€ํ„ฐ 5์‹œ๊นŒ์ง€ ๊ต์œก์ด ์ง„ํ–‰๋์Šต๋‹ˆ๋‹ค.
ํ‰๊ท  12๋ช… ์ •๋„์˜ ์ธ์›์ด ์ˆ˜์—… ์ดํ›„ ์ž”๋ฅ˜ํ•˜์—ฌ ๊ฐœ์ธ์ ์œผ๋กœ ๋ณต์Šต์„ ํ–ˆ์Šต๋‹ˆ๋‹ค.
5๋ช… ์ •๋„์˜ ์ค€~์ „๊ณต์ž๋“ค์ด ๊ฐ ํŒ€์— ํ•œ๋ช…์”ฉ ๋ถ„์‚ฐ๋˜์–ด ํŒ€์ด ์ด๋ค„์กŒ์Šต๋‹ˆ๋‹ค.
๋น„์ „๊ณต์ž ๊ต์œก์ƒ๋“ค์ด ํ•ด๋‹น ๊ต์œก์— ๊ต‰์žฅํžˆ ์–ด๋ ค์›€์„ ๋งŽ์ด ๊ฒช์—ˆ์Šต๋‹ˆ๋‹ค.
์กฐ๊ธˆ ๊ณผ์žฅํ•˜์ž๋ฉด, ํ•œ ํ•™๊ธฐ ์ธ๊ณต์ง€๋Šฅ ๊ณผ์ •์„ 3์ผ๋กœ ์••์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค.
์••์ถ•๋œ 5๊ฐœ์˜ ์ธ๊ณต์ง€๋Šฅ์— ๋Œ€ํ•œ ์ด๋ก ๊ณผ ๊ธฐ์ˆ ์ ์ธ ๋‚ด์šฉ์„ 3์ฃผ ๋งŒ์— ์†Œํ™”ํ•˜๊ณ 
๋‚จ์€ 1์ฃผ๋Š” NLP ์ˆ˜์—…์„ ๋“ค์œผ๋ฉด์„œ ํ”„๋กœ์ ํŠธ๊นŒ์ง€ ์ง„ํ–‰ํ•˜๋Š”
์ •๋ง ์•…๋…ํ•œ ์ปค๋ฆฌํ˜๋Ÿผ์ด ์•„๋‹ ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค.

๊ฐœ์ธ์ ์œผ๋กœ, โ€œ์ด๊ฑธ ๋น„์ „๊ณต์ž๋“ค์ด ๋”ฐ๋ผ์˜ฌ ์ˆ˜ ์žˆ์„๊นŒ?โ€๋ผ๋Š” ์ƒ๊ฐ์ด ๋งค์ผ ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค.
๊ทธ๋Ÿผ์—๋„ ์ค‘๋„ ํฌ๊ธฐ์ž๊ฐ€ ํ•œ๋ช…๋„ ๋‚˜์˜ค์ง€ ์•Š์€ ์ƒํ™ฉ์—
์ €๋Š” ์ •๋ง ์ด ์‚ฌ๋žŒ๋“ค์€ ๋ญ๋“  ํ•ด๋‚ด๊ฒ ๊ตฌ๋‚˜ ์‹ถ์—ˆ์Šต๋‹ˆ๋‹ค.
์–ด๋–ป๊ฒŒ๋“  ๋•๊ณ  ์‹ถ์€ ๋งˆ์Œ์— ์ €๋„ ์•Œ๋ ค์ค„ ์ˆ˜ ์žˆ๋Š” ๊ฐœ๋…์€ ์ตœ๋Œ€ํ•œ ๊ณต์œ ํ•ด๊ฐ€๋ฉฐ,
๋Œ€๋ถ€๋ถ„์˜ ํŒ€ ํ”„๋กœ์ ํŠธ๋“ค์— ๋‹ค๋ฐฉ๋ฉด์œผ๋กœ ๋„์™€์ค€ ๊ธฐ์–ต์ด ๋‚ฉ๋‹ˆ๋‹ค.

์ƒ๊ฐ๋‚˜๋Š” ๊ฒƒ๋“ค๋กœ๋Š”,
์‚ฌ์šฉ ๋ฐ์ดํ„ฐ์˜ ๋ณผ๋ฅจ๊ณผ ํ”„๋กœ์ ํŠธ ์ ‘๊ทผ ๋ฐฉํ–ฅ์— ๋Œ€ํ•œ ๋‚ด์šฉ,
๊ฐ€์ƒ ํ™˜๊ฒฝ๊ณผ GPU ์‚ฌ์šฉ์— ๋Œ€ํ•œ ๋‚ด์šฉ,
์›นํฌ๋กค๋ง ์ฝ”๋“œ๋‚˜ ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ ํ›ˆ๋ จ ์‹œ์—
๋ชจ๋ธ์˜ ์›๋ฆฌ์— ๊ธฐ๋ฐ˜ํ•œ ์ œ๊ฐ€ ์ƒ๊ฐํ•˜๋Š” ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๋ฐฉํ–ฅ์„ฑ ๋“ฑ
๋‹ค์–‘ํ•˜๊ฒŒ ํ”ผ๋“œ๋ฐฑ์„ ๋‚˜๋ˆ„๋ฉฐ ๋‹ค ํ•จ๊ป˜ ์„ฑ์žฅํ•  ์ˆ˜ ์žˆ๋„๋ก ์†”์งํžˆ ๊ณ ์ƒ ์ข€ ํ–ˆ์Šต๋‹ˆ๋‹ค.

์ผ์ •์„ ์†Œํ™”ํ•˜๋ฉด์„œ ๋ณ‘์›๋„ ๊ฐ€๊ณ  ์ ์  ํ”ผํํ•ด์ ธ ๊ฐ€๋Š” ์‚ฌ๋žŒ๋“ค์„ ๋ณด๋ฉฐ ๋งˆ์Œ์ด ์•„ํ”„๊ธฐ๋„ ํ–ˆ์ง€๋งŒ,
์—ด๊ธฐ๋ฅผ ์žƒ์ง€ ์•Š๊ณ  ๋…ธ๋ ฅํ•˜์‹  ๋ถ„๋“ค์—๊ฒŒ ๊ณ ๋ง™๊ณ  ์ •๋ง ์ˆ˜๊ณ  ๋งŽ์•˜๋‹ค๋Š” ์–˜๊ธฐ๋ฅผ ํ•˜๊ณ  ์‹ถ์—ˆ์Šต๋‹ˆ๋‹ค.
๋•๋ถ„์— ์ €๋„ ๋˜‘๊ฐ™์€ ์—ด๊ธฐ๋กœ ํ•จ๊ป˜ ๊ฐœ๋ฐœํ•˜๋ฉฐ ์ค‘์š”ํ•œ ๊ฑธ ๋ฐฐ์šธ ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

โ€œ๊ตด๋ฆฌ๋ฉด ๊ตด๋Ÿฌ๊ฐ€๋Š” ๊ฒŒ ์‚ฌ๋žŒ์ด๊ตฌ๋‚˜!โ€
โ€œ๋ญ๋“  ํ•˜๋ฉด ๋œ๋‹ค!โ€
ย 
ย 


Project Lecture AI

์ €๋Š” 2์กฐ์—์„œ ํ”„๋กœ์ ํŠธ ์ด๊ด„์„ ๋งก์•˜์Šต๋‹ˆ๋‹ค.
์ฃผ๋กœ OCR ํŒŒํŠธ์—์„œ Text Detection, Text Rearrange์˜ ๊ฐœ๋ฐœ๊ณผ
Text Recognition์˜ ๋ณด์กฐ๋ฅผ ์ˆ˜ํ–‰ํ•˜๊ณ ,
TTS ํŒŒํŠธ์—์„œ๋Š” ์ด์Šˆ ๋ฐœ์ƒ ์‹œ ์ฝ”๋“œ ์ˆ˜์ •์„ ๋„์™”์Šต๋‹ˆ๋‹ค.
์ „์ฒด์ ์ธ ํ”„๋กœ์ ํŠธ์˜ ๊ด€๋ฆฌ์™€ ๊ฐœ๋ฐœ ์ƒํ™ฉ์— ๋งž๊ฒŒ ์„ธ๋ถ€ ์กฐ์ •์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.

ย 

ํ”„๋กœ์ ํŠธ๋ฅผ ๊ธฐํšํ•˜๊ฒŒ ๋œ ๋ฐฐ๊ฒฝ์€ ์ œ๊ฐ€ ํ˜„์‹ค์ ์œผ๋กœ ๋งˆ์ฃผํ•œ ๋ฌธ์ œ๋ฅผ ์ธ์‹ํ•˜๊ณ 
๊ทธ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ ์ž ํ•˜๋Š” ์‹œ๊ฐ์—์„œ ์•„์ด๋””์–ด๊ฐ€ ๋ฐœ์ƒํ–ˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฆ„ ์•„๋‹Œ ์ด ํ”„๋กœ๊ทธ๋žจ์˜ ๊ต์œก ๊ณผ์ •์ด ์ง„๋„๊ฐ€ ๊ต‰์žฅํžˆ ๋น ๋ฅด๊ณ  ์–ด๋ ค์šฐ๋ฉฐ
๋‚ด์šฉ์ด ์ƒ๋‹นํžˆ ๋งŽ์•˜๊ธฐ ๋•Œ๋ฌธ์— ์ƒ๊ธด ๋ฌธ์ œ์˜€์Šต๋‹ˆ๋‹ค. ๊ต์ˆ˜๋‹˜์˜ ํŒ์„œ์™€ ppt ๋‚ด์šฉ์„ ํ•„๊ธฐํ•˜๊ณ  ์žˆ์œผ๋ฉด
๊ต์ˆ˜๋‹˜์ด ๋”ฐ๋กœ ์–ธ๊ธ‰ํ•˜์‹œ๋Š” ๋‚ด์šฉ์„ ๋†“์ณ์„œ ์ˆ˜์—… ๋‚ด์šฉ์— ๋Œ€ํ•œ ์Šต๋“ ํšจ์œจ์ด ๋–จ์–ด์ง€๊ณ ,
๊ต์ˆ˜๋‹˜์˜ ๋ฐœํ™”์— ์ง‘์ค‘ํ•˜๋ฉฐ ์ˆ˜์—… ์ž์ฒด์— ์ง‘์ค‘ํ•˜๋ฉด
ํ•™์Šต ํšจ๊ณผ๋Š” ์ข‹์ง€๋งŒ ์ˆ˜์—… ์ดํ›„์— ๋ณต์Šตํ•˜๊ธฐ ์œ„ํ•œ ์ž๋ฃŒ๊ฐ€ ๋นˆ์•ฝํ•˜์—ฌ ์–ด๋ ค์›€์„ ๋Š๊ผˆ์Šต๋‹ˆ๋‹ค.
*์š”์•ฝํ•˜์ž๋ฉด ์ˆ˜์—… ๋”ฐ๋ผ๊ฐ€๊ธฐ ๋ฒ…์ฐจ์„œ ์ž๋™ ๋…ธํŠธ ํ•„๊ธฐ AI ๊ฐœ๋ฐœํ•˜๊ณ  ์‹ถ์—ˆ์Šต๋‹ˆ๋‹ค.

ย 

์ด ์„œ๋น„์Šค์˜ ๊ฐœ๋ฐœ์„ ํ†ตํ•ด ์ฐฝ์ถœํ•˜๊ณ  ์‹ถ์—ˆ๋˜ ๊ฐ€์น˜๋Š”
์ˆ˜๊ฐ•์ž๋“ค์ด ์„œ๋น„์Šค ์ด์šฉ์œผ๋กœ ํ•„๊ธฐ์— ๋Œ€ํ•œ ์••๋ฐ•๊ฐ์—์„œ ๋ฒ—์–ด๋‚˜๊ณ 
๊ต์ˆ˜์ž์™€ ์˜จ์ „ํ•œ ์ƒํ˜ธ์ž‘์šฉ์„ ํ†ตํ•ด ์ˆ˜์—…์˜ ์งˆ์  ํ–ฅ์ƒ์„ ๊ตฌ์ƒํ–ˆ์Šต๋‹ˆ๋‹ค.
์žฅ์• ์ธ ์ˆ˜๊ฐ• ๋ณด์กฐ ์„œ๋น„์Šค๋กœ์˜ ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ ๋˜ํ•œ
์œ ์˜๋ฏธํ•œ ์‚ฌํšŒ์  ๊ฐ€์น˜ ์‹คํ˜„์ด๋ผ๊ณ  ํŒ๋‹จํ•˜์—ฌ
์ฃผ์ œ๋ฅผ ์ตœ์ข… ์„ ์ •ํ•˜๊ณ  ๊ฐœ๋ฐœํ•˜๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

ย 

ํ”„๋กœ์„ธ์Šค๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋””์ž์ธํ–ˆ์Šต๋‹ˆ๋‹ค.
Process.jpg

ย 

ํšจ์œจ์ ์ธ ๊ฐœ๋ฐœ์„ ์œ„ํ•ด ํ”„๋กœ์ ํŠธ๋Š” OCR๊ณผ TTS ํŒŒํŠธ๋กœ ๋‚˜๋ˆ„์—ˆ์Šต๋‹ˆ๋‹ค.
OCR ํŒŒํŠธ์— 2๋ช…, TTS ํŒŒํŠธ์— 3๋ช…์˜ ์ธ์›์„ ๋ฐฐ์ •ํ–ˆ์Šต๋‹ˆ๋‹ค.
OCR ํŒŒํŠธ์—์„œ๋Š” ์ œ๊ฐ€ Text Detection, Text Rearrange์˜ ๊ตฌํ˜„์„ ๋งก์•˜๊ณ ,
๋‹ค๋ฅธ OCR ํŒŒํŠธ์› YJ.Han์ด Text Recognition์„ ๋‹ด๋‹นํ•˜์˜€์Šต๋‹ˆ๋‹ค.
TTS ํŒŒํŠธ์—์„œ๋Š” JS.Kwon, SY.Choi, SB.Choi ์„ธ ํŒ€์›๋“ค์ด Voice Recognition์˜ ๊ฐœ๋ฐœ์„ ๋งก์•˜์Šต๋‹ˆ๋‹ค.
TTS ํŒŒํŠธ๋Š” ์ €๋„ ์•„์ง ๋ชจ๋ฅด๋Š” ๋ถ€๋ถ„์ด ๋งŽ๊ธฐ ๋•Œ๋ฌธ์— ์„ค๋ช…์—์„œ ์ƒ๋žตํ•˜๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.
ย 
ย 


Text Detection Model ๊ฐœ๋ฐœ

Data preprocess

Dataset : IAM handwriting dataset

CharacterLabelingExample.jpg
์œ„์ฒ˜๋Ÿผ Character ๊ฐ๊ฐ์— BBox labeling๋˜์–ด์žˆ๋Š” IAM handwritting dataset์„

WordLabelingExample.jpg
๋‹ค์Œ๊ณผ ๊ฐ™์ด word ๋ณ„๋กœ labeling์ด ๋˜๋„๋ก ํ•จ๊ณผ ๋™์‹œ์—
coco format์˜ BBox Label์„ Yolo format์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์ฝ”๋“œ ๊ตฌ์ƒ
=> convertxml2yolo.ipynb
ย 
ย 

Model train

yolov5s pretrained model์„ ๊ฐ€์ ธ์™€
์ „์ฒ˜๋ฆฌ๋ฅผ ๋งˆ์นœ IAM handwritting dataset์œผ๋กœ
word image detection model ํ›ˆ๋ จ
ย 
ย 

Model test

ํ›ˆ๋ จ ๋ชจ๋ธ ํ…Œ์ŠคํŠธ
hyj_paper_text_detection_result.jpg
๊ฝค ์ž˜ ๋‚˜์˜ต๋‹ˆ๋‹ค.
์‚ฌ์‹ค ์œ„์˜ ์ด๋ฏธ์ง€๋ฅผ ์‚ฌ์šฉํ•˜์ง„ ์•Š๊ณ 
๋‹จ์–ด ์ด๋ฏธ์ง€๋ฅผ text recognition model์— ๋„˜๊ฒจ์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์—
crop option์„ ์‚ฌ์šฉํ•˜์—ฌ cropped image๋“ค์„ ์ถ”์ถœํ•ด์ค๋‹ˆ๋‹ค.
ย 
ย 

image detection์„ ํ†ตํ•ด handwritten text image์—์„œ
๊ฐ๊ฐ์˜ word image๋ฅผ ์ถ”์ถœํ–ˆ์œผ๋‚˜,
์ˆœ์„œ๋ฅผ ์•Œ์ง€ ๋ชปํ•˜๊ฒŒ ๋‹จ์–ด๋งŒ ํ™•์ธ์ด ๋˜์–ด
์›๋ž˜ ๊ธ€์˜ ์˜๋ฏธ๋ฅผ ์žƒ์–ด๋ฒ„๋ฆฌ๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋งŒ ์ถ”์ถœ ์‹œ์— ๋‹จ์–ด์˜ ์ขŒํ‘œ๊ฐ’์„ ํฌํ•จ์‹œํ‚ฌ ์ˆ˜ ์žˆ์—ˆ๊ธฐ์—
๊ฐ ๋‹จ์–ด์˜ ์ด๋ฆ„์— x,y์ขŒํ‘œ๊ฐ’๊ณผ w,h ์ •๋ณด๋ฅผ ํฌํ•จํ•˜์—ฌ
๋‹จ์–ด ์ด๋ฏธ์ง€ ํŒŒ์ผ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

๊ฐ ๋‹จ์–ด ์ด๋ฏธ์ง€๋“ค์˜ raw img data์—์„œ ์œ„์น˜ ๊ด€๊ณ„๋ฅผ ์•Œ๊ธฐ ์œ„ํ•ด,
crop image ์ƒ์„ฑ ์ „์— ์ขŒํ‘œ ๋ฐ์ดํ„ฐ ํ›„ ์ฒ˜๋ฆฌํ•˜์—ฌ
์ด๋ฏธ์ง€ ํŒŒ์ผ๋ช…์— ๋ผ๋ฒจ๋งํ•˜๋Š” ์ฝ”๋“œ๋ฅผ detect.py์— ์ถ”๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค.
DetectFileFix.jpg

XYWHcroppedImg.jpg
ย 
ย 


Text Rearrange Process ๊ฐœ๋ฐœ

yolo model์„ ํ†ตํ•ด crop๋œ ์ด๋ฏธ์ง€๋“ค์€
ํŒŒ์ผ ์ด๋ฆ„์— crop๋˜๊ธฐ ์ „ raw image์—์„œ์˜ ์ขŒํ‘œ ์ •๋ณด๋ฅผ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.
Example>
x89y147w199h184.jpg
x10y148w157h184.jpg
x28y149w108h180.jpg

raw imageํŒŒ์ผ์—์„œ ๊ฐ™์€ line์— ์žˆ๋˜ word๋“ค์€
๊ฐ€๊นŒ์šด y๊ฐ’์„ ๊ฐ–๊ณ ์žˆ์„ ๊ฒƒ์ด๋ฏ€๋กœ,
๋ฐ€๋„๊ธฐ๋ฐ˜ ๊ตฐ์ง‘ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ
๊ฐ™์€ line์— ์žˆ์„ ๊ฒƒ์ด๋ผ๊ณ  ์˜ˆ์ƒํ•˜๋Š” word๊ฐ’๋“ค์€
๋™์ผ ํด๋Ÿฌ์Šคํ„ฐ์— ์†ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค..
์ด๋ ‡๊ฒŒ ๋™์ผ ํด๋Ÿฌ์Šคํ„ฐ์— ์†ํ•˜๋Š” y๊ฐ’๋“ค์˜ ํ‰๊ท ์„ ๊ตฌํ•˜์—ฌ
word์˜ ์ƒˆ๋กœ์šด y๊ฐ’์œผ๋กœ label.
๋‹จ์–ด ์ด๋ฏธ์ง€ ํŒŒ์ผ renameํ•  ๋•Œ, y๊ฐ’์ด ๋จผ์ € ์˜ค๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
Example>
yyyy_xxxx.jpg

y๊ฐ’์— ๋Œ€ํ•œ ์ •๋ ฌ์ด ๋˜๊ณ 
x๊ฐ’์— ๋Œ€ํ•ด ์˜ค๋ฆ„์ฐจ์ˆœ์œผ๋กœ ์ •๋ ฌ๋ฉ๋‹ˆ๋‹ค.
Example>
0148_0010.jpg
0148_0028.jpg
0148_0089.jpg

word file์˜ ์ˆœ์„œ๊ฐ€ ์ž๋™์ ์œผ๋กœ ์›๋ž˜ text์˜ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
DBSCANchange.jpg
ย 


Text Recognition Model ๊ฐœ๋ฐœ

Data collection & preprocess

Text Detection์—์„œ ์‚ฌ์šฉํ–ˆ๋˜ IAM dataset์„ ์žฌํ™œ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.
raw image data์˜ ๊ฐ ๋‹จ์–ด์— ๋Œ€ํ•œ ํ…์ŠคํŠธ ๋ผ๋ฒจ๋ง์ด ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.
ํ›ˆ๋ จ๋œ Text detection model์„ ์‚ฌ์šฉํ•ด
๋‹จ์–ด ์ด๋ฏธ์ง€๋“ค์„ ์ถ”์ถœํ•˜๊ณ  ํ•ด๋‹น ํ…์ŠคํŠธ ๋ผ๋ฒจ๊ณผ ๋งค์นญ์‹œํ‚ต๋‹ˆ๋‹ค.
word image์— ๋Œ€ํ•œ word text๋กœ ์ด๋ฃจ์–ด์ง„ ์ƒˆ๋กœ์šด dataset์„ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค.
ํ•ด๋‹น dataset์„ IAM.m2์ด๋ผ๊ณ  ํ•ด๋‘๊ฒ ์Šต๋‹ˆ๋‹ค.

  • IAM.m2 dataset - 115,320 words
    ย 

๊ทธ๋ฆฌ๊ณ  ์„œ๋น„์Šค ๊ธฐํš์— ๋”ฐ๋ผ ๋‘ ๊ฐ€์ง€ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•ด์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์—
YJ.Han ํŒ€์›์ด ๊ฐ€์ง€๊ณ  ์žˆ๋˜ ์˜๋ฌธ ํ•„๊ธฐ ๋…ธํŠธ๋ฅผ ์ „์ฒ˜๋ฆฌ ์ž‘์—… ํ›„
Text Detection model๋กœ 1000์—ฌ๊ฐœ ๋‹จ์–ด ์ด๋ฏธ์ง€ ์ถ”์ถœํ–ˆ์Šต๋‹ˆ๋‹ค.
SY.Choi ํŒ€์›์€ ์˜๋ฌธ ํ•„๊ธฐ ๋…ธํŠธ๊ฐ€ ์—†์–ด
๋ฌธํ•™ ์ž‘ํ’ˆ ํ•„์‚ฌ๋กœ 2000๊ฐœ ๋‹จ์–ด ์ž‘์„ฑ ํ›„ ๋™์ผํ•˜๊ฒŒ image cropํ–ˆ์Šต๋‹ˆ๋‹ค.
๋ผ๋ฒจ๋ง ์—…๋ฌด ํ”„๋กœ์„ธ์Šค์˜ ํšจ์œจ์„ฑ์„ ์œ„ํ•ด ์ž์ฒด ๋ผ๋ฒจ๋ง ํ”„๋กœ๊ทธ๋žจ ๊ฐœ๋ฐœ ํ›„,
๋‘ ํŒ€์› YJ.Han, SY.Choi์—๊ฒŒ ์ „๋‹ฌํ•˜์—ฌ ๊ฐ ๋‹จ์–ด ์ด๋ฏธ์ง€์— ๋Œ€ํ•œ ๋ผ๋ฒจ๋ง์„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.
=>LabelingCode.ipynb

์ตœ์ข…์ ์œผ๋กœ ์„œ๋กœ ๋‹ค๋ฅธ ํ•„์ฒด์˜ ๋‘ ๊ฐ€์ง€ dataset์„ ๊ตฌ์ถ• ์™„๋ฃŒํ–ˆ์Šต๋‹ˆ๋‹ค.

  • HYJ dataset - 1,179 words
  • CSY dataset - 2,072 words

ย 
ย 

Model training and test

Naver Clover์˜ text recognition model์„ ๊ฐ€์ ธ์™€ ์ „์ดํ•™์Šต์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.
Scene Text Recognition ๋ชจ๋ธ์„ ์„ ํƒํ•œ ์ด์œ ๋Š”
์‹ค์ƒํ™œ์—์„œ ๋ณด์ด๋Š” ๋ถˆ๊ทœ์น™ํ•œ text ์ด๋ฏธ์ง€์— ์ธ์‹์— ์ดˆ์ ์„ ๋‘๊ณ  ๊ฐœ๋ฐœ๋œ ๋งŒํผ
์•…ํ•„, ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ์€ ํŒ์„œ, ํ•„๊ธฐ ๋ฐ์ดํ„ฐ์—๋„ ๊ฐ•๊ฑดํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค„ ๊ฒƒ์œผ๋กœ ์ƒ๊ฐํ•จ.
ย 

First Transfer Learning with IAM.m2 dataset

pretrained model์„ ๋ถˆ๋Ÿฌ์™€์„œ IAM.m2 dataset์œผ๋กœ transfer learning์„ ์ง„ํ–‰
IAM.m2_Dataset.jpg
IAM TextRecognition model
accuracy : 83.531
valid loss : 0.60929
ย 

Second Transfer Learning with HYJ dataset

transfer learningํ•œ IAM TextRecognition model์„ ๋ถˆ๋Ÿฌ์™€์„œ,
{HYJ dataset}์œผ๋กœ ๋‹ค์‹œ transfer learning์„ ์ง„ํ–‰
HYJ_Dataset.jpg
IAM-HYJ TextRecognition model
accuracy : 92.792
valid loss : 0.36510
ย 

Second Transfer Learning with CSY dataset

transfer learningํ•œ IAM TextRecognition model์„ ๋ถˆ๋Ÿฌ์™€์„œ,
{CSY dataset}์œผ๋กœ ๋‹ค์‹œ transfer learning์„ ์ง„ํ–‰
CSY_dataset.jpg
IAM-CSY TextRecognition model
accuracy : 91.220
valid loss : 0.27884

๋‹ค์–‘ํ•œ ํ•„๊ธฐ์ฒด๋ฅผ ๊ฐ€์ง„ IAM์œผ๋กœ ์ดˆ๋ฒŒ ํ›ˆ๋ จํ•˜๊ณ ,
์ดํ›„ ๋‹จ์ผ ํ•„๊ธฐ์ฒด์— ๋Œ€ํ•œ (HYJ/CSY) dataset์œผ๋กœ ์žฌ๋ฒŒ ํ›ˆ๋ จ์„ ์ˆ˜ํ–‰ํ•œ ๊ฒฐ๊ณผ,
accuracy๊ฐ€ ๋งŽ์ด ํ–ฅ์ƒ๋œ ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.
์„œ๋กœ ๋‹ค๋ฅธ ํ•„๊ธฐ์ฒด๋กœ ๋ชจ๋ธ์„ ๊ฐ๊ฐ ํ›ˆ๋ จํ•˜์—ฌ,
๋™์ผ ๊ธ€์”จ์ฒด์— ๋Œ€ํ•˜์—ฌ ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ์ด๋Œ์–ด๋‚ผ ์ˆ˜ ์žˆ์—ˆ๊ณ ,
์ด๋Š” ๊ฐœ์ธ-์ตœ์ ํ™”๋œ ๋ชจ๋ธ ๊ฐœ๋ฐœ์— ์˜์˜๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

์ถ”ํ›„ ๊ฐœ๋ฐœ ๊ฐ€๋Šฅ์„ฑ:
๊ฐ•์‚ฌ ์–ผ๊ตด ์ธ์‹์„ ํ†ตํ•œ ํŒ์„œ ๋ชจ๋ธ ์Šค์œ„์นญ.
๊ฒŒ์ž„ ํ˜•์‹์œผ๋กœ ํ•„์š”ํ•œ ์ˆ˜์—… ๋‚ด์šฉ๋งŒ Popup์‹œ์ผœ์„œ
ํ•™์Šต์ž๊ฐ€ ์›ํ•˜๋Š” ์ •๋ณด๋งŒ ๊ฐ€์ ธ๊ฐˆ ์ˆ˜ ์žˆ๋„๋ก ๊ฐœ๋ฐœ.
ํ˜ผํ•ฉ์–ด, ๊ธฐํ˜ธ, ๋„ํ˜• ๋“ฑ์˜ dataset์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ํ›ˆ๋ จ์„ ํ†ตํ•ด
๋” ํ’๋ถ€ํ•œ ํ•™์Šต ์ง€์›์ด ๊ฐ€๋Šฅํ•˜๋„๋ก ๊ฐœ์„ .
์†Œํ˜• ๋‹จ๋ง ๊ธฐ๊ธฐ๋ฅผ ํ†ตํ•ด ์‹ค์‹œ๊ฐ„์œผ๋กœ ๊ฐ•์˜ ์˜์ƒ์„ ์ „๋‹ฌ ๋ฐ›์•„์„œ
์ฒ˜๋ฆฌ ํ›„ ์ „๋‹ฌํ•˜๋Š” ํ”„๋กœ์„ธ์Šค ์ถ”๊ฐ€.
ย 
ย 


7์›”๋ถ€ํ„ฐ 8์›”๊นŒ์ง€ ๋‘๋‹ฌ๊ฐ„์˜ ๊ต‰์žฅํžˆ intensiveํ•œ ๋Œ€์™ธํ™œ๋™์ด์—ˆ์Šต๋‹ˆ๋‹คโ€ฆ
์ด ํ™œ๋™ ์ดํ›„์—๋Š” ๊ฝค ํ•˜๋“œํ•œ ์ผ์ •์ด๋ผ๋„ ๋ณ„ ํƒˆ ์—†์ด ์†Œํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์—˜๋ฆฌํŠธ ๋Œ€ํ•™์ƒ ์ธ๊ณต์ง€๋Šฅ ์ „๋žต๊ณผ์ •(a.k.a ์—˜๋Œ€์ธ์ „)
์—˜๋Œ€์ธ์ „ 1๊ธฐ๋กœ ์ˆ˜๋ฃŒ๋ฅผ ํ–ˆ์Šต๋‹ˆ๋‹ค.
ํŒŒ์ผ๋Ÿฟ ํ”„๋กœ๊ทธ๋žจ์ด์—ˆ๋˜ ๋งŒํผ ๋‹ค์–‘ํ•œ ์šฐ์—ฌ๊ณก์ ˆ์ด ์žˆ์—ˆ๋Š”๋ฐ์š”,
์—˜๋Œ€์ธ์ „ 2๊ธฐ๋Š” ์—†๋‹ค๋Š” ๊ฒฐ๊ณผ๊ฐ€ ๋งŽ์€ ๊ฒƒ์„ ์„ค๋ช…ํ•ด ์ฃผ๋Š” ๋“ฏ ํ•ฉ๋‹ˆ๋‹ค.
๋‚˜์œ ์˜๋ฏธ์—์„œ 2๊ธฐ๊ฐ€ ์—†๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ
๋„ˆ๋ฌด ๊ณ ๊ธ‰ ์ธ์  ๋ฆฌ์†Œ์Šค๊ฐ€ ๋งŽ์ด ๋“ค์–ด๊ฐ€๋Š” ํ”„๋กœ๊ทธ๋žจ์ด๋‹ค ๋ณด๋‹ˆ
2024๋…„์—๋Š” ๋Œ€ํ•™์ƒ ์ธ๊ณต์ง€๋Šฅ ๋ฌด์—ญ์บ ํ”„๋ผ๋Š” ํ”„๋กœ๊ทธ๋žจ์œผ๋กœ
๊ฐœํŽธํ•  ์ˆ˜ ๋ฐ–์— ์—†์—ˆ๋‹ค๊ณ  ๋ด…๋‹ˆ๋‹ค.
์‚ฌ์‹ค ์ฒ˜์Œ ์‹œ์ž‘๋ถ€ํ„ฐ ๋‹ด๋‹น์ž๊ป˜์„œ
ํ”„๋กœ๊ทธ๋žจ์ด 1๊ธฐ๋กœ ๋งˆ๋ฌด๋ฆฌํ•  ์ˆ˜๋„ ์žˆ๋‹ค๋Š” ์–˜๊ธฐ๋ฅผ ํ•˜์…”์„œ
์–ด๋Š ์ •๋„ ์˜ˆ์ƒ๋œ ๊ฒฐ๊ณผ์˜€์Šต๋‹ˆ๋‹ค.

์ •๋ง ์ข‹์€ ๊ฐ•์˜๋ฅผ ํ•ด์ฃผ์‹  ์œค์€์˜ ๊ต์ˆ˜๋‹˜, ์œ ํ™˜์กฐ ๊ต์ˆ˜๋‹˜, ์•ˆํฌ๊ฐ‘ ๊ต์ˆ˜๋‹˜, ์ตœ์Šน์ง„ ๊ต์ˆ˜๋‹˜, ์œ ํ™˜์กฐ ๊ต์ˆ˜๋‹˜ ๊ฐ์‚ฌ๋“œ๋ฆฝ๋‹ˆ๋‹ค.
AI์ „๋žต ๊ธฐ๊ฐ„์— ํŠน๊ฐ•์„ ํ•ด์ฃผ์‹  ๊น€์˜๋กฑ๋‹˜, ์œค์„ฑ์˜๋‹˜, SK discovery C&C์˜ AIํŒ€์›๋ถ„๋“ค๊ป˜
์•Œ์ฐฌ ๋‚ด์šฉ์˜ ๊ฐ•์˜ ํ•ด์ฃผ์…”์„œ ๊ฐ์‚ฌํ•˜๋‹ค๋Š” ๋ง์„ ์ „ํ•˜๊ณ  ์‹ถ์Šต๋‹ˆ๋‹ค.
ย 
ย 


3ํ•™๋…„ 2ํ•™๊ธฐ ์ข…๊ฐ• ์ดํ›„์— ๊ฐœ์ธ์ ์œผ๋กœ ๋‹ค์‹œ ์ฝ”๋“œ๋ฅผ ๋œฏ์–ด๋ณด๋ฉฐ ์ •๋ฆฌ๋ฅผ ํ–ˆ์Šต๋‹ˆ๋‹ค.
์ฝ”๋“œ ์งœ๋Š” ๊ฒƒ๋ณด๋‹ค ์ฝ”๋“œ ๋ณด๋Š” ๊ฒŒ ๋” ์ค‘์š”ํ•˜๋‹ค๋Š” ์–˜๊ธฐ๋ฅผ ์–ผํ• ๋“ค์—ˆ๋Š”๋ฐ์š”.
์žฌ๋ฏธ์—†๋Š” ๊ฑธ ๋ณด๋‹ˆ ์ค‘์š”ํ•œ ๊ฒŒ ํ™•์‹คํ•ฉ๋‹ˆ๋‹ค.

Lecture AI์—์„œ TTS ํŒŒํŠธ๋ฅผ ์ œ์™ธํ•˜๊ณ 
OCR ํŒŒํŠธ ํ”„๋กœ์„ธ์Šค๋ฅผ app์œผ๋กœ ๋ฐฐํฌํ•ด๋ดค์Šต๋‹ˆ๋‹ค.

Huggingface GRADIO space์— ์˜ฌ๋ผ๊ฐ„ Note Crawling AI app์˜ Flowchart
NoteCrawling.jpg

ย 
ย 
ํ•œ๋ฒˆ ์‚ฌ์šฉํ•ด๋ณด์„ธ์š”.
์†๊ธ€์”จ ์ด๋ฏธ์ง€๊ฐ€ ์•„๋‹ˆ๋”๋ผ๋„ ์˜๋ฌธ ํ…์ŠคํŠธ ์ด๋ฏธ์ง€๋ฉด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

huggingface NoteCrawling

Thank you for reading!


BANDALCOM๐Ÿป