본문 바로가기
IT 인터넷/노하우

이미지에서 글자(텍스트) 추출 하기 - OCR 활용

by Oriyong 2020. 3. 28.
반응형

이미지로 되어 있는 내용 중에 글자를 인식하는건 정말 귀찮은 작업입니다. 실제로 많은 사람들은 관련 내용을 찾아보느니, 그냥 사진을 보고 타이핑 치는 일도 많죠. 물론 이게 한, 두 장일 때는 상관이 없지만, 몇 장 이상되면 엄청난 시간을 쓰게 됩니다. 이런 불편함을 해결하기 위해 다양한 기술들이나 서비스들이 있는데요. 오늘 소개 드릴 내용은 구글드라이브에서 구글문서를 활용해서 이미지에서 글자를 추출하는 방법입니다.

이미지에서 글자를 추출하는 기술을 OCR(Optical character recognition)이라고 부르는데요. OCR 기능을 이용하려면 대부분 유료 서비스를 이용해야 합니다. 물론 전문적으로 하루에 수십 장씩 문서를 인식해서 추출해야 하는 상황에선 다르겠지만, 우리는 한 푼이라도 더 아껴야 하니까요. ㅎㅎ

 

구글 드라이브 소개

구글 드라이브는 인터넷 상에 존재하는 폴더, 파일 개념입니다. 이동식디스크의 인터넷버전이라고 생각하면 됩니다. 파일을 넣다, 뺐다 할 수 있습니다. 또한 여러 가지 문서를 인터넷에서 여러 사람이 같이 수정하는 기능도 제공합니다. 구글 문서의 경우 마이크로소프트 오피스의 워드 프로그램과 유사하다고 생각하면 됩니다. 웹브라우저에서 워드(문서 편집기)를 사용할 수 있습니다. 그런데 이런 워드 문서가 문서에서 글자 추출하는 것도 도와줍니다. 방법 안내 드립니다. ㅎㅎ

 

구글 드라이브 접속

우선은 구글 드라이브에 접근합니다. 구글에 로그인이 되어 있다면 다양한 서비스들이 보이실텐데요. 구글 드라이브는 그 중 하나입니다. 아래와 같이 접근하시면 됩니다.

접속하시면 구글드라이브에 있는 파일들이 보입니다. 물론 처음이라면 아무 것도 없겠죠. 우선은 글자를 추출할 이미지 파일을 업로드 합니다. 오늘 글자를 추출할 파일입니다. 일부로 글자 많은 파일로 찾았습니다.

이런 문서를 사진으로 보며 타이핑을 친다고 생각하면, 하기도 전에 이미 힘들죠. ㅎㅎ;;

 

사진 업로드

전 임시폴더를 만들어서 진행했습니다. 우선은 적당한 폴더에 사진을 업로드 합니다.

새로 만들기 또는 화면에서 우클릭을 하면 아래와 같은 창이 뜨는데요. 거기서 파일 업로드를 누르셔서 추출하고자 하는 글자를 가지고 있는 이미지를 선택해 주시면 됩니다.

구글 문서 앱 연결

글자를 업로드 했다면 추출을 해야겠죠.

파일에서 마우스 우클릭 후에 연결 앱 > Google 문서 를 클릭하시면 됩니다. 그러면 변환 화면이 잠시 뜬 후에 결과를 보여줍니다.

내용 확인

위 화면처럼 결과가 구글 문서로 표시됩니다. 물론 텍스트는 이제 맘 편히 복사, 붙여넣기가 가능합니다. 이제 내용이 잘 판독되서 추출됐는지, 내용을 확인해야 합니다. 생각보다 완벽하지 않습니다. 이런 정자로 된 글자만 있는 사진은 웬만하면 잘 추출합니다. 그런데 독특한 글씨체나, 표나 일상의 다른 모습이 배경으로 있는 글자 같은 건 꼭 다시 확인을 해봐야 합니다. ㅎㅎ

 

마무리

OCR 기술은 완벽하지 않습니다. 사용해 보면 오타도 좀 있구요. 그래서 역시나 최종검수는 직접 해주셔야 합니다. 그래도 검수 정도라니... 처음부터 타이핑 치는 것에 비하면 비약적인 효율입니다. ㅎㅎ 이외에도 구글은 드라이브, 워드, 프레젠테이션, 엑셀 등의 기능과 지도, 뉴스, 달력, 사진 등 엄청나게 다양하고 편리한 도구들을 무료로 제공합니다. 최근에는 마이크로소프트도 오피스365 등의 서비스를 이용해서 여러 명이 하는 공동 작업 등을 지원합니다. 이것저것 하나씩 둘러보시면서 활용할 기능들이 뭐 있나 찾아보시면 재미가 솔솔합니다. 능력있는 직장인들은 인터넷의 다양한 서비스들을 충분히 활용해서 업무효율을 높이니까요. ㅎㅎ

 

반응형