본문 바로가기

끝나지 않는 개발스터디14

OCR을 이용해보자 OCR(Optical Character Recognition) 을 이용해 PDF 파일에서 글자를 추출해 보기 위해 OCR에 대해 간단히 알아보았습니다. OCR (Optical Character Recognition) 이란? 광학 문자 인식 텍스트 이미지를 기계가 읽을 수 있는 텍스트 포맷으로 변환하는 과정 이미지 획득 -> 이미지 전처리 -> 텍스트 인식 -> 후처리 참고: https://aws.amazon.com/ko/what-is/ocr/ Tesseract란? OCR 오픈 소스 라이브러리 Apache license. 2006년부터 구글이 후원함 다양한 운영체제에서 사용 가능 Tesseract는 이미지 포맷만을 지원함 tessdoc을 참고하여 tesseract가 문자를 인식할 수 있도록 이미지 준비 e.. 2024. 4. 2.
네트워크 장비 정리 공유기(IP sharer) DHCP 서버 기능 DHCP 서버: DHCP임대시간을 적용해서 유동적으로 IP를 발급하고 회수하는 역할을 하는 서버 DHCP(Dynamic Host Configuration Protocol): 네트워크 장치가 IP를 요청하고 IP를 할당할 수 있게 하는 표준 프로토 참고: https://extrememanual.net/8698 라우터(Router) 소스에서 대상으로 이동하는 데이터 경로를 지정 선택한 경로를 따라 데이터 패킷을 전달 라우팅 프로토콜(Routing protocol) BGP(Border Gateway Protocol): 경로의 거리 뿐만 아니라 경로 도중에 경유하는 AS(자율 시스템)정보도 포함하여 경로 정보를 만드는 방식 OSPF(Open Shortest Path.. 2024. 3. 21.
정규표현식(Regular expression/regexp/regex) 정규표현식이란? Stephen Cole Kleene이 만든 정규언어로부터 유래 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어 기본 제공 개념 Boolean "Or" | → gray|grey 는 gray 또는 grey와 매칭 됨 그룹핑 () → gray|grey 를 gr(a|e)y처럼 사용도 가능함 수량자 ? → 0부터 1차례까지 발생 * → 0번 이상의 발생 + → 1번 이상의 발생 {n} → 정확히 n번만큼 일치시킴 {min,} → min번 이상만큼 일치시킴 {min, max} → 적어도 min번만큼 일치시키고 max번을 초과하여 일치시키지는 않음 언어마다 다르지만 POSIX 표준 규칙이 적용되어 있음 POSIX Basic Regular Expressions (BRE) 메타문자 기.. 2024. 3. 6.
파일 구조(File structure) 파일 구조란? 파일이 정리되어 있는 방식 파일 구조가 있어야 하는 이유 사용자가 파일을 쉽게 찾을 수 있게 함(검색) 여러명의 사용자가 파일을 함께 사용할 수 있게 느린 디스크 접근을 최소화 할 수 있게 설계 접근 방식에 따라 파일구조를 분류 순차접근파일(Sequential Access Method File) 데이터를 물리적으로 연속된 위치에 기록된 파일 장점: 데이터를 쌓고 사용하기 매우 직관적이고 쉬움 단점: 파일 검색 시 순차검색을 해야 직접접근 시 순차적으로 접근해야 하므로 효율이 매우 떨어짐. 새로운 데이터를 삽입하거나 삭제 시 시간이 매우 오래 걸림 색인순차접근파일(Indexed Sequential Access Method File) 순차파일구조에 인덱스 테이블을 추가해 기존처럼 순차접근과 인.. 2024. 3. 2.