한국근대소설 데이터셋(KNoTE) 공개

공지 내용

“이인직부터 지하련까지! 한국 근대소설 TEI 데이터셋 KNoTE 공개”한국학중앙연구원 디지털인문학연구소(AKS-DHLAB) 연구진이 구축한 KNoTE(Korean Novel TEI Encoded) 데이터셋을 공개합니다.
KNoTE는 1906년 이인직의 「혈의 누」부터 1946년 지하련의 「도정」까지, 한국 근대소설 33개 작품을 TEI(Text Encoding Initiative) P5 가이드라인에 따라 구조화한 XML 데이터셋입니다. 단순 텍스트 디지털화가 아니라, 등장인물(persName), 지명(placeName), 한자-한글 대응(foreign), 대화와 내면 독백(said), 직업(occupation) 등을 섬세하게 마크업했습니다.
LLM을 활용한 반자동 태깅 파이프라인으로 초벌 인코딩을 수행한 뒤, 연구자들이 한 작품 한 작품 직접 검수하고 수정했습니다. 기계의 효율성과 인간의 정밀함을 결합한 것이죠. 이인직·이해조·이광수·김명순·나혜석·김동인·현진건·채만식·이상·이효석·김유정·강경애·방정환 등 한국 근대문학사의 핵심 작가 22명의 대표작이 포함되어 있으며, 작품의 시간 범위는 1906년부터 1954년까지 약 반세기에 걸쳐 있습니다.
각 XML 파일에는 작품 서지 정보, 등장인물 목록(한자명 포함), 출처 기술, 인코딩 이력(누가 언제 작업·검수했는지)이 teiHeader에 체계적으로 기록되어 있어, 학술적 재현성과 투명성을 갖추고 있습니다.
한국어 근대소설 최초의 TEI 인코딩 데이터라 할 수 있습니다.- 데이터셋 정보
DOI: 10.5281/zenodo.19813475
라이선스: CC BY 4.0
용량: 2.9 MB (XML 33개 파일)
제작: 김가연(데이터 관리), 박선영(데이터 큐레이션), 지해인(데이터 수집), 이하경·이병주·정채연·이재열·조경민·임이로·Orkhan Ismayilov(어노테이션), 김병준(총괄)

🔗 데이터셋: https://doi.org/10.5281/zenodo.18679321
🔗 코드 및 프롬프트: https://github.com/AKS-DHLAB/KNoTE
🔗 관련 교육 콘텐츠: https://wikidocs.net/book/19071

관련 링크


🔗 공지 링크 바로가기

주최

한국학중앙연구원 디지털인문학연구소

첨부 자료


공지 포스터/문서

클릭하면 크게 볼 수 있습니다


이 정보는 KRLT 학술공지 신청 폼을 통해 제출되었습니다.

댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다