인문학
사회과학
자연과학
공학
의약학
농수해양학
예술체육학
복합학
개인구독
소속 기관이 없으신 경우, 개인 정기구독을 하시면 저렴하게
논문을 무제한 열람 이용할 수 있어요.
지원사업
학술연구/단체지원/교육 등 연구자 활동을 지속하도록 DBpia가 지원하고 있어요.
커뮤니티
연구자들이 자신의 연구와 전문성을 널리 알리고, 새로운 협력의 기회를 만들 수 있는 네트워킹 공간이에요.
논문 기본 정보
- 자료유형
- 학술저널
- 저자정보
- 발행연도
- 2026.2
- 수록면
- 99 - 113 (15page)
- DOI
- 10.7470/jkst.2026.44.1.099
이용수
초록· 키워드
도시 내 사회문제를 해결하기 위해 대부분의 지자체는 민원 데이터를 정책 근거로 활용하고 있으나, 민원 텍스트에는 주소·차량번호·이름 등 개인정보와 공격적 표현, 비속어가 함께 포함되어 있어 제3자 제공이나 개방에 한계가 있다. 이에 따라 정규표현식이나 개체명 인식 모형을 활용한 텍스트 가명처리가 널리 사용되고 있으나, 문맥을 충분히 반영하지 못하거나 데이터 유용성과 개인정보 보호 간 균형을 맞추는 데 어려움이 존재한다. 본 연구는 공간적으로 대구광역시, 시간적으로 2023년 12월부터 2025년 3월까지 수집된 교통 민원 텍스트 4,889건을 대상으로 현업에서 활용 가능한 안전한 가명처리 방법을 제시하고, 이를 정량적으로 비교·평가하고자 한다. 비교 대상 모형은 ① 개체명 인식(NER) 기반 치환 모델, ② 다국어 언어모델 기반 합성데이터 생성(Qwen 2.5), ③ 한국어 특화 언어모델 기반 합성데이터 생성(EXAONE 3.5), ④ 민원 제목을 ‘의도’로 간주하고 본문 내 핵심 명사·동사를 재조합하여 문장을 재작성하는 ‘의도 재조합’ 기반 한국어 언어모델(EXAONE 3.5)이다. 데이터 유용성과 개인정보 보호 관점에서 분석한 결과, 개체명 인식 방법은 원문 구조와 단어 분포를 가장 유사하게 유지하였으나, 개인정보 및 비속어 잔여 비율이 상대적으로 높게 나타났다. 반면 제안한 한국어 언어모델 기반 ‘의도 재조합’ 방식은 잔여 개인정보·비속어 비율이 5.27%로 가장 낮게 나타났고, 원문 문장의 의미 유사도도 약 94% 수준으로 유지되는 것을 확인하였다. 다국어 언어모델의 경우 문맥 왜곡과 외국어(중국어) 혼합 등이 발생하여 실제 현업에 적용하기에는 한계가 있는 것으로 나타났으며, 이러한 결과는 한국어 특화 언어모델과 의도 기반 재구성 접근이 지자체 교통 민원 데이터의 안전한 데이터 활용에 있어 주요한 기초 연구가 될 것으로 판단되며, 향후 도시내 다양한 분야로 일반화되기 위해 후속연구의 필요성도 함께 제시하였다.
#complaint text
#large language models
#personal information protection
#pseudonymization
#synthetic data
#민원 텍스트
#대규모 언어 모델
#개인정보 보호
#가명처리
#합성데이터
상세정보 수정요청해당 페이지 내 제목·저자·목차·페이지정보가 잘못된 경우 알려주세요!
목차
- Abstract
- 서론
- 선행연구
- 연구 방법론
- 분석 결과
- 결론 및 향후 연구 방향
- REFERENCES
참고문헌
참고문헌 신청최근 본 자료
UCI(KEPA) : I410-151-26-02-096081868