AJ - All about Japanese - www.Japanese.or.kr

1. 코퍼스

2. 일본어 코퍼스

2-1. 「일본 미디어의 한국 뉴스 코퍼스」 및 감정극성 분석 프로그램


	1) 「일본 미디어의 한국 뉴스 코퍼스 : AJ 일본 뉴스 코퍼스」Ver.1.202007
	a. 수집기간 : 2010년 7월 1일 ～ 2020년 6월 30일 / 10년 b. 수집사이트 : Livedoor ニュース / https://news.livedoor.com c. 정보필드 : Link, Title, SubTitle, Topic01, Topic02, Date, Media, MediaLink, Text(순서대로 뉴스기사 링크, 뉴스제목, 뉴스부제목, 뉴스상위분류, 뉴스하위분류, 게재일시, 미디어, 미디어 링크, 본문) d. 정보량 : 기사 총 7099건 / 9,216,077자(공백포함), 1,111,025단어 / 40개 파일, 23.5MB e. 문자코드(인코딩) : UTF-8(유니코드) f. 파일명 예시 : 2017-a.csv(2017년 일사분기), 2017-b.csv(이사분기) g. 코퍼스 다운로드 링크
	[배포]AJ_Corpus_Ver.1.202007.zip


	2) AJ-Semantic Orientations of Words Ver.1.2007

	a. 개발환경 : Python 3.8.3, Jupyter Notebook 6.0.3 b. 주 사용 패키지：Janome, pandas, scipy, seaborn, pyplot 등 c. 프로그램 구동 및 분석 순서수집된 코퍼스 전처리(정제) → 형태소 분석 → 감정극성치 분석 → 결과 출력 → 통계용 전처리(정제) → 기술통계, 샤피로 검정, 앤더슨 검정, 정규분포 검정 → 정규분포 히스토그램, QQ 플롯, 박스 플롯 작성 → 레빈 검정 및 바틀렛 검정 → 독립표본 t-Test → 분석 결과 정성분석 d. 코드 예시(감정극성치 분석 부분)

2-2. 「LDA 토픽모델링 기법을 활용한 소셜미디어의 일본 관련 텍스트의 토픽 분석」의 코퍼스 데이터


	1) 「네이버 블로그 일본 코퍼스(NBlog_Japan_Corpus)」Ver.1.0
	a. 수집기간 : 2013년 3월 31일 ～ 2023년 12월 31일 / 10년 b. 수집사이트 : 네이버 블로그 / https://blog.naver.com c. 정보필드 : 제목, 제목링크_URL, 내용, 작성자, 블로그링크_URL, 출처블로그, 게시시간, 이미지_URL, 추출시간 d. 정보량 : 게시 글 154,984건 / 81,209,056자(공백포함) / 40개 파일, 약 119MB e. 문자코드(인코딩) : UTF-8(유니코드) f. 파일명 : NBlog_Japan_Corpus_all_Free.csv g. 코퍼스 다운로드 링크
	[배포] AJ_Corpus_NBlog_Japan_Corpus_all_Free.zip

3. 코퍼스 관련 논문

3-1. 일본어 주석 코퍼스(tagged corpus)의 구축 방법에 대하여 - 김유영・眞島知秀

	1) 논문 개요 - 한국일본학회 (KAJA-Korea Association of Japanology) 2003년 7월 5일 발표 - 한국 일본학회 日本學報, Vol.57 No.1 93-107pp, 2003년 12월 게재 2) 논문 초록 본고는 일본어 주석 코퍼스(tagged corpus)の구축방법에 관해서, 고려대학교 이한섭교수 연구실에서 작업이 진행되고 있는 일한병렬코퍼스 구축시의 문제점을 고려하여 분석한 것이다. 본고에서는 우선 텍스트 코퍼스와 음성 코퍼스의 차이, 그리고 원시 코퍼스와 주석 고퍼스의 차이에 관해 설명하고, 각 연구분야에 있어서 다양한 형태의 코퍼스에 관해서도 함께 알아보았다. 그리고 주석 코퍼스는 왜 필요한가, 그리고 그 필요성에 관해서 언급했다. 주석 코퍼스의 실제 구축방법에 관해서도 구체적으로 다루어, 각 단계에 있어서 주의해야 할 점과 유용한 코퍼스를 구축하는 데에 필요한 사항을 고찰해 보았다. 그리고 주석을 부여하는 작업에 있어서 수작업과 자동화 방법을 비교하고, 그 장단점에 관해 정확하고 효율적 이라는 관점에서 검증해 보았다. 그 결과, 가장 실제적인 방법으로서 우선 각종 주석 부여 프로그램을 이용하여 개략적인 가공 후 수작업으로 프로그램의 오인식을 수정하여 편집하는 방법이었다. 그러나 프로그램을 사용하는 이 방법에서는 프로그램의 사양에 따라 원하는 작업결과를 얻을 수 없는 경우도 많아, 항상 자신의 연구목적에 맞는 프로그램을 찾지 않으면 안 된다는 난점이 있다. 그러나 모든 작업을 하나의 프로그램에 의존하여서는 안되고, 각 프로그램이 갖은 특징이나 장단점을 파악하고, 다양한 프로그램을 조합하여 자동화 작업을 하는 것이 가능하다면, 보다 빠르게 보다 정확하게 그리고 보다 대량의 주석 코퍼스를 구축할 수 있다는 것을 확인했다. 코퍼스의 가치를 결정하는 균형성, 타당성, 일관성을 유지한 주석 코퍼스를 구축하기 위해서는 다양한 프로그램에 관한 지식과, 그리고 이들을 효과적으로 조합하여 활용하는 능력이 필요 불가결할 것이다.
	3) 논문 본문 다운로드 - 어도비 아크로뱃(Pdf) Download

3-2. 텍스트마이닝 기법을 활용한 일본 미디어의 한국 뉴스에 대한 감정 추이에 대한 분석 - 김유영(Kim Yu Young)

	1) Abstract - English
	Analysis of the Japanese media's emotions about Korea-related news using text mining techniques; by introducing the Semantic Orientations of Words analysis method using Python In the era of big data, it is no longer possible to effectively collect, refine, and perform meaningful interpretations of necessary information only by methods such as conventional manual and intuitive insight. Therefore, in this paper, we built a large-scale text data independently and performed text mining analysis based on the recognition that the introduction of text mining technique is also required in the field of Japanese studies and that verification of the practical technique itself is also necessary. As a result, it was confirmed that Semantic Orientations analysis of the text using 'the Semantic Orientations of Words' is effective for the analysis of the 'emotion' of the text. Besides, it has been confirmed that Japanese media's 'Semantic Orientations' toward Korea has been deteriorating over the past decade. Above all, it was also confirmed that Semantic Orientations of Japanese media news articles about Korea were actively reflected in the issue of Korea-Japan relations.

	2) 要旨 - Japanese
	テキストマイニングを用いた日本のメディアの韓国ニュースにおける感情の推移に対する分析-Pythonを用いた「単語感情極性対応表」及びLDAトピックモデルリング分析を活用して- ビックデータの時代には今までの手作業だけでは膨大なデータの中で必要な情報を効果的に取集・精製し，意味のある解釈を遂行することが不可能にひとしくなっている。よって本稿では，日本語学の分野でもテキストマイニングの手法の導入が必要である点，またその実際の手法自体に対する検証も必要であるという認識のもとで，独自的に大規模のテキストデータ(コーパス)を構築し，これに対するテキストマイニングの分析を行った。その結果，「単語感情極性対応表」を活用したテキストの「感情極性」の分析はテキストの「感情」の分析に効果的である点を確認できた。また，この10年間における日本のメディアの韓国に対する「感情」は持続的に悪化している点，また何より韓日関係の出来事によって韓国に対する日本のメディアのニュース記事の「感情極性」が積極的に反映されて現れている点もまた確認できた。