Intro Page
   
 
       Skip Navigation LinksMain Page > My Japanese Study > CORPUS(コーパス)  
  
Hi~ Login Please!!
or Register~ ;-)
Login Join Member


Language change
Korean / Japanese / English
IP : 18.97.14.86  --
 
Skip Navigation Links.
 
1. コーパス(Corpus)
 
2. 日本語コーパス(日本語コーパス)
   
  2-1. 「일본 미디어의 한국 뉴스 코퍼스」 및 감정극성 분석 프로그램
   
  1) 「일본 미디어의 한국 뉴스 코퍼스 : AJ 일본 뉴스 코퍼스」Ver.1.202007
 

a. 수집기간 : 2010년 7월 1일 ~ 2020년 6월 30일 / 10년

b. 수집사이트 : Livedoor ニュース / https://news.livedoor.com

c. 정보필드 : Link, Title, SubTitle, Topic01, Topic02, Date, Media, MediaLink, Text(순서대로 뉴스기사 링크, 뉴스제목, 뉴스부제목, 뉴스상위분류, 뉴스하위분류, 게재일시, 미디어, 미디어 링크, 본문)

d. 정보량 : 기사 총 7099건 / 9,216,077자(공백포함), 1,111,025단어 / 40개 파일, 23.5MB

e. 문자코드(인코딩) : UTF-8(유니코드)

f. 파일명 예시 : 2017-a.csv(2017년 일사분기), 2017-b.csv(이사분기)

g. 코퍼스 다운로드 링크

  [배포]AJ_Corpus_Ver.1.202007.zip
   
   
2) AJ-Semantic Orientations of Words Ver.1.2007
   

a. 개발환경 : Python 3.8.3, Jupyter Notebook 6.0.3

b. 주 사용 패키지:Janome, pandas, scipy, seaborn, pyplot 등

c. 프로그램 구동 및 분석 순서수집된 코퍼스 전처리(정제) → 형태소 분석 → 감정극성치 분석 → 결과 출력 → 통계용 전처리(정제) → 기술통계, 샤피로 검정, 앤더슨 검정, 정규분포 검정 → 정규분포 히스토그램, QQ 플롯, 박스 플롯 작성 → 레빈 검정 및 바틀렛 검정 → 독립표본 t-Test → 분석 결과 정성분석

d. 코드 예시(감정극성치 분석 부분)

 

 

  2-2. 「LDA 토픽모델링 기법을 활용한 소셜미디어의 일본 관련 텍스트의 토픽 분석」의 코퍼스 데이터
 
   
  1) 「네이버 블로그 일본 코퍼스(NBlog_Japan_Corpus)」Ver.1.0
 

a. 수집기간 : 2013년 3월 31일 ~ 2023년 12월 31일 / 10년

b. 수집사이트 : 네이버 블로그 / https://blog.naver.com

c. 정보필드 : 제목, 제목링크_URL, 내용, 작성자, 블로그링크_URL, 출처블로그, 게시시간, 이미지_URL, 추출시간

d. 정보량 : 게시 글 154,984건 / 81,209,056자(공백포함) / 40개 파일, 약 119MB

e. 문자코드(인코딩) : UTF-8(유니코드)

f. 파일명 : NBlog_Japan_Corpus_all_Free.csv

g. 코퍼스 다운로드 링크

  [배포] AJ_Corpus_NBlog_Japan_Corpus_all_Free.zip
   
   
3. コーパス論文
3-1. 日本語注釈コーパス(tagged corpus)の構築方法に関して - 金曘泳(Kim Yu Young)・眞島知秀
1) 論文の概要
- 韓国日本学会 (KAJA-Korea Association of Japanology) 2003年 7月 5日 発表
- 韓国日本学会 日本學報, Vol.57 No.1 93-107pp, 2003年 12月

2) 論文抄録
本稿は日本語タグ付きコ一パス(tagged corpus)の構築方法につして、高麗大学李漠燮敎授硏究室で作業が進められている、日韓竝列コ一パス構築の際の問題点を交えながら述べたものである。本稿ではまずテキストコ一パスと音声コ一パスの違い、また生フ一パスとタグ付きコ一パスとの違いについて説明し、各硏究分野におけるさまざまな形態のコ一パスについても見てきた。そしてタグ付きコ一パスがなぜ必要なのか、その必要性について述べた。タグ付きコ一パスの実際の構築方法についても詳しく触れ、各段階における注意点やどうすれば有用なコ一パスを構築することができるのかを考えてみた。

そして、タダ付け作業時における手作業と自動化の各方法を比較し、その長所と短所について正確で効率的という観点から検証してみた。その結果,最も実際的な方法としては、まず各種のタグ付け支援プログラムを利用して、全体的な加工を行なつた後、手作業でブログラムの誤認識を修正し、編集していくという方法であった。しかしフログラムを使うこの方法では、プログラム側の仕様によって、求めている作業結果が得られないものも多く、常に自分の硏究目的に合ったプログラムを探さなければならないという難点がある。しかし全ての作業を一つのブログラムに依存するのではなく、各 のブログラムの持つ特徴や長所なとを把握し、樣 なプログラムを組み合わせて自動化作業をすることができれば、より旱く、より正確に、より大量のタケ付きコ一パスを構築することができるということを確認した。

コ一パズの価値を決める均衡性、妥當性、一貫性を維持したタグ付きコ一パスを構築するためには、樣 なブログラムに関する知識と、それをうまく組み合わせて活用することのできる能力が、これからは必要不可欠になっていくであろう。

3) 論文の本文ダウンロード
- アドビアクロバット(Adobe Acrobat - PDF)
Download
   
3-2. 텍스트마이닝 기법을 활용한 일본 미디어의 한국 뉴스에 대한 감정 추이에 대한 분석 - 김유영(Kim Yu Young)
   
 
1) Abstract - English

Analysis of the Japanese media's emotions about Korea-related news using text mining techniques; by introducing the Semantic Orientations of Words analysis method using Python

In the era of big data, it is no longer possible to effectively collect, refine, and perform meaningful interpretations of necessary information only by methods such as conventional manual and intuitive insight. Therefore, in this paper, we built a large-scale text data independently and performed text mining analysis based on the recognition that the introduction of text mining technique is also required in the field of Japanese studies and that verification of the practical technique itself is also necessary. As a result, it was confirmed that Semantic Orientations analysis of the text using 'the Semantic Orientations of Words' is effective for the analysis of the 'emotion' of the text. Besides, it has been confirmed that Japanese media's 'Semantic Orientations' toward Korea has been deteriorating over the past decade. Above all, it was also confirmed that Semantic Orientations of Japanese media news articles about Korea were actively reflected in the issue of Korea-Japan relations.

   
2) 要旨 - Japanese
 

テキストマイニングを用いた日本のメディアの韓国ニュースにおける感情の推移に対する分析-Pythonを用いた「単語感情極性対応表」及びLDAトピックモデルリング分析を活用して-

ビックデータの時代には今までの手作業だけでは膨大なデータの中で必要な情報を効果的に取集・精製し,意味のある解釈を遂行することが不可能にひとしくなっている。よって本稿では,日本語学の分野でもテキストマイニングの手法の導入が必要である点,またその実際の手法自体に対する検証も必要であるという認識のもとで,独自的に大規模のテキストデータ(コーパス)を構築し,これに対するテキストマイニングの分析を行った。その結果,「単語感情極性対応表」を活用したテキストの「感情極性」の分析はテキストの「感情」の分析に効果的である点を確認できた。また,この10年間における日本のメディアの韓国に対する「感情」は持続的に悪化している点,また何より韓日関係の出来事によって韓国に対する日本のメディアのニュース記事の「感情極性」が積極的に反映されて現れている点もまた確認できた。

   
 
  
  
All rights reserved by "yuiyu Research(by Yu Young, Kim)" Since 1996.