Proceedings of the COLING/ACL on Main Conference Poster Sessions - 2006
DOI: 10.3115/1273073.1273129
|View full text |Cite
|
Sign up to set email alerts
|

Unsupervised segmentation of Chinese text by use of branching entropy

Abstract: We propose an unsupervised segmentation method based on an assumption about language data: that the increasing point of entropy of successive characters is the location of a word boundary. A large-scale experiment was conducted by using 200 MB of unsegmented training data and 1 MB of test data, and precision of 90% was attained with recall being around 80%. Moreover, we found that the precision was stable at around 90% independently of the learning data size.

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
2
2
1

Citation Types

0
33
0
2

Year Published

2006
2006
2019
2019

Publication Types

Select...
5
2
1

Relationship

0
8

Authors

Journals

citations
Cited by 39 publications
(38 citation statements)
references
References 7 publications
0
33
0
2
Order By: Relevance
“…따라서 이러한 공공 및 비즈 니스 목적에 부합하는 새로운 가치를 창출하기 위한 텍스트 데이터 가공 및 분석 방법론의 개발을 주로 다루는 텍스트마 이닝(text mining)에 대한 중요성이 크게 부각되고 있는 실정이 다. 텍스트마이닝의 주요 활용 분야로는 키워드 기반의 연관 관계 분석(keyword-based association analysis), 자동 문서 분류 (automatic document classification), 문서간 유사도 탐색(similarity detection between documents), 특이 문서 탐지(anomaly detection), 문서 간 링크 분석(link analysis) 등이 있다 (Hotho et al, 단어 인식 방법은 학습데이터를 이용하여 단어를 추정할 수 있는 정보를 학습하는 지도학습 기반 방법과 사전 지식 없이 통계적인 정보를 기반으로 단어를 추정하는 비지도학습 기반 방법으로 나눌 수 있다 (Jin and Tanaka-Ishii, 2006;Zhao and Kit, 2007). (Sun et al, 1998;Feng et al, 2004;Jin, 2006).…”
Section: 서 론unclassified
“…따라서 이러한 공공 및 비즈 니스 목적에 부합하는 새로운 가치를 창출하기 위한 텍스트 데이터 가공 및 분석 방법론의 개발을 주로 다루는 텍스트마 이닝(text mining)에 대한 중요성이 크게 부각되고 있는 실정이 다. 텍스트마이닝의 주요 활용 분야로는 키워드 기반의 연관 관계 분석(keyword-based association analysis), 자동 문서 분류 (automatic document classification), 문서간 유사도 탐색(similarity detection between documents), 특이 문서 탐지(anomaly detection), 문서 간 링크 분석(link analysis) 등이 있다 (Hotho et al, 단어 인식 방법은 학습데이터를 이용하여 단어를 추정할 수 있는 정보를 학습하는 지도학습 기반 방법과 사전 지식 없이 통계적인 정보를 기반으로 단어를 추정하는 비지도학습 기반 방법으로 나눌 수 있다 (Jin and Tanaka-Ishii, 2006;Zhao and Kit, 2007). (Sun et al, 1998;Feng et al, 2004;Jin, 2006).…”
Section: 서 론unclassified
“…Many works have investigated the use of such free data to address the problems for the resource-poor domains [Jin and Tanaka-Ishii, 2006;Zhao and Kit, 2008;Li and Sun, 2009;Sun and Xu, 2011;Zhang et al, 2013]. Meanwhile, from web pages such as Wikipedia, a sentence's partial segmentation information can be inferred from hyperlinks, which produces partially-labeled data.…”
Section: Introductionmentioning
confidence: 99%
“…Another notable work is nVBE: Magistry and Sagot (2012) proposed a model based on the Variation of Branching Entropy. By adding normalization and viterbi decoding, they improve performance over Jin and Tanaka-Ishii (2006) and remove most of the parameters and thresholds from the model.…”
Section: Related Workmentioning
confidence: 99%
“…Zhao and Kit (2008) compared several popular unsupervised models within a unified framework. They tried various types of goodness measures, such as Description Length Gain (DLG) proposed by Kit and Wilks (1999), Accessor Variety (AV) proposed by and Boundary Entropy (Jin and Tanaka-Ishii, 2006). A notable goodness-based method is ESA: "Evaluation, Selection, Adjustment", which is proposed by Wang et al (2011) for unsupervised Mandarin Chinese word segmentation.…”
Section: Related Workmentioning
confidence: 99%
See 1 more Smart Citation