2016
DOI: 10.1016/j.knosys.2015.12.015
|View full text |Cite
|
Sign up to set email alerts
|

Estimating term domain relevance through term frequency, disjoint corpora frequency - tf-dcf

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1
1
1

Citation Types

0
13
0
2

Year Published

2016
2016
2022
2022

Publication Types

Select...
5
2
1

Relationship

0
8

Authors

Journals

citations
Cited by 21 publications
(15 citation statements)
references
References 12 publications
0
13
0
2
Order By: Relevance
“…Метод TF-IDF (Term Frequency -Inverse Document Frequency) [6] ориентирован на извлечение часто используе-мых слов, к которым относятся ключевые слова, и плохо извлекает редкие термины. Вообще говоря, контрастный подход очень популярен среди исследователей, и на его базе разработано множество разно-образных техник извлечения терминов [7,8].…”
Section: состояние проблемы и текущие исследованияunclassified
“…Метод TF-IDF (Term Frequency -Inverse Document Frequency) [6] ориентирован на извлечение часто используе-мых слов, к которым относятся ключевые слова, и плохо извлекает редкие термины. Вообще говоря, контрастный подход очень популярен среди исследователей, и на его базе разработано множество разно-образных техник извлечения терминов [7,8].…”
Section: состояние проблемы и текущие исследованияunclassified
“…The candidate target terms for our classification task were taken from the publicly available keylist of Hebrew Wikipedia entries 6 . Since many of these tens of thousands entries, such as person names and place names, were not suitable as target terms, we first filtered them by Hebrew Named Entity Recognition 7 and manually.…”
Section: Evaluation Settingmentioning
confidence: 99%
“…On June 16th 2014, Version 7.0 of Unicode standard was released 6 , adding 2,834 new characters and including, finally, the Linear A character set.…”
Section: Unicode Linear a Characters Setmentioning
confidence: 99%
See 1 more Smart Citation
“…Наконец, еще одна проблема, не свойственная другим языкам, -это отсутствие заимствованных слов, включая имена собственные. Процесс извлечения информации из китайских текстов обычно включает в себя следующие фазы: сегментацию слов (word segmentation) [2,3], выявление частей речи (lexical processing) [4], извлечение терминов [5,6], поверхностный синтаксический анализ (shallow parsing) [7], семантический анализ (domain knowledge analysis). Особенности китайского языка диктуют широкое вовлечение контекста во все перечисленные фазы, вследствие чего даже сегментация слов должна делаться с учетом семантики.…”
unclassified