Веб-страницы, типы текстов и лингвистические характеристики: некоторые вопросы Web Pages, Text Types, and Linguistic Features: Some Issues С текстологической точки зрения веб-место, в котором сосредоточено огромное количество документов. В вебе практически всё может быть рассмотрено как «документ» или, что является более подходящим термином, как «веб-страница». То количество текстов, которое представлено в вебе, превышает все мыслимые пределы. Более того, веб дик и неконтролируем. Это становится ясным, если мы сравним «приручённый» источник мира бумажных текстов, такой как Британская Национальная Библиотека, и «неукрощённый» английский веб. В данном эмпирическом исследовании были изучены текстовые типологии случайной коллекции предварительно необработанных вебстраниц, не взятых из корпуса предварительно обработанных и отобранных документов. Было установлено, что текстуальность веб-страниц может отличаться от текстуальности линейных документов (не имеет значения, бумажных или электронных). Новая текстуальность усложняет автоматическое извлечение особенностей и применение средств АОТ. Также было установлено, что текстовые типологии, которые уже предложены исследователями, можно применить не для всех типов веб-страниц. На спорные вопросы, отмеченные в данной работе, нельзя ответить однозначно. В данный момент времени моим предложением остаётся то, что их следует учитывать при анализе результатов применения любого автоматического метода к веб-страницам. From a textual point of view, the web is a huge reservoir of documents. On the web virtually everything can be seen as a 'document' or better a 'web page'. The sheer amount of texts available is just overwhelming. Furthermore, the web is mainly wild and uncontrolled. This becomes clear if we compare a 'tamed' resource of the paper world, like the British National Library, and the 'untamed' English Web. In: this empirical study, I investigated text typologies in a random sample of raw web pages, and not in a corpus of preselected and pre-processed documents. I realized that the textuality of web pages might be dissimilar from the textuality of linear documents (whether paper or electronic documents). This new textuality makes automatic feature extraction and application of NLP tools more troublesome. I also realized that the text typologies already available in the literature might not cover all web page types. The issues pointed out in this study do not have an easy solution. For the time being, my suggestion is to keep them in mind when assessing results from any automatic approach to web pages.