Богатство испанского языка. El Proyecto Aracne

Богатство испанского языка. El Proyecto Aracne

Снимок экрана 2016-06-12 в 23.32.15

На днях я оказалась на сайте Fundeu BBVA, организации, которая занимается преимущественно языком испанской прессы и выпускает разного рода рекомендации по использованию испанского языка для журналистов.

Так вот, пролистывая секцию Especiales мое внимание привлек Proyecto Aracne.

El proyecto Aracne es un estudio sobre la variación de la riqueza lingüística en la prensa española desde 1914 hasta 2014 financiado por BBVA.
Aquí exponemos la documentación completa del proyecto y el método de trabajo empleado.

Цель проект Aracne посмотреть как изменилось богатство языка испанской прессы в период с 1914 по 2014 год. Исследование финансировано банком BBVA.
Здесь представлены все документы, имеющие отношение к проекту, а также использованный метод работы.

“Ну, это я читать не буду. Использованный метод работы…, скукотища какая”, подумала я. “Посмотрю-ка я сразу результаты. Что там с богатством языка-то стало за сто лет?”.

И потом, сама не знаю, как это получилось, я стала читать всю эту “документацию”. И это оказалось настолько интересно! Настолько интересно, что я вот сейчас пишу этот пост, а в результаты исследования я так еще и не заглянула, до того мне понравилось читать, как они работали.
Так что о результатах мы узнаем вместе. В конце поста.
Но навскидку я думаю, что ничего особо не изменилось, язык не обеднел за 100 лет.
А вы как думаете?

Почему решено было изучать именно язык прессы?

Язык постоянно меняется. Одни слова умирают, другие появляются, третьи трансформируются. И язык прессы особенно чувствителен к этим изменениям.

Взять за объект изучения язык прессы выгодно вот почему: так как это письменный язык, его легко исследовать с помощью компьютеров; в языке прессы встречаются высокий стиль (личные колонки журналистов, аналитическая информация), разговорный (спорт, юмор) и чисто информативные заметки (новости и репортажи). С другой стороны, пресса имеет огромное влияние на общество и может популяризировать какие-то идеи, слова, но также она отражает всё то, что происходит в данный момент в обществе.

Анализ газет 20 века позволит не только понять, как изменился язык за это время, но и заглянуть в то общество, увидеть чем жила и как изменилась Испания за последние 100 лет.

Как измерить богатство языка?

Но сразу же возникает вопрос – как оценить богатство языка? Что и как измерять для этого в тексте? Обычно в исследованиях на тему богатства языка оценивали разнообразие лексики, другими словами, количество разных слов на единицу текста.

Считали количество слов в тексте (token), затем количество разных слов (type). И их соотношение в специальной литературе принято называть TTR, type-token ratio.

В предложении Frío rigurosísimo, con cielo casi completamente despejado TTR=1, потому что из 7 слов все 7 разные. В то время как у такого предложения El comisario señor Flores, con el inspector señor Homar, ordenó fuera acompañado a la Casa de Socorro TTR=0.88 (из 18 слов, 15 отличны друг от друга).

TTR просто и удобно применять для оценки лексического разнообразия текста. Но есть у этой методики и недостатки:

  1. На значение TTR огромное влияние имеет длина текста. В короткой фразе из нескольких слов вероятность того, что все слова будут отличны друг от друга, очень велика. По мере увеличения длинны текста слова неизбежно станут повторяться. Лексическое разнообразие текста обычно проявляется в нескольких первых строчках. Также не стоит забывать, что для построения текста используется много служебных слов (артикли, предлоги, союзы) и других слов, которые нужны из грамматических соображений, но лексической нагрузки не несут. Эти слова нельзя исключить из текста, иначе он станет нечитаем, но в то же время их очень много, и это сильно влияет на результат TTR. И поэтому получается, что длинные тексты получили бы неоправданно низкий TTR, просто потому что они длинные, а вовсе не потому, что язык их менее богат.
  2. TTR не очень хорошо подходит для агглютинативных языков, то есть языков, в которых корень у слова один, а окончания меняются в зависимости от рода и числа. Нелогично считать el, le, los, las за четыре разных слова, когда они на самом деле вариант артикля el. Также и bueno, buena, buenos, buenas – это всего лишь варианты bueno.
  3. TTR измеряет только лексическое разнообразие, которое, как всегда считалось является синонимы языкового богатства (la riqueza linguística). Однако, можно рассматривать лексическое разнообразие только как часть языковой ценности того или иного текста. В последнее время стали появляться и другие характеристики для оценки языкового богатства:
  • изысканность (la sofisticación lingüística), измеряет степень сложности текста в зависимости от используемых слов и сложности синтаксиса;
  • лексическая насыщенность, измеряется количество семантически полных слов (существительные, глаголы, прилагательные) относительно общего количества слов в тексте;
  • наличие опечаток.
Поэтому исследователи из проекта Aracne решили
  • Оценивать тексты одинаковой длины;
  • Принимать во внимание категорию слов (считать “значимые” слова, такие как существительные, глаголы и прилагательные);
  • Указать программе, которая будет считать TTR, что считать надо лексемы. 
  • Также решено было выяснить не только насколько тексты разнообразны с лексической точки зрения, но также насколько много в тексте значимых слов (densidad léxica) и насколько сложен синтаксис.

Создание базы данных

Дальше нужно было создать базу (un corpus), которую можно анализировать с помощью технологий Molino de Ideas.

Un corpus – это более-менее большое собрание текстов. В нашем случае нам нужно создать базу, которая захватит анализируемый период (1914-2014гг.). Нам нужно, чтобы эта база была насколько можно более репрезентативной и разнообразной, чтобы исследование было достоверным. (Местоимение “мы” я употребляю не потому, что я сама участвовала в этом проекте, а просто потому, что так удобнее было переводить).

Выбор материалов для проекта Aracne вызвал много вопросов, а также заставил задуматься о природе и развитии языка.

Выбор газет

Для начала нам нужно было определить критерии, которым должны были соответствовать изучаемые газеты. Мы не могли оценивать выпуски разных годов только одной газеты, потому что тогда результат был бы однобоким. Непонятно бы было, действительно ли наши результаты отражают реальное положение вещей, или они в большей степени характерны именно для языка этой газеты.

Поэтому мы решили, что корпус будет состоять из выпусков разных газет.

Другое обязательное условие – газеты должны быть из разных регионов полуострова, потому что в разных точках Испании говорят по-разному и пишут хоть немного, но по-разному. (И иногда даже и не немного).

Выбранные газеты должны быть широкой тематики, не специализированные. Таким образом лексическое разнообразие будет наиболее полным.

И последнее, экземпляры должны быть в цифровом формате. А это сразу значительно сократило круг “претендентов”. В итоге в исследовании участвовали выпуски El Norte de Castilla, El Correo, Las Provincias, Diario de Mallorca, La Almudaina, Diario La Rioja, Heraldo de Aragón, ABC, La Vanguardia, La Almudaina.

Авторы исследования хотят обратить внимание читателей еще вот на какой момент. Газеты, которые выходили в 1914 и продолжают выходить в 2014 – это издания, пережившие франкизм. Что в свою очередь значит, что все они в той или иной мере отражают определенную идеологию. Не будем упускать из поля зрения цель нашего исследования: изучить лексическое богатство. Хотя кажется неоспоримым тот факт, что идеология может влиять на словарный состав текста (одни слова используются, а другие нет), мы не знаем, до какой степени влияет идеология на лексическую насыщенность и изысканность текста.

(Пожалуй, самый интересный пункт) Выбор выпусков

Теперь когда мы определились с газетами, предстояло решить, какие выпуски мы возьмем для анализа? Сколько их будет? Как они будет распределены во времени?

Идеально было бы взять все выпуски данных газет за все года, но это технически сложно, потому что программа расшифровки текста оставляет желать лучшего. Возник новый критерий – перед тем как попасть в корпус все тексты должны быть проверены человеком, поэтому пришлось ограничиться тем количеством выпусков, которые за разумное время смогли бы проверить исследователи (прежде чем добавить тексты в корпус).

И так как невозможно изучить все выпуски выбранных газет в в период с 1914 по 2014 года нам надо было решить какие конкретно выпуски брать. Так как задача исследования оценить как и насколько изменилось лексическое богатство языка в определенный период, нам надо было сделать своеобразную “лингвистическую фотографию” из прессы в разные моменты за изучаемые 100 лет. Но в какие конкретно моменты? Через какое количество лет делать эти “лингвистические снимки”? Сколько по времени занимают лингвистические изменения?

Здесь мы рассмотрели два пути действия.

Первый – взять образцы за определенные года, изучить язык этих текстов и принять, что сделанные выводы можно распространить на другие выпуски того же периода. Мы могли бы взять по образцу за 1914, 1964 и 2014 года и детально изучить язык каждого образца. Мы смогли бы предположить, что различия, найденные между образцами 1914 и 2014 годов объясняются общей тенденцией и присущи языку каждого периода. Преимущество такого подхода в том, что можно составить очень хорошее представление о том, что представлял собой язык в этот конкретный год, но не более того.

Смотрите, например, мы возьмем выпуск какой-нибудь газеты за 1914 год. Главной темой в прессе в том году была Первая Мировая война, что значит, что лексика будет очень специфичная.

Мы не можем предположить, что лексический анализ одного конкретного года (со всей гаммой тем) может дать достоверное представление о том, что представлял собой язык за некоторое количество лет.

К тому же такой приблизительный метод оставляет только предполагать, были ли вариации/изменения между одним образцом и другим будут однородными и постепенными или скачкообразными.

Другими словами, если бы мы обнаружили, что язык 1914 года был очень богат, а за 1964 показатели были бы ниже, могли бы мы предположить, что изменения шли постепенно, шаг за шагом в течение этих 50 лет? Или, может быть, показатели богатства языка нестабильные, и на самом деле изменение было не постепенным, а то шло вверх, то вниз, то вверх, потом опять вниз. История языка показывает, что изменения в грамматике занимают года и даже века, в то время как изменения в лексике очень связаны с изменениями в культуре и истории. Этот путь действий решено было оставить.

Поэтому мы решили брать выпуски за весь период с 1914 по 2014 год, и, когда речь идет об оценке лексический черт (rasgos léxicos), оценивать выпуски за каждые 10 лет, а когда речь идет о насыщенности и разнообразии (densidad y variación), за каждые 20 лет.

Мы посчитали, что 10 лет – это достаточно длительный период, чтобы произошли исторические, культурные и социальные изменения. И они обязательно найдут свое отражение в языке прессы. Но с другой стороны, 10 лет – это достаточно короткий период, за который изменения будут происходить постепенно, без резких скачков.

Когда мы приступили к отбору выпусков выяснилось вот что: газеты начала века были значительно тоньше. Количество страниц прибавлялось постепенно с течением лет.

Это значит, что мы не могли бы взять, скажем по пять выпусков за каждое десятилетие, потому что, как я уже сказала, в начале века и сами газеты были тоньше и тексты в них короче.

Далее надо было определиться с датами. Так как целью нашей было сравнение языка в разные периоды, то может стоило выбрать одну дату, чтобы не было “сезонного” влияния на лексику? Может ли быть такое, что богатство языка изменяется в зависимости от месяца? Достоверно было бы сравнивать газетные выпуски за февраль и сентябрь? Было бы интересно выбрать дату наугад, и проанализировать выпуски за каждый год на протяжении 100 лет. Изменилось бы качество языка, если не меняется погода за окном?

Представим, что мы выбрали для сравнения летние выпуски. Логично предположить, что нам встретятся слова из очень конкретных семантических полей (например, летом гораздо больше пишут об отдыхе, и меньше о политике).

Нечто подобное может наблюдаться и в определенный день недели. Например, именно по пятницам обычно публикуют рецензии на фильмы, спектакли, выставки и проч.

Поэтому мы выбрали:

  • 10 лет как временную единицу, но позаботились о том, чтобы анализируемые экземпляры были разных лет (то есть, например, за период с 1914 по 1923 взяли 5 выпусков, но позаботились о том, чтобы они все были разных годов, вышли в разные месяцы и дни недели)
  • статьи примерно одинаковой длины
  • разные даты выхода газеты, чтобы гарантировать разнообразие в нашей подборке месяцев и дней недели.

На сайте вы можете почитать особо интересные отрывки из газет, которые брали для исследования. Там вы найдете фрагменты интересные с исторической точки зрении, другие – с лингвистической, и, наконец, просто забавные истории.

Результаты

А теперь самый волнительный момент – каковы же результаты исследования? Как вы думаете?

Как я и ожидала, показатели богатства языка остались на том же самом уровне. Если хотите почитать подробнее, то это здесь.

Мне же хотелось перевести еще пассаж про изменения в употреблении форм прилагательных на (-ísimo). Исследователи заметили, что с течением времени формы на -ísimo стали употребляться все реже и реже. Они отмечают, что, возможно, это черта лишь языка прессы, потому что с годами ее язык становился всё более нейтральным, а форма на -ísimo воспринимается как слишком субъективная.  

А ещё разделе Результаты на странице Léxico представлены очень интересные графики, благодаря которым можно проследить, как часто то или иное слово употреблялось в тот или иной период времени, что в свою очередь помогает понять, что происходило или волновало испанское общество в определенный период времени. Вы найдете там слова guerra, policía, alemán, ruso, comunista, ministro, iglesia, islámico, rádio, televisón и некоторые другие. Обязательно загляните в это apartado