Викисловарь:Организационные вопросы/Импорт всего Мюллера

Уважаемые, а не импортировать ли нам всего Мюллера 7й редакции? Лицензия словаря следующая:

Copyright Holders: S. Starostin, E.S.Cymbalyuk <mueller_dic@koi.chat.ru>

License:

  Copyright (C) 1996 S. Starostin
  Copyright (C) 1999-2000 E.S.Cymbalyuk

  This program is free software; you can redistribute it and/or
  modify it under the terms of the GNU General Public License
  as published by the Free Software Foundation; either version 2
  of the License, or (at your option) any later version.

(взято из Debian-пакета словаря, файл copyright)

Соответственно, след. вопросы:

  • легальный

Совместимо ли GPLv2+ с лицензией сайта? В том, что словарь действительно распространяется под GPL, мало у кого осталось сомнений (достаточно даже уже и просто того прецедента, что он входит в main-секцию Debian).

  • технический

Бота написать можно, но тут есть сопутствующие вопросы: как наиболее полно перенести данные из словаря, какие пометы следует генерировать в статьях (части речи, примеры и тп), как производить слияние с уже существующими статьями, и тому подобное.

  • общий

Как вы считаете, стоит ли оно того?

Сайт словаря

--Ikm 02:11, 10 марта 2009 (UTC)

Думаю, стоит импортировать только те статьи, которые отсутствуют в Викисловаре, либо правки были сделаны только ботами (если, конечно, это можно отследить). -- AKA MBG 07:08, 10 марта 2009 (UTC)

Касательно общего - наверное стоило бы (хотя словарь сильно устарел, его информация - лучше, чем просто пустышки, а местами получится вообще совсем неплохо). Насчет лицензионности - у меня как раз есть очень сильные сомнения, что тут всё легально, но это имело бы значение только в том случае, если бы мы импортировали один в один, без каких-либо преобразований, а такое у нас невозможно (пока я жив ;). Так что остается самая актуальная проблема: техническая. Автор бота должен очень серьезно усвоить нашу лексикографическую концепцию и очень четко освоить наши форматы статей. Вообще-то это не так сложно, но заданные вопросы показывают, что это пока не сделано. Принцип же здесь такой: если английская секция статьи пуста (болванка, созданная ботом, у которой в разделах "Значение", "Произношение" ничего нет), ее можно целиком заменять на шаблон заготовку, например с помощью конструкции subst:NEW. Вот, скажем, у нас статья flame имеет внутренний вид:

{{-en-}}
{{падежи en
|nom-sg={{PAGENAME}}
|nom-pl=?
|слоги={{PAGENAME}}
|род=??
}}

==Произношение==
{{transcriptions||}}

==Значение==
[[]]
{{Нужен перевод}}

===Синонимы===
===Антонимы===
===Гиперонимы===
===Гипонимы===
==Родственные слова==
==Этимология==

{{nocat}}

{{stub}}

Это надо заменить на примерно следующее:

{{-en-}} 
{{subst:NEW|lang=en|add=I|cat=|сущ=|гл=|прил=|этим=|син=|ант=|гипер=|trans=|тип=сущ|индекс=s|слоги={{по-слогам|flame}}|основа=flame|[[огонь]], [[пламя]] {{пример|}}
# [[блеск]], [[яркость]], [[великолепие]] {{пример|}}
# {{п.|en}} [[пыл]], [[страсть]]}}
{{subst:NEW|lang=en|add=II|cat=Огонь|сущ=|гл=|прил=|этим=|син=|ант=|гипер=|trans=|тип=гл|индекс=|слоги={{по-слогам|flame}}|основа=flame|[[пылать]], [[гореть]] {{пример|}}
# {{п.|en}} [[вспыхнуть]], [[покраснеть]]}}

Разумеется, существующие интервики, а также секции на других языках, буде таковые имеются, надо оставлять в неприкосновенности. Таким образом бот должен уметь: выделять из статей Мюллера и оформлять по нашим правилам отдельные лексемы (в данном случае - сущ. и гл.), выделять и оформлять внутри лексем отдельные значения; выделять и заменять в наших статьях (если таковые уже существуют) секции английского языка. Примеры из Мюллера брать не надо, это совсем уж дурной тон. А в описанном мною виде никто не сможет придраться и обвинить нас в плагиате: слишком значительно изменена структура статьи. --Al Silonov 09:37, 10 марта 2009 (UTC)

Хорошо, я посмотрю, что тут можно сделать. Насколько я понимаю, возражений против самой идеи не имеется. Тогда остается: 1) cделать бота, 2) потестировать его каким-то образом, 3) провести заливку изменений. Вопросы:

  • Достаточно ли привилегий обычного пользователя, чтобы произвести массовую заливку? Не забанит ли его движок, видя многочисленные изменения, производимые с большой скоростью?
  • Какого рода коммит-лог ему следует оставлять? Окажется ли возможным достаточно легко откатить сделанные им изменения, в случае если в результаты работы вкроется ошибка?

Вообще, я поищу информацию о существующих прецедентах правки статей ботами. Займусь ботом и сопутствующими вещами, как появится свободное время, ежели конечно не окажется других желающих. --Ikm 13:49, 10 марта 2009 (UTC)

Протестировав бот на десятке-другом статей и всё отладив, надо будет обратиться к Шваллексу за предоставлением статуса бота. При отладке я готов помочь в плане оформления статей. --Al Silonov 15:09, 10 марта 2009 (UTC)
Самое интересное, что почти все английские слова у нас пустышки. Учитывая, что букву Z я делал давным-давно, мне не будет жалко, если мои правки полностью заменят на мюллера. Тем более откатить будет возможность, если потребуется. А кто ещё что делал? Так, изредка, кто-то что-то правил для себя. Я за полную замену всех статей (если бот будет работать правильно) --Vesailok 20:30, 10 марта 2009 (UTC)
+1. Прошу только сперва сделать несколько тестовых заливок по 5, 20 и 50 слов с интервалами в неделю, чтобы мы успели на них посмотреть и сделать замечания. -- Wesha 21:51, 10 марта 2009 (UTC)
Нет, ребята, все-таки не так решительно. Я лично сделал несколько десятков (а может, и сотен?) хороших статей по английским словам, лучше, чем у Мюллера, с этимологией и новыми значениями, и не я один этим занимался. Это не должно пропадать, надо с разбором подходить. Во всяком случае искать в таких статьях шаблон {{Нужен перевод}} в англ. секции, и только при его наличии вмешиваться. --Al Silonov 22:25, 10 марта 2009 (UTC)
Поговорили и забыли :( Скажите, кто-нибудь действительно будет импортировать Мюллера? Я не умею. --Vesailok 10:32, 14 марта 2009 (UTC)
Ну бота можно использовать с толком. Например, массовые поздравления (с праздником, другой флуд/спам), разные вычисления/подсчёты. Надо разработать бота, чтобы произношение сам расставлял (не так много в латинском правил) или просто делил на слоги. Там всего правило-то ставить перед одиночным согласным слогораздел и между группой согласных. И несколько исключений.

Всего-то день писать и несколько дней отлаживать (регулярные выражения). Так как в самом деле, главное- слогораздел. От него зависит, куда ударение ляжет. --Рогги 13:03, 14 марта 2009 (UTC)

Вопрос к Участник:Ikm. Лично я предвижу очень серьезные технические трудности с преобразованием. --Al Silonov 10:37, 14 марта 2009 (UTC)
Как всегда вопрос: где на всех набрать лопат? В смысле - АшиПОк кто будет всё проверять.--Рогги 13:03, 14 марта 2009 (UTC)

Ребят, у меня не так много времени. За пять лет никто не удосужился его импортировать, хотя "день писать и несколько отлаживать". Ну так вперед, кто ж мешает? Собственно, основной проблемой я вижу не импорт самого словаря, а его интеграцию с существующими статьями. Потому что, как говорится, ломать не строить. Мне хотелось бы здесь видеть Мюллера, так что если доберусь вперед остальных желающих "сделать все за день" -- сделаю. Хотя мне, конечно, хотелось бы также, чтобы это кто-то сделал за меня и до меня.

А вот вопрос по делу: как быть с ударениями? Нужны они кому?

И еще вопрос: всякие формы глаголов и прочие слова-синонимы -- как с ними быть? Создавать для них статьи или нет? Должны ли они быть редиректами (по идее, не должны, потому что в других языках могут иметься настоящие значения)? Примеры: did->do, или behaviour->behavior, подобные вещи в общем. --Ikm 23:23, 16 марта 2009 (UTC) Добавлено: посмотрел в английской версии проекта -- создаются отдельные статьи. Вопрос с ударениями остается. --Ikm 23:29, 16 марта 2009 (UTC)

А можно как-то посмотреть на «исходный материал»? --VPliousnine 07:09, 17 марта 2009 (UTC)

Да, надо просто взять несколько типичных примеров исходного материала и по каждому посмотреть/показать, что и как с ним надо делать для Викисловаря. Насчет behaviour и behavior - это две отдельные статьи с почти идентичным содержанием и с взаимными ссылками друг на друга. Вопрос об ударениях я не очень понял - ударения у нас обычно указываются в транскрипции, и здесь не исключение. Еще раз очень советую Ikm посмотреть на несколько наших уже сделанных статей об английских словах (вот хотя бы complete), там всё с ударениями (и с прочими аспектами) ясно. --Al Silonov 08:35, 17 марта 2009 (UTC)

ПримерыПравить

Ок, примеры:

behaviour  [bɪˈheɪvjə] _n. 1> поведение, манеры; to be on one's best behaviour стараться вести себя как можно лучше; to put smb. on his good behaviour дать человеку возможность исправиться 2> _тех. режим (работы)

companion  [kəmˈpænjən] 1. _n. 1> товарищ; faithful companion верный друг; companion in misfortune товарищ по несчастью 2> спутник; попутчик, случайный сосед (по вагону и т.п.) 3> компаньон; компаньонка; companion in crime соучастник преступления 4> собеседник; poor companion неинтересный собеседник 5> кавалер ордена (низшей степени) 6> предмет, составляющий пару 7> справочник; gardener's companion справочник садовода 8> = companionladder 9> _attr. парный; companion portrait парный портрет 2. _v. сопровождать; быть компаньоном, спутником

conductance  [kənˈdʌktəns] = conduction

flame  [fleɪm] 1. _n. 1> пламя; the flames огонь; to burst into flame(s) вспыхнуть пламенем; to commit to the flames сжигать; in flames пылающий, в огне; the flames of sunset зарево заката 2> яркий свет 3> пыл, страсть; to fan the flame разжигать страсти 4> _шутл. предмет любви; an old flame of his его старая любовь 2. _v. 1> гореть, пламенеть, пылать 2> вспыхнуть, покраснеть; her face flamed with excitement её лицо разгорелось от волнения; flame out, flame up а> вспыхнуть, запылать; б> вспылить

gave  [geɪv] _p. от give 1

necessarily  [ˈnesɪsərɪlɪ] _adv. 1> обязательно, непременно 2> неизбежно

you've  [ju:v] _сокр. _разг. = you have

young  [jʌŋ] 1. _a. 1> молодой, юный; юношеский; he is young for his age он молодо выглядит для своего возраста; young man молодой человек (тж. _шутл.); my young man (woman) _разг. мой возлюбленный (моя возлюбленная); young one's детёныши; птенчики; зверёныши 2> новый, недавний; the night is young ещё не поздно 3> неопытный 4> молодой, младший (для обозначения двух людей в одной семье, носящих одно и то же имя); young blood а> молодёжь; б> новые веяния или идеи 2. _n. (тж. the young) _pl. _собир. 1> молодёжь; old and young стар и млад 2> детёныши; to be with young быть супоросой, стельной и пр.

В файле одна строка соответствует одному слову. Транскрипцию я перекодировал в IPA, остальное оставил как есть.

Про ударения речь была о том, что есть версия Мюллера с расставленными ударениями во всех русских словах. Как понимаю, этого нам не надо. --Ikm 17:57, 17 марта 2009 (UTC)

А как там учитывается, что слово может быть, например, и существительным, и прилагательным? отдельной строкой? --Vesailok 18:42, 17 марта 2009 (UTC)
Нет, всё в одной строке. Например, для flame: статья начинается с 1. _n., что означает, что в первом значении это существительное. Чуть позже мы видим 2. _v., второе значение -- глагольное.--Ikm 18:51, 17 марта 2009 (UTC)

Да, более или менее понятно, постараюсь пояснить для случая использования шаблона NEW; правда, я не знаю, как преобразовывать _сокр., _p и другие "неполноценные" лексемы, NEW с ними не работает. А для полноценных парсер должен по каждой строке:

Определить количество лексем, стоящих за одной вокабулой, то есть количество номеров с точкой (1. 2. ....).

    • Если лексема одна (номеров нет), создается один {{subst:NEW|lang=en}} с остальными параметрами:
      • тип= (_n -> сущ; _a -> прил; _attr. -> прил; _v -> гл; _adj -> adj; междометие -> interj; союз -> conj; предлог -> prep)
      • trans= транскрипция (без скобок)
      • слоги= {{по-слогам|само слово}}
      • неименованный - значение, разбитое на строчки - по количеству номеров с "уголком" (1> 2> 3>) Номера начиная с 2> должны заменяться знаком # и стоять с новой строки. Все такие нумерованные строчки кроме последней должны заканчиваться шаблоном {{пример|}} приведенные примеры, боюсь, придется опускать (часть из них действительно примеры, часть - устойчивые сочетания, они обрабатываются по-разному). Если перед значением дается помета, она должна преобразовываться, каждое слово в определении берётся в двойные квадратные скобки [[]]
      • _тех. -> {{техн.|en}}
      • _шутл. -> {{шутл.|en}}
      • _разг. -> {{разг.|en}}
      • _вульг. -> {{вульг.|en}} и т. п. (у нас сокращения в пометах иногда совпадают с традиционным, иногда нет, как в случае тех./техн.).

Например:

{{subst:NEW|lang=en|trans=bɪˈheɪvjə|тип=сущ|слоги={{по-слогам|behaviour}}|[[поведение]], [[манеры]] {{пример|}}
# {{техн.|en}} [[режим]] (работы)}}
    • если лексем несколько, в начале всей статьи ставится шаблон {{-en-}}, а затем каждый блок под номером 1., 2. и т. п. дается в виде отдельного subst:NEW с дополнительным параметром вида |add=I (add=II и т. п. - каждый арабский номер пребразуется в римский). Внутри каждого блока все остальное - как в первом случае.

Например:

{{-en-}}
{{subst:NEW|lang=en|add=I|trans=kəmˈpænjən|тип=сущ|слоги={{по-слогам|companion}}|товарищ {{пример|}}
# [[спутник]]; [[попутчик]], [[случайный]] [[сосед]] ([[по]] [[вагону]] и т.п.) {{пример|}}
# [[компаньон]]; [[компаньонка]] {{пример|}}
# [[собеседник]] {{пример|}}
# [[кавалер]] [[ордена]] ([[низшей]] [[степени]]) {{пример|}}
# [[предмет]], [[составляющий]] [[пару]] {{пример|}}
# [[справочник]] {{пример|}}
# {{=|companionladder}} {{пример|}}
{{subst:NEW|lang=en|add=II|trans=kəmˈpænjən|тип=гл|слоги={{по-слогам|companion}}|[[сопровождать]]; быть [[компаньоном]], [[спутником]]}}

Это будет небезупречно, но в целом, кажется, приемлемо. Надо проверить на отдельных статьях. --Al Silonov 19:33, 17 марта 2009 (UTC)

Ок, в первом приближении вроде понятно. А можно ли как-то включить _p, _сокр. просто в виде текста, или шаблонная запись не дает возможности сколько то ни было отклониться? Или поправить сам шаблон? Просто эти пометки полезные. --Ikm 13:02, 18 марта 2009 (UTC)
Да, устойчивые выражения и примеры, как-то "the flames огонь; to burst into flame(s) вспыхнуть пламенем; to commit to the flames сжигать; in flames пылающий, в огне;" -- точно выкидываем? --Ikm 13:02, 18 марта 2009 (UTC)

ЛицензияПравить

Коллеги, я всё-таки не уверен. На сайте они обсуждают лицензию на *презентацию* словаря, а как насчёт контента? Сомневаюсь, что Мюллер его под GPL в своё время выпускал. -- Wesha 20:26, 17 марта 2009 (UTC)

Мне кажется, что никто никогда не сможет сказать что-либо на 100% про лицензию этого словаря. Я ориентируюсь на тот прецедент, что он входит в main-секцию Debian, а значит, там над этим думали (хоть кто-то и как-то). Другое дело, что я не уверен в совместимости самой GPLv2+ с лицензией Викисловаря. --Ikm 21:18, 17 марта 2009 (UTC)
Мне кажется, что словарь, мягко говоря, с3.14жжен, и входит в дебиан только потому, что всем пофиг:
  Копирайт на электронные публикации словаря Мюллера, выпущенного примерно после 1991 г. был передан издательством "Русский язык" фирме МедиаЛингва. Я думаю, что данная публикация ущемляет их права в наименьшей степени: если бы количество людей, нуждающихся в таком словаре было бы достаточным, то давно бы появились коммерческие словари под Unix той же самой МедиаЛингва. Попытки уговорить МедиаЛингва (тел. 095-1159711) сделать версию для Linux их профессионального англо-русского словаря МультиЛекс2 закончились неудачей :-(. Раз они не собираются делать словарь для Unix из-за маленького рынка, значит данная версия словаря не наносит ущерба их имущественным интересам. [1]  
То есть аргументация из серии "ну раз уж всё равно никто не смотрит, то я возьму одну". -- Wesha 23:59, 17 марта 2009 (UTC)
Эта страница -- про 24-тое издание словаря, мы же нацелились на 7-мое. --Ikm 13:07, 18 марта 2009 (UTC)
Вот кстати...
  Составление словаря - большой труд, и как всякий продукт интеллектуального труда, он должен быть защищен авторским правом. С другой стороны, если автор двуязычного словаря "застолбит" свой приоритет, это будет фактически равносильно приватизации словарного запаса двух языков, являющегося всеобщим достоянием. [...] Честно сказать, мне так и не удалось выяснить, как российское законодательство решает данную дилемму. Беглый просмотр закона об авторском и смежных правах и комментариев к нему, поиск по справочной системе "Консультант-плюс" результата не дали. Буду признателен читателям за соответствующие разъяснения. [2]  

-- Wesha 00:15, 18 марта 2009 (UTC)

Я скачал этот словарь. Wesha видно, не умеет по ссылкам ходить (поиском пользоваться). Объяыляю, что помню. Этот Мюллер (или его наследники), передали старую версию словаря (на которую издательство права не имело по договору) в публичное достояние (public domain). А что с 24-й редакцией, там сложнее. Кому издательство "Русский язык" права передало и какая лицензия у них. У публичного достояния нет лицензии, пользуйтесь, как хотите. Автор имеет право передать,(если иное не обусловлено договором) --Рогги 01:41, 18 марта 2009 (UTC)

письмо из debian-legal
--Ikm 12:50, 18 марта 2009 (UTC)
Я с самого начала заявил, что меня этот вопрос интересует в основном теоретически: учитывая то, как мы преобразовываем исходную информацию, к нам очень трудно придраться (и вряд ли кому-то захочется это делать :). Но если речь даже официально идет о лицензии с открытым доступом (версия до 1961), то и совсем можно успокоиться. Гораздо труднее, как мне кажется, будет решить перечисленные выше технические проблемы. Правда, может быть, имеет смысл ставить в конце каждой такой статьи шаблон (какой-нибудь Шаблон:Мюллер), пишуший: "Использованы материалы словаря В. К. Мюллера (4-е издание)". --Al Silonov 13:51, 18 марта 2009 (UTC)

Устойчивые выраженияПравить

Если можно вычленить устойчивые выражения, то для них у нас создаётся отдельная словарная статья. --Vesailok 21:12, 18 марта 2009 (UTC)

"Отсылки" Мюллера на другие словарные статьиПравить

Если в тексте встречается "отсылки" типа см. xxxxxxx или _p от give, то с ними также нужно работать по другому алгоритму. --Vesailok 21:12, 18 марта 2009 (UTC)

Заливка английских слов значительно улучшит качество нашего словаряПравить

Я с нетерпением жду заливки словаря Мюллера, ибо заливка английских слов в наш словарь вызовет больший интерес к нему, чем сейчас. Болванки статей на искусственных языках не так смущают посетителей словаря, как болванки (причём в старой структуре) английских слов и выражений. Если это тяжело для автора сей идеи, то пусть хоть кто-нибудь из ботоводов займётся Мюллером. Пожалуйста... --Vesailok 16:04, 29 марта 2009 (UTC)

Три месяца прошло, а воз и ныне там. --Vesailok 16:57, 18 июня 2009 (UTC)
На Google проверял, или Yandex'е? Я специально сайт создал на латинском языке, чтобы проверить, как он индексируется. 3-4 уникальных поситетелей ежедневно (сайт на Народе).--Рогги 16:14, 29 марта 2009 (UTC)