реферат
√лавна€

–ефераты по сексологии

–ефераты по информатике программированию

–ефераты по биологии

–ефераты по экономике

–ефераты по москвоведению

–ефераты по экологии

 раткое содержание произведений

–ефераты по физкультуре и спорту

“опики по английскому €зыку

–ефераты по математике

–ефераты по музыке

ќстальные рефераты

–ефераты по авиации и космонавтике

–ефераты по административному праву

–ефераты по безопасности жизнеде€тельности

–ефераты по арбитражному процессу

–ефераты по архитектуре

–ефераты по астрономии

–ефераты по банковскому делу

–ефераты по биржевому делу

–ефераты по ботанике и сельскому хоз€йству

–ефераты по бухгалтерскому учету и аудиту

–ефераты по валютным отношени€м

–ефераты по ветеринарии

–ефераты дл€ военной кафедры

–ефераты по географии

–ефераты по геодезии

–ефераты по геологии

–ефераты по геополитике

–ефераты по государству и праву

–ефераты по гражданскому праву и процессу

–ефераты по делопроизводству

–ефераты по кредитованию

–ефераты по естествознанию

–ефераты по истории техники

–ефераты по журналистике

–ефераты по зоологии

–ефераты по инвестици€м

–ефераты по информатике

»сторические личности

–ефераты по кибернетике

–ефераты по коммуникации и св€зи

–еферат: ѕроблемы автоматизации перевода математической литературы с английского €зыка на русский

–еферат: ѕроблемы автоматизации перевода математической литературы с английского €зыка на русский

III научно-практическа€ конференци€ школьников

по математике, еЄ приложени€м и информационным технологи€м

Ђѕоискї

”чебно-исследовательска€ работа

Ђѕроблемы автоматизации перевода математической литературы с английского €зыка на русский ї

”ченицы 9 класса

√иназии є71 г. √омел€

Ѕарановой ¬алерии ¬икторовны

Ќаучный руководитель Ч

√орский —.ћ.,

учитель информатики

√омель, 2008


—одержание

¬ведение

1. ѕересчет размерностей

2. »мпликации в английских научно-технических текстах

3. ћатематические штампы

«аключение

—писок использованных источников

ѕриложение 1


¬ведение

ќбилие математической литературы вынуждает искать способы автоматического перевода, но низкое качество программ-переводчиков вынуждает использовать технику перевода Ђмашина-человекї, то есть в начале текст обрабатывает программа, а затем его корректирует человек, что существенно снижает затраты на перевод.

  сожалению, современные программы-переводчики, такие как Prompt, не поддерживают формат TeX, ставший стандартом представлени€ математических текстов. “ак же совершенно не поддерживаетс€ передача символов, названий функций, имен собственных, ставших традиционными дл€ русско€зычной математической литературы.

ƒанна€ работа пытаетс€ восполнить этот пробел на стадии допереводческого анализа текста. ¬ первом разделе работы обсуждаютс€ вопросы передачи формул (пересчет при необходимости). ¬торой раздел посв€щен импликаци€м в математических текстах, что так же не учитываетс€ программами-переводчиками. ¬ третьем разделе показываетс€, что при переводе математического текста можно примен€ть технологию Translation Memory, и приведены основные математические штампы [—осинский].

»сследовани€, св€занные с данной работой позволили написать несколько программ на €зыке Perl дл€ анализа и частичного выполнени€ перевода. Ќедостаток объема текста не позвол€ет их рассмотреть подробно. ѕеречислим данные программы:

1. ѕрограмма дл€ передачи символов, имен собственных, названий функций, названий теорем и т. п., сокращений.

2. ѕрограмма дл€ анализа диалекта английского €зыка (British English или American) поскольку это вли€ет на перерасчет формул.

3. ѕрограмма дл€ нахождени€ комментариев в текстах программ и указани€, можно ли производить перевод переменных. ƒанна€ программа актуальна, поскольку в €зыках программировани€ типа Perl, Python невозможно отличить комментарии от программы, не зна€ синтаксиса комментариев (Ќа Perl даже сочин€ют поэмы).

4. ѕрограмма дл€ поиска импликаций в тексте дл€ облегчени€ редактировани€ машинного перевода.


1. ѕересчет размерностей

–ассматриваютс€ примеры пересчета размерностей при переходе от британской системы единиц к метрической либо к международной системе (—»). Ёта операци€ Ц не проста€ и ответственна€, особенно когда в исходном тексте размерность величины представлена неправильно или необычно, либо когда нужно определить численный коэффициент в полуэмпирической расчетной формуле. ѕриведем обоснование терминов, использованных при рассмотрении примеров.

ќбычный пересчет размерности

“акой пересчет размерности сводитс€ к перемножению всех составл€ющих ее единиц измерени€, кажда€ из которых умножена на свой коэффициент пересчета. ¬ нижеследующей таблице приведены коэффициенты пересчета наиболее ходовых единиц измерени€ из британской системы единиц в международную. јналогичные таблицы существуют дл€ пересчета британских единиц в метрические и метрических единиц в международные.

Ќаименование величины «начение (’) величины в британской системе  оэффициент пересчета из британской системы единиц в —» –езультат пересчета, представленный в —»
ƒлина ’ foot (ft) 0,3048 0,3048 ’ м
ѕлощадь

’ foot square (ft2)

0,3048 × 0,3048

0,0929 ’ м2

ќбъем

’ cubic foot (ft3)

0,30483 = 28,317 × 10-3

28,317 × 10-3 ’ м3

ћасса

’ pound of mass (lbm)

0,4536 0,4536 ’ кг
¬рем€ ’ second (s) 1 ’ сек, или ’ с
—ила

’ pound of force (lbf)

4,448 4, 448 ’ Ќ
—корость ’ f/s 0,3048/1 = 0,3048 0,3048 ’ м/с
–абота

’ lbf x ft

4,448 × 0,348 = 1,356 1,356 ’ Ќм
ƒавление

’ lbf/in2 (psi)

4,448/(0,0254)2 = 6895

6895 ’ Ќ/м2


Ќапример, в исходном тексте говоритс€, что рабочее давление резервуара равно 980 psi. ¬ —» это давление записываетс€ как 6,757 ћѕа (пересчет: 6895 × 980 Ќ/м2 = 6757100 Ќ/м2 ї 6,757 ћѕа).

 онечно, таблица отражает лишь малую часть практических случаев. ¬з€ть хот€ бы длину. ¬ английском €зыке дл€ ее измерени€ кроме фута широко используютс€ дюйм, €рд, мил€, мил, микродюйм, и, следовательно, количество сочетаний с использованием единиц измерени€ длины в размерност€х велико.  роме системных единиц измерени€ существует множество внесистемных (или Ђведомственныхї). Ќапример, помимо системной международной единицы измерени€ давлени€ ѕаскаль (т.е. Ќ/м2), в русской технической литературе используютс€ кгс/см2 = к√/см2, к√/м2, атм. (атмосфера), торр (мм ртутного столба), бар (приблизительно равен атмосфере и точно равен 100 кѕа), пьеза, миллиметр вод€ного столба.

ќпределение размерности путем ее анализа

–ассмотрим пример. ¬ статье по обработке металлов резанием приводитс€ таблица значений удельной работы резани€ Ut, причем размерность этой величины имеет вид h.p./in3/min. “ака€ неочевидна€ запись размерности недопустима, поскольку ее можно пон€ть как (h.p./in3):min и как h.p.(in3/min).

„тобы перед пересчетом определить правильную запись размерности, переводчик рассуждает следующим образом: h.p. Ч мощность, т.е. работа в единицу времени; если ее поделить на in3, получим удельную мощность (т.е. мощность, затрачиваемую на единицу объема металла); чтобы из удельной мощности получить удельную работу, нужно удельную мощность помножить на врем€. “аким образом, правильна€ запись должна выгл€деть как (h.p./in3min, или h.pmin/in3.

ќпределение размерности путем оценки значени€ величины

¬ статье, посв€щенной расчету градирни, даетс€ пример:

As an example, if l = 35 deg, T1= 520 deg, approach = 16.5 deg, then P = 0.47 and ψШ = 4.9.

¬ этом примере I Ц разность начальных температур воды и воздуха в радиаторной градирне, T1 Ц температура воздуха на входе в градирню, a approach Ч температурный напор на холодном конце. —прашиваетс€, в каких градусах Ч ‘аренгейта, ÷ельси€, –энкина или  ельвина Ц даны значени€ параметров?

ѕерва€ и треть€ величины суть температурные разности, поэтому удобнее дл€ проверки выбрать вторую величину, то есть T1. ≈сли даже прин€ть температуру воды на выходе из градирни совпадающей с T1 (на самом деле она, как мы видим, выше на 16,5∞—), то €сно, что вода при давлении, близком к атмосферному, не может существовать при 520∞F (т.е. 271∞—), поскольку она закипает при 100∞—., cследовательно, градусы ‘аренгейта и ÷ельси€ отпадают, и температура T1 вз€та по термодинамической шкале  ельвина либо –энкина.

ѕровер€ем Ђградусыї  ельвина (точнее кельвины):

520   = 520 Ц 273 = 247∞— > 100∞—,

а это значит, что кельвины не подход€т. ќстаетс€ проверить градусы –энкина: 520∞R = 520 × 0,555Ц273 = 16∞—. Ётот результат вполне правдоподобен, а значит все температурные параметры даны в градусах –энкина, которые нужно, конечно, перевести по всей статье в кельвины, т.е. в единицы прин€той в –оссии термодинамической шкалы  ельвина.

ѕересчет численного коэффициента в расчетной формуле

–ассмотрим подробно, как этот коэффициент пересчитываетс€. ¬ статье по усталостному разрушению металлов приведена формула, по которой определ€етс€ длина усталостной трещины при известных числе циклов усталостного нагружени€ и интенсивности напр€жений в металле:

da/dn= 1.42Ј10-13(Δ )2.02.


«десь а длина трещины в дюймах [in];

п Ц число циклов [cycle];

da/dn приращение длины трещины за один усталостный цикл [in/cycle];

  Ц коэффициент интенсивности напр€жений [psiЈ√in] = (lb/in2)Јin1/2;

  размах (двойна€ амплитуда) коэффициента интенсивности напр€жений (с той же размерностью, что и у  ).

1,42Ј10-13 Ц численный коэффициент, который при пересчете из британской системы единиц в метрическую мен€ет свое значение. Ёто-то значение мы и должны определить Ц иначе российские инженеры не смогут пользоватьс€ формулой.

ѕересчет выполн€етс€ в следующем пор€дке:

а) ќбозначаем численный коэффициент через D и записываем формулу в общем (алгебраическом) виде:

da/dn = D(K)α,

где α = 2,02 Ц безразмерный показатель степени.

б) ќпредел€ем размерность численного коэффициента D (дл€ этого по правилам школьной алгебры оставл€ем D на одной стороне уравнени€, а все остальное переносим на другую сторону, не забыва€, где нужно, возводить в степень α):

D = inЈin2α /(cycleЈlbαЈinα/2) = in1+2α-α/2 /(cycleЈlbα) = in 1+3/2α / cycleЈlbα.

в) “еперь находим коэффициент пересчета  ѕ по общему уже известному нам правилу, подставив значение α и опуска€ циклы как не требующие пересчета:

 ѕ = 25,4 1+3/2Ј2,02 / 0,454 2,02 = 25,4 4,03 / 0,454 2,02.

г) „тобы возвести числа 25,4 и 0,454 в дробные степени, необходимо прибегнуть к операци€м логарифмировани€ и потенцировани€, пользу€сь школьной таблицей дес€тичных логарифмов:

lg 25,4 4,03 = 4,03Јlg 25,4 = 4,03Ј1,4048 = 5,661

ќтсюда числитель (берем антилогарифм от 5,661) равен 458100.

lg 0,454 2,02 = 2,02Јlg 0,454 = 2,02Ј1,6571 = 2,02 (Ц0,3429) = 0,6926 = 1,3074

[жирной единицей обозначена характеристика Ђминус 1ї].

ќтсюда знаменатель (берем антилогарифм от 1,3074) равен 0,2030.

“еперь  ѕ = 458100: 0,203 = 2,25Ј106.

д) ¬ычисл€ем новый численный коэффициент:

D' = DЈ ѕ = 1, 42Ј10-13Ј2, 25Ј106 = 3,195Ј10-7 .

е) «аписываем формулу в пересчитанном виде:

da/dn = 3,195Ј10-7  )2,02.

ќпераци€ пересчета умышленно разбита на мелкие легкие шажки, так как стоит на одном из этих легких шажков оступитьс€, и весь труд пойдет насмарку. ѕересчет численного коэффициента формулы Ц скучна€, но очень ответственна€ операци€. Ќапример, по формуле, с которой мы так подробно разбирались, инженеры могут рассчитывать и ротор турбины, и корпус подводной лодки, и опору морской платформы. ѕоэтому такой пересчет требует от переводчика полного сосредоточени€.

ќ некоторых особенност€х записи размерности в —Ўј и ¬еликобритании

¬ соответствии с международной системой единиц предусмотрены следующие наиболее часто встречаемые приставки:

μ

micro

10-6

ќдна миллионна€

m

milli

10-3

ќдна тыс€чна€

k

kilo

103

“ыс€ча

M

mega

106

ћиллион

G

giga

109

ћиллиард

Ќапример: $3G = 3 млрд. долл. —Ўј

1.5 Gbbls = 1,5 млрд. баррелей

јмериканцы и англичане иногда пользуютс€ этими приставками, но чаще у них в ходу собственное Ђвнутрифирменноеї использование m и ћ, а именно:




ќбозначение

«начение ѕримеры записи ѕеревод
ћ–а

106 ѕаскалей

Pressure of 230 ћ–а ƒавление 230 ћѕа (230 миллионов ѕаскалей)
ћ“; mt

106 тонн

A throughput of 12 ћ“/yr (250,000 bbls/day). ѕропускна€ способность 12 миллионов тонн в год (250 000 баррелей в сутки)
$M

106долларов —Ўј

Values shown in $2001M «начени€ показаны в млн. долларов —Ўј в ценах 2001 года
M

103 (обычно*)

$755M×5 = $3.775 MM

Oil Production = 70, OOO MBbl

500 MCF = 500 mille cubic feet;

2 MCFCD = 2 mille cubic feet per calendar day

755 тыс. долл. —Ўј × 5 = 3,775 млн. долл. —Ўј

ƒобыча нефти = 70 000 103 баррелей

500 тыс€ч кубических футов

2 тыс€чи кубических футов в сутки

MM

106

1.7 MMTPY Cracking Unit

CAPEX 800 $MM

 рекинг-установка производительностью 1,7 млн. т/год

 апитальные затраты = 800 106 долларов

m

I06

The estimated cost of the installation is $5.2 m

$500m

20 mcps = 20 megacycles per second

ќриентировочные затраты на монтаж 5,2 млн. долл. —Ўј

500 млн. долл. —Ўј

20 мегагерц

m

mil = 10-3 in

Corrosion rate was 4 mpy —корость коррозии была (4×25,4) мкм/год
ћ“ metric tonne** 150 MT of propellant per week 150 т ракетного топлива в неделю

ѕримечани€:

ƒаже в словар€х (см., например, сокращени€ в јнгло-русском словаре по нефтепромысловому делу, составитель ≈.ё.»зраилева) указываетс€, что ћ используетс€ дл€ тыс€ч, a ћћ Ц дл€ миллионов. ќднако, как видно из трех предыдущих примеров, ћ очень часто обозначает миллионы. Ќеобходимо всегда обращать внимание авторов или заказчиков документа на это обсто€тельство.

ЂЋовушка и квадратеї: здесь ћ и не тыс€ча, и не миллион.  стати, полезно несколько подробнее остановитьс€ на тонне как единице измерени€. ¬ морских перевозках freight ton = 40 кубических футов (т.е. единица объема); в корабельном строительстве register ton = 100 кубических футов (т.е. оп€ть-таки единица объема); в холодильной технике standard ton = 3,517 к¬т (единица мощности); в €дерной технике ton = 4,18 √ƒж (единица энергии, или работы). Ќаконец, в механике тонна Ч это единица веса, или массы; при этом следует различать метрическую тонну (metric ton = mton = 1000 кг), прин€тую в —Ўј короткую тонну (short ton = just ton = net ton = 2000 фунтов = 907 кг) и прин€тую в ¬еликобритании длинную тонну (long ton = gross ton = 2240 фунтов = 1016 кг).


2. »мпликации в английских научно-технических текстах

¬ различных €зыках тенденци€ к импликации, или не€вному словесному выражению, реализуетс€ по-разному. ¬ частности, русскому €зыку чужды некоторые импликации, характерные дл€ английского €зыка. Ёто обсто€тельство необходимо учитывать переводчикам с английского и на английский: первые должны устран€ть импликации, неприемлемые в русском €зыке, а вторым нужно использовать английские импликации как прием компрессии текста, и иногда как стилистическое средство. ј. ƒ. Ўвейцер (Ўвейцер ј. ƒ.'ѕеревод и лингвистика. ћ., 1973, с. 121-131), иллюстриру€ возможности ситуативной модели перевода, обсто€тельно проанализировал различные формы импликации, обычные дл€ английского €зыка публицистической и общественно-политической литературы. ѕрактически все рассмотренные им формы встречаютс€ и в английском €зыке научно-технической литературы. Ѕолее того, в последнем случае в св€зи с сильно выраженным прагматизмом авторов (ориентаци€ на узких специалистов) ассортимент импликаций даже шире.

“ип I. ¬ атрибутивной цепочке опускаетс€ одно из нескольких существительных, в результате чего определение опущенного существительного можно ошибочно прин€ть за определение другого существительного (¬ стилистике рассматриваетс€ случай, когда опускаемое существительное представл€ет собой действующее лицо. ѕрилагательное, служащее определением опущенного существительного, называют Ђперенесенным эпитетомї.). Ётот тип импликации обнаруживаетс€ при переводе из-за лексической несочетаемости на русском €зыке.

The annealed hardness of the material does not provide as good a correlation with the measured erosion wear.

Ђќтожженна€ твердостьї не имеет смысла, так как отжечь можно материал, но не параметр или характеристику материала. ѕоскольку из контекста статьи следовало, что отжигу подвергалс€ материал поверхностного сло€ детали, переводчик легко восстановил (пущенное существительное (the annealed hardness > he annealed surface hardness = the hardness of the annealed surface) и дал адекватный перевод.

“вердость отожженной поверхности материала не дает такой же хорошей коррел€ции с измеренным значением эрозионного износа.

“ип II. ¬ сравнительном обороте опускаетс€ сравниваемое существительное, но сохран€етс€ его определение в общем падеже.

The James [2] and Smith [3] correlations show essentially the same predictive reliability, and are somewhat poorer than Murdock.

ћы видим, что после сравнительной степени прилагательного вместо таких привычных вариантов, как "than Murdock correlation", "than that of Murdock", "than Murdock's one" следует "than Murdock".

¬ переводе, конечно, импликацию нужно устранить.

 оррел€ционные выражени€ ƒжеймса [2] и —мита [3] обнаруживают практически одинаковую точность и несколько менее точны, чем выражение ћардока.

“ип III. ѕо аналогии с импликаци€ми II типа в импликаци€х этого типа опускаетс€ слово-заменитель, но сохран€етс€ его определение.

Fig. 5 shows the results of these tests, the upper curve being the large protrusion. —овершенно €сно, что the large protrusion = the one for the large protrusion, что и отражаетс€ в переводе.

–езультаты этих опытов показаны на фиг. 5, причем верхн€€ крива€ относитс€ к случаю большого выступани€ бруса.

3. ћатематические штампы

Ёти штампы используютс€ посто€нно во всех математических текстах. ¬ обычных англо€зычных стать€х они составл€ют от 60 до 70% оборотов.  омбиниру€ их, можно в принципе выразить практически любую математическую семантику. ѕоучительно, что почти все основные штампы пословно не перевод€тс€, или плохо перевод€тс€ на русский Ч это чисто английские идиомы.

1. термин IS характеристика.

The function f is continuous.

‘ункци€ f Ч непрерывна.

2. термин IS термин.

The set R is a ring.

ћножество R €вл€етс€ кольцом.

3. CONSIDER термин.

Consider the point (1,1)  R2.

–ассмотрим точку (1,1)  R2.

4. WE HAVE выделенна€ формула.

We have

sin2 x + cos2 x = 1.

(1)

»меем

sin2 x + cos2 x = 1.

(1)

5. LET символ или термин BE термин.

Let V be a vector space.

ѕусть V векторное пространство.

6. FOR ANY символ или термин THERE EXISTS термин.

For any continuous map f : II there exists a fixed point cI.

ƒл€ любого отображени€ f : II существует неподвижна€ точка cI.

7. BY символ DENOTE термин.

By R denote the set of real numbers.

ќбозначим через R множество действительных чисел.

8. IT FOLLOWS FROM ссылка THAT [утверждение].

It follows from Lemma 2 that α is injective.

»з Ћеммы 2 следует, что α инъективно.

9. термин IS CALLED определ€емое пон€тие IF [утверждение].

A manifold is called acyclic if Hi(M) = 0 (i > 0).

ћногообразие называетс€ ацикличным, если Hi(M) = 0 (i > 0).

The map s: BE is called a section of ξ if ξ ○ s = id.

ќтображение s: BE называетс€ сечением расслоени€ ξ, если ξ ○ s = id.

10. IF [утверждение], THEN [утверждение].

If Df ) is compact, then f is bounded.

≈сли Df ) компактно, то f Ч ограничена.

11. [утверждение] IF AND ONLY IF [утверждение].

A closed 3-manifold M is S 3 if and only if π1M = 0.

«амкнутое трЄхмерное многообразие M €вл€етс€ сферой S 3 тогда и только тогда, когда π1M = 0.

12. термин HAS THE FORM формула или ссылка.

The simplest parabola has the form x2 = y.

ѕростейша€ парабола имеет вид x2 = y.


«аключение

»з проделанной работы можно сделать следующие выводы:

1.         ѕри автоматическом переводе математической литературы можно использовать технологию Translation Memory.

2.          роме словарей математической лексики так же необходимо иметь словари фамилий, сокращений и латинизмов.

3.         Ќеобходимо производить допереводческую обработку текста дл€ изменени€ символов, названий функций и дл€ пересчета формул.


—писок использованных источников

1.         јристова ¬.ћ., ћатематика. „ислительные. ”чебное пособие по чтению и переводу математических текстов, знаков, символов, сокращений на английском €зыке [текст]/ јристова ¬.ћ.Ч  √”,  алининград, 1999.

2.         ѕисьменный перевод. –екомендации переводчику и заказчику, —оюз переводчиков –оссии, ћ., 2004.

3.         V. Zaitsev, Russian Typographical Traditions in Mathematical Literature [текст] / V. Zaitsev, A. Janishevsky, A. Berdnikov Ч Euro\TeX'99 Proceedings.

4.         јлександров ѕ.—., јнгло-русский и русско-английский словари математических терминов [текст]/ под ред. јлександрова ѕ.—.Ч ћ.: ћир, 1994. Ч 414с.

5.         †Encyclopedic Dictionary of Mathematics, ed. Kiyosi Ito, Vol 1 and 2, The MIT Press, Cambridge, 1993. Ч 2171pp.

6.         —осинский ј.Ѕ.,  ак написать математическую статью по-английски [текст]/ —осинский ј.Ѕ. ћ.: ‘акториал-пресс, 2000. Ч 112с.


ѕриложение 1

#!/usr/bin/perl

# ѕрограмма, производ€ща€ русификацию обозначений,

# и, делающа€ перевод лексических единиц.

# »змененный текст заноситс€ в файл имеющий расширение texm

#

# открываем словарь

open(DICTIONARY,"dictionary.txt") || die "ошибка при открытии словар€ $!n";

# заносим словарь в пам€ть компа

while (<DICTIONARY>){

chomp;

if (!/[#]/){

($word,$tr)=/(.*);\s+(.*)/;

$DIC{$word}=$tr;}

}

# завершаем работу со словарем

close(DICTIONARY);

# начинаем работу с файлами

# отбираем теховские файлы

opendir(CURRENT,'.');

@currentfiles=grep(/\.tex$/i,readdir CURRENT);

# обрабатываем каждый теховский файл

foreach (@currentfiles){

open(SOURCE, $_)|| die "ошибка при открытии файла $!n";

open(DEST,">>$_"."m");

# объедин€ем все строчки файла в одну строку

$line=join("", <SOURCE>);

# производим замены

foreach(keys %DIC){

$line=~s/$_/$DIC{$_}/;}

# выводим преобразованный текст в файл

print DEST $line;

# завершаем работу с файлами

close(SOURCE);

close(DEST);

}

# завершаем работу программы

closedir(CURRENT);

print "work has done\n";

print "please, press enter";

$end=<STDIN>;





© 2010 »нтернет Ѕаза –ефератов