Google翻訳精度向上という情報がガセネタである証拠がこれだ

web編

 Web翻訳サービスを利用している人も多いと思います。

 管理人も、英語サイトをたくさん閲覧する場合には、webページ翻訳を使います。記事にするときは、自分で訳しますが。web翻訳は、どのサービスも使い物にならないので。

 管理人が普段使っているのは、Google翻訳です。ページ翻訳をするときもあるし、部分的な翻訳にも使います。

 Google 翻訳の程度の低さは、今に始まったことではなく、昔から低レベルを維持しています。それでも、そこそこの訳はできていたように思います。

 ところがです。そのGoogle 翻訳が壊れてしまったのか、嫌気がさして仕事を放棄してしまったのか分かりませんが、とにかく、異常な翻訳をするようになりました。通常は、翻訳精度は年を追うごとに改善するものとばかり思っていたら、Google翻訳の場合、年々ひどくなっている。どうしてこんなことになったのでしょうか。

 どこがどれだけひどいのかは、下の翻訳事例で確認ください。

 原文は、英語サイト(THE NEW YORKER)から切り取ったものを使い、Google 翻訳に貼り付けます。

原文
Nixon’s forty-third, the sisters are sixty-eight, sixty-six, fifty-eight, and sixty-four, yet the tenor and the particular formal characteristics of the photographs have barely changed in four decades.

翻訳文
ニクソンの43才、姉妹は66歳、68歳、64歳ですが、テナーと写真の特定の正式な特性は40年間でほとんど変化していません。

 この翻訳の何が問題なのか分かりますか。

 ”fifty-eight” の翻訳をしていないのです。

 もし、学校で、生徒がこんな翻訳をしたなら、「手を抜かずに、まじめに翻訳しろ!」と叱られるでしょう。翻訳がうまい下手のレベルではなく、勝手に翻訳箇所の一部を無視しているところが、この翻訳結果の大きな問題です。

 どの部分がどういう基準に基づいて無視されるのかも分からないのでは、怖くて使えません。もともとその程度の能力しかない、と言ってしまえばそれまでですが、問題は別の所にあるのではないでしょうか。

 Googleでは人工知能を使ってディープラーニングにより、翻訳精度が向上したと言われていますが、それはとんでもない間違いで、実際には、翻訳精度が著しく悪化している。

 「NIKKEI TRENDY NET」の『「Google翻訳」の精度が劇的に向上したワケ』(2017年09月25日)という記事で、翻訳精度が向上したと「よいしょ記事」が書かれていますが、実際には全く違うという感触です。翻訳精度が明らかに低下している。

 ディープラーニングにより、お馬鹿な事例をたくさん学習したために、まともな翻訳ができなくなったというのが本当のところではないでしょうか。

 たくさんのデータを使い、ディープラーニングすれば精度が向上する、という幻想があるように思います。

 将棋の対戦プログラムを作るのに、プロの対戦の棋譜だけでなく、素人の棋譜までとにかく大量に集めてデータベースにすれば、将棋ソフトの能力が今よりも低下するのは間違いありません。

 上記の翻訳例で問題なのは、翻訳していないばかりでなく、勝手に語順を変えていることです。この年齢記載の順番は意味があるからこの順番になっているのに、翻訳では順番が変わっています。

 この問題部分は、「A」, [B], [C], AND [D] という並列構造なのですが、翻訳結果は、[B], [A], [D] になっています。[C] が訳されていないばかりか、[A] と [B] の順番が入れ替わっているため、4人の姉妹の年齢が全くデタラメに翻訳されていることになります。どうやら、この並列構造の翻訳が全くできないようです。

 
 もう一つ気になったのが、”勝手に省いて翻訳”していること。これは、翻訳した結果が日本語としてふさわしくないと判断するアルゴリズムがその部分を自動的にカットして、見かけだけはもっともらしく訳したように見えるバージョンを結果として出力しているように感じます。翻訳の正確さではなく、見かけだけが優先されているため、「翻訳精度が向上した」と思い込んでいる人が多いようです。これって、「翻訳精度の向上」とは言えない気がします。管理人の視点からは、「劣化」と映ります。

 そういえば、複数ワードを使ったGoogle検索の精度も極端に落ちたという印象を受けます。検索した複数ワードを無視したサイトが上位に表示されるため、そのたびに、「完全一致」で検索をやり直さなければならなくなりました。

 これは、”レシピ” というワードが入った検索をすると分かるのですが、その検索結果の上位に表示されるのは、クックパッドの検索したいものとは関係のないゴミのようなレシピばかりです。このため、上位にヒットしているサイトではなく、まとめサイトの方を見ることになります。

 Googleの検索機能や翻訳機能を紹介している大手サイトは、提灯持ちのような受け売りの情報を流すのではなく、自分で検証してから書いて欲しいものです。そうすれば、「ディープラーニングにより精度が飛躍的に向上」などのだましのような記事を書くことはないでしょう。