4大モデル翻訳対決:第26週品質評価、claude-sonnet-4.6 が9点でトップ

今週 393 件の翻訳タスクを、4 つのモデルが担当。3 件をサンプリングして複数モデルによるブラインド評価を実施し、総合最優秀は claude-sonnet-4.6(平均スコア 9/10)。

今週の翻訳統計

モデル言語翻訳量平均処理時間平均品質スコア
deepseek-v4-flashen7214s未評価
claude-sonnet-4.6ja19633s未評価
passthroughen1230s未評価
native-englishen1-未評価
deepseek-v4-flashzh110.7s未評価

サンプリング比較評価

評価 1:Siri AIを実際に試した:対話型インテリジェントアシスタントの全く新しい進化

モデル正確性流暢性用語可読性総合点
passthrough26733
deepseek-v4-pro88888
gpt-o399999

passthrough

✓ 原文の一部英語リンクと構造が保持されている

✗ 深刻に不完全で、大量のHTMLコードと未翻訳コンテンツが混在しており、「Since <a href=」の箇所で唐突に切断されている

deepseek-v4-pro

✓ 「"あなたが聞いて私が答える"から"あなたの気持ちを読み取る"へ」という意訳が自然で流暢

✗ 冒頭にJSON形式の痕跡が現れ、全体の一貫性を損なっている

gpt-o3

✓ 段落のつながりと引用の処理が最も明確で、「Siri AI is no longer just a tool for executing commands」の翻訳も正確かつ自然

✗ ごく一部の長文が若干堅苦しい表現になっている

結論:gpt-o3版が全体的に最優秀、deepseek-v4-pro版がそれに次ぐ、passthrough版は参考価値なし

評価 2:Claude Fable 5とMythos 5が6月12日に世界同時提供停止 本人確認要件とプライバシー論争が併存

モデル正確性流暢性用語可読性総合点
claude-sonnet-4.698999
deepseek-v4-pro87877
gpt-o399999

claude-sonnet-4.6

✓ 全文の構造が完全で段落のつながりが自然、「官方アナウンスによると」が原文の公式説明に直接対応しており論理が明確。

✗ 一部の長文が若干冗長で、例えば「この要件が一部地域でのユーザー離れを直接引き起こした」はさらに簡潔にできる。

deepseek-v4-pro

✓ 「脱獄プロンプト」などの用語が統一して使用されており、「販売中止」もビジネスの文脈で原文の「下架」の意味に近い。

✗ JSON形式で本文が包まれており、結末が明らかに切断されている。「クリエイティブおよびプロトタイピングのシナリオでは」が未完成で、可読性に影響している。

gpt-o3

✓ 言語が最も自然で、「段階的リリース」と「連携経路を直接中断させた」の表現が地道かつ原文に忠実、「提供停止」が全文を通じて一貫性が高い。

✗ 同様に結末の切断問題があり、「クリエイティブ用途やプロトタイプ開発のシナリオで」が未完成。

結論:バージョンAとバージョンCは全体的な品質が近くバージョンBより優れており、流暢性と用語の一貫性でわずかに優るバージョンCを優先推奨。バージョンBはフォーマット問題と切断があるため使用を推奨しない。

評価 3:流出した財務報告書でOpenAIが年間数十億ドルの赤字を計上していることが判明

モデル正確性流暢性用語可読性総合点
passthrough910999
deepseek-v4-pro78787
gpt-o389898

passthrough

✓ 原文の英語報道をそのまま使用しており、言語が自然で流暢。「newly leaked financial documents show a company with quickly growing revenues」が収益成長と赤字の対比を正確に伝えている。

✗ コンテンツが深刻に切断されており、完全な段落とその後の分析が欠けているため情報が不完全。

deepseek-v4-pro

✓ 構造が明確で、「Losses exceed expectations」などの小見出しや引用が追加されており読みやすい。

✗ 数字の誤りや過剰な意訳があり、例えば原文に記載のない「40% revenue increase」が追加されている。

gpt-o3

✓ 用語が統一されており引用の翻訳も自然で、「You either choose scale or you are out」の原意が適切に保持されている。

✗ 一部の表現が若干硬く、R&D支出の割合に関する記述が原文の細部と若干の乖離がある。

結論:バージョンAは原報道に最も近いが不完全、バージョンCは全体的なバランスが良好、バージョンBには明らかな数字の誤訳と追加内容があるため、CまたはAの完全版を優先使用することを推奨。