今週 393 件の翻訳タスクを、4 つのモデルが担当。3 件をサンプリングして複数モデルによるブラインド評価を実施し、総合最優秀は claude-sonnet-4.6(平均スコア 9/10)。
今週の翻訳統計
| モデル | 言語 | 翻訳量 | 平均処理時間 | 平均品質スコア |
|---|---|---|---|---|
| deepseek-v4-flash | en | 72 | 14s | 未評価 |
| claude-sonnet-4.6 | ja | 196 | 33s | 未評価 |
| passthrough | en | 123 | 0s | 未評価 |
| native-english | en | 1 | - | 未評価 |
| deepseek-v4-flash | zh | 1 | 10.7s | 未評価 |
サンプリング比較評価
評価 1:Siri AIを実際に試した:対話型インテリジェントアシスタントの全く新しい進化
| モデル | 正確性 | 流暢性 | 用語 | 可読性 | 総合点 |
|---|---|---|---|---|---|
| passthrough | 2 | 6 | 7 | 3 | 3 |
| deepseek-v4-pro | 8 | 8 | 8 | 8 | 8 |
| gpt-o3 | 9 | 9 | 9 | 9 | 9 |
passthrough
✓ 原文の一部英語リンクと構造が保持されている
✗ 深刻に不完全で、大量のHTMLコードと未翻訳コンテンツが混在しており、「Since <a href=」の箇所で唐突に切断されている
deepseek-v4-pro
✓ 「"あなたが聞いて私が答える"から"あなたの気持ちを読み取る"へ」という意訳が自然で流暢
✗ 冒頭にJSON形式の痕跡が現れ、全体の一貫性を損なっている
gpt-o3
✓ 段落のつながりと引用の処理が最も明確で、「Siri AI is no longer just a tool for executing commands」の翻訳も正確かつ自然
✗ ごく一部の長文が若干堅苦しい表現になっている
結論:gpt-o3版が全体的に最優秀、deepseek-v4-pro版がそれに次ぐ、passthrough版は参考価値なし
評価 2:Claude Fable 5とMythos 5が6月12日に世界同時提供停止 本人確認要件とプライバシー論争が併存
| モデル | 正確性 | 流暢性 | 用語 | 可読性 | 総合点 |
|---|---|---|---|---|---|
| claude-sonnet-4.6 | 9 | 8 | 9 | 9 | 9 |
| deepseek-v4-pro | 8 | 7 | 8 | 7 | 7 |
| gpt-o3 | 9 | 9 | 9 | 9 | 9 |
claude-sonnet-4.6
✓ 全文の構造が完全で段落のつながりが自然、「官方アナウンスによると」が原文の公式説明に直接対応しており論理が明確。
✗ 一部の長文が若干冗長で、例えば「この要件が一部地域でのユーザー離れを直接引き起こした」はさらに簡潔にできる。
deepseek-v4-pro
✓ 「脱獄プロンプト」などの用語が統一して使用されており、「販売中止」もビジネスの文脈で原文の「下架」の意味に近い。
✗ JSON形式で本文が包まれており、結末が明らかに切断されている。「クリエイティブおよびプロトタイピングのシナリオでは」が未完成で、可読性に影響している。
gpt-o3
✓ 言語が最も自然で、「段階的リリース」と「連携経路を直接中断させた」の表現が地道かつ原文に忠実、「提供停止」が全文を通じて一貫性が高い。
✗ 同様に結末の切断問題があり、「クリエイティブ用途やプロトタイプ開発のシナリオで」が未完成。
結論:バージョンAとバージョンCは全体的な品質が近くバージョンBより優れており、流暢性と用語の一貫性でわずかに優るバージョンCを優先推奨。バージョンBはフォーマット問題と切断があるため使用を推奨しない。
評価 3:流出した財務報告書でOpenAIが年間数十億ドルの赤字を計上していることが判明
| モデル | 正確性 | 流暢性 | 用語 | 可読性 | 総合点 |
|---|---|---|---|---|---|
| passthrough | 9 | 10 | 9 | 9 | 9 |
| deepseek-v4-pro | 7 | 8 | 7 | 8 | 7 |
| gpt-o3 | 8 | 9 | 8 | 9 | 8 |
passthrough
✓ 原文の英語報道をそのまま使用しており、言語が自然で流暢。「newly leaked financial documents show a company with quickly growing revenues」が収益成長と赤字の対比を正確に伝えている。
✗ コンテンツが深刻に切断されており、完全な段落とその後の分析が欠けているため情報が不完全。
deepseek-v4-pro
✓ 構造が明確で、「Losses exceed expectations」などの小見出しや引用が追加されており読みやすい。
✗ 数字の誤りや過剰な意訳があり、例えば原文に記載のない「40% revenue increase」が追加されている。
gpt-o3
✓ 用語が統一されており引用の翻訳も自然で、「You either choose scale or you are out」の原意が適切に保持されている。
✗ 一部の表現が若干硬く、R&D支出の割合に関する記述が原文の細部と若干の乖離がある。
結論:バージョンAは原報道に最も近いが不完全、バージョンCは全体的なバランスが良好、バージョンBには明らかな数字の誤訳と追加内容があるため、CまたはAの完全版を優先使用することを推奨。
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接