4大モデル翻訳対決:第26週品質評価、claude-sonnet-4.6 が9点でトップ
今週393件の翻訳タスクを4つのモデルが担当し、3件をサンプリングして複数モデルによるブラインド評価を実施。総合最優秀はclaude-sonnet-4.6(平均スコア9/10)。
今週393件の翻訳タスクを4つのモデルが担当し、3件をサンプリングして複数モデルによるブラインド評価を実施。総合最優秀はclaude-sonnet-4.6(平均スコア9/10)。
今週443件の翻訳タスクを5つのモデルが担当。3件をサンプリングしてマルチモデルブラインド評価を実施した結果、総合最優秀はpassthrough(平均点9/10)となった。
今週は2425件の翻訳タスクを3つのモデルが完了。3件をサンプリングしてマルチモデル盲評比較を行い、総合最優秀はpassthrough(平均9/10)。
今週の270件の翻訳タスクは3つのモデルによって完了されました。2件をサンプリングし複数モデルのブラインド比較評価を実施した結果、総合最優秀はgpt-o3(平均9/10)でした。
今週の237件の翻訳タスクを3つのモデルが完了し、3篇をサンプリングしたマルチモデル盲評の結果、gpt-o3が平均8.3/10で総合最優秀となった。
今週は3つのモデルが242件の翻訳タスクを完了し、抽出された3件のブラインド評価で、gpt-o3が平均8.7/10点で総合最優秀となりました。
今週の215件の翻訳タスクは4つのモデルによって完了され、抽出した3件のブラインド評価で claude-sonnet-4.6 が平均9/10点で総合最優秀となりました。