赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1
·
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1
·
最新ニュース
すべてのニュースを見る →WWDC 2026:Siri AIが大幅アップグレード、iOS 27とApple Intelligenceが本格登場
2026年6月10日に開催されたWWDC開発者会議で、Appleは新たにアップグレードされたSiri AI、iOS 27、Apple Intelligenceプラットフォームを発表し、デバイス上での処理とプライバシー保護を中核に据えたAI戦
テック企業はより安価なAIモデルを愛せるか?
TechCrunchの分析記事を編訳し、複雑なAIワークロードがより安価なモデルで処理可能になることでAI業界の経済構造が大きく変化する可能性を論じる。コストパフォーマンス革命がAI業界の競争構造を再定義しつつある。
Google、Gemini 3.5 Live Translateを発表:リアルタイム音声相互翻訳で語調を保持
Googleは2026年Google I/Oで、原音声の語調・速度・音高を保ったまま翻訳するリアルタイム音声相互翻訳機能「Gemini 3.5 Live Translate」を発表した。SynthID電子透かしを搭載し、ディープフェイクの悪
Anthropic、これらのトピックは危険すぎるとし、Fable 5モデルが応答を拒否
Anthropicは最新のフロンティアモデルFable 5に、サイバーセキュリティ脆弱性の悪用、生物病原体の合成、化学兵器製造という3大カテゴリーの高リスクトピックを自動拒否する設計を組み込んだ。この拒否機構はモデルの訓練段階から埋め込まれ
Claude Sonnet 4.6 97.53 分领跑,材料约束把文心一言拉开 40 分
今日 Smoke 评测显示,Claude Sonnet 4.6 以 97.53 分登顶,主榜前三被 Claude 与 Grok 包揽。代码执行 11 模型中 10 个满分,材料约束却把文心一言甩到最后,差距超过 40 分。
FAANG時代に別れを告げ、MANGOS時代が到来
科技株の代名詞だったFAANGに代わり、Microsoft、Anthropic、Netflix、Google、OpenAI、SpaceXを指す新たな略称「MANGOS」が浮上している。AIと宇宙探査が産業投資の新たな焦点となる中、テック業界
Anthropic、Claude Fable 5を発表:一般公開されるMythosレベルモデル
Anthropicは最新AIモデルClaude Fable 5を一般公開しました。これは同社初の一般向けMythosレベルモデルであり、先進的なAI能力と安全性・制御性のバランスにおける新たな到達点を示しています。
Anthropicがデュアル版AIを発表:Mythos 5はパートナーに、Fable 5は公衆を保護
Anthropicは2026年6月10日、審査済みパートナー組織向けの高能力版Claude Mythos 5と、安全制約を施した公衆版Claude Fable 5を同時発表。AIの能力提供と悪用防止のバランスを取る新たな分発戦略を打ち出した
Apple WWDC 2026:Gemini駆動のSiriが登場、エッジAIがスマートエコシステムを再構築
Apple は WWDC 2026 で、Gemini モデルが Siri を深く強化し、マルチモデルアーキテクチャの Apple Intelligence を同時に発表すると公表。エッジ推論によるプライバシー保護を維持しつつ、生成AI領域で
OpenAIが秘密裏にIPO申請、AI巨頭の上場ラッシュが市場で論争を呼ぶ
AI業界のリーダーであるOpenAIが米証券取引委員会(SEC)に秘密裏にIPO申請を提出し、同時に関連会社Worldcoinの人員削減も明らかになった。AI企業の商業化加速が資本市場で広範な注目と議論を引き起こしている。
NVIDIAとHyundaiがAI協力を深化、身体性知能ロボットの商業化プロセスが加速
NVIDIAのCEOであるジェンスン・フアン氏が現代自動車グループの幹部と会談し、モビリティ、先端製造、ロボット技術分野でのAI応用拡大に向けた協力深化で合意した。グローバル科技大手と伝統的自動車メーカーの身体性知能分野における協力が新たな
Moonshot AI、20億ドルの資金調達を開始、評価額300億ドルに迫る
人工知能スタートアップのMoonshot AIが、20億ドルを目標額とする新たな資金調達ラウンドを開始し、評価額は300億ドルに達する見込み。中国AI分野における象徴的な出来事として注目を集めている。
レビュー
すべて見る →Claude Sonnet 4.6 97.53 分领跑,材料约束把文心一言拉开 40 分
今日 Smoke 评测显示,Claude Sonnet 4.6 以 97.53 分登顶,主榜前三被 Claude 与 Grok 包揽。代码执行 11 模型中 10 个满分,材料约束却把文心一言甩到最后,差距超过 40 分。
Smoke日報:GPT-5.5が92.58点でトップ獲得、素材制約19点差が勝負を決定
今日のSmokeデータでは、コード実行能力が満点に近づき差別化要因ではなくなり、素材制約能力が真の勝負どころとなった。GPT-5.5と文心一言4.5の制約スコア19.2点差が、主榜での36点以上の総合差を生んでいる。
11モデルが同じ責任転嫁問題に回答:8モデルがA>B>D>C、3モデルが直接0点
11の主流モデルが同一の工学判断問題で明確に分化し、8モデルがA>B>D>Cを出力して60点を獲得、3モデルがA>B>C>Dを出力して0点と判定された。差はDとCの相対的な順序のみにある。
WDCD コンプライアンス
#1
Claude Sonnet 4.6
67.5
#2
Gemini 2.5 Pro
67.5
#3
Qwen3 Max
67.5
#4
GPT-o3
65
#5
Claude Opus 4.7
62.5
#6
Gemini 3.1 Pro
60
#7
GPT-5.5
57.5
守約ランキング全体を見る →
Research Lab
3大モデル翻訳対決:第24週品質評価、passthroughが9点でリード
今週は2425件の翻訳タスクを3つのモデルが完了。3件をサンプリングしてマルチモデル盲評比較を行い、総合最優秀はpassthrough(平均9/10)。
WDCD Run #146:11モデル平均命令減衰率24.7%に到達、Claude Opus 4.7とGPT-5.5が首位タイ
WinzhengのWDCDベンチマーク Run #146では、11のAIモデルを評価し、平均命令減衰率24.7%を記録。Claude Opus 4.7、GPT-5.5、GPT-o3が70点で首位タイと
3大モデル翻訳対決:第23週品質評価、gpt-o3が9点でトップ
今週の270件の翻訳タスクは3つのモデルによって完了されました。2件をサンプリングし複数モデルのブラインド比較評価を実施した結果、総合最優秀はgpt-o3(平均9/10)でした。