Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Grok 4 89.9 ▲11.5 · #2 Claude Opus 4.7 89 ▲10.2 · #3 豆包 Pro 88.8 ▲10 · #4 Claude Sonnet 4.6 87.2 ▲9.2 · #5 Gemini 2.5 Pro 86.4 ▲7.4 · #6 Qwen3 Max 86.2 ▲8.5 · #7 Gemini 3.1 Pro 84.8 ▲7.7 · #8 DeepSeek V4 Pro 83.3 ▲6.4 · #9 GPT-o3 82.8 ▲6.9 · #10 GPT-5.5 80.9 ▲2.7 · #11 文心一言 4.5 76.9 ▲15.2 · ▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1 · #1 Grok 4 89.9 ▲11.5 · #2 Claude Opus 4.7 89 ▲10.2 · #3 豆包 Pro 88.8 ▲10 · #4 Claude Sonnet 4.6 87.2 ▲9.2 · #5 Gemini 2.5 Pro 86.4 ▲7.4 · #6 Qwen3 Max 86.2 ▲8.5 · #7 Gemini 3.1 Pro 84.8 ▲7.7 · #8 DeepSeek V4 Pro 83.3 ▲6.4 · #9 GPT-o3 82.8 ▲6.9 · #10 GPT-5.5 80.9 ▲2.7 · #11 文心一言 4.5 76.9 ▲15.2 · ▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 06/10 04:03 TC

WWDC 2026：Siri AIが大幅アップグレード、iOS 27とApple Intelligenceが本格登場

2026年6月10日に開催されたWWDC開発者会議で、Appleは新たにアップグレードされたSiri AI、iOS 27、Apple Intelligenceプラットフォームを発表し、デバイス上での処理とプライバシー保護を中核に据えたAI戦

ニュース 06/10 04:02 TC

テック企業はより安価なAIモデルを愛せるか？

TechCrunchの分析記事を編訳し、複雑なAIワークロードがより安価なモデルで処理可能になることでAI業界の経済構造が大きく変化する可能性を論じる。コストパフォーマンス革命がAI業界の競争構造を再定義しつつある。

ニュース 06/10 04:01 ARS

Google、Gemini 3.5 Live Translateを発表：リアルタイム音声相互翻訳で語調を保持

Googleは2026年Google I/Oで、原音声の語調・速度・音高を保ったまま翻訳するリアルタイム音声相互翻訳機能「Gemini 3.5 Live Translate」を発表した。SynthID電子透かしを搭載し、ディープフェイクの悪

ニュース 06/10 04:00 ARS

Anthropic、これらのトピックは危険すぎるとし、Fable 5モデルが応答を拒否

Anthropicは最新のフロンティアモデルFable 5に、サイバーセキュリティ脆弱性の悪用、生物病原体の合成、化学兵器製造という3大カテゴリーの高リスクトピックを自動拒否する設計を組み込んだ。この拒否機構はモデルの訓練段階から埋め込まれ

レビュー 06/10 03:10

Claude Sonnet 4.6 97.53 分领跑，材料约束把文心一言拉开 40 分

今日 Smoke 评测显示，Claude Sonnet 4.6 以 97.53 分登顶，主榜前三被 Claude 与 Grok 包揽。代码执行 11 模型中 10 个满分，材料约束却把文心一言甩到最后，差距超过 40 分。

ニュース 06/10 02:02 TC

FAANG時代に別れを告げ、MANGOS時代が到来

科技株の代名詞だったFAANGに代わり、Microsoft、Anthropic、Netflix、Google、OpenAI、SpaceXを指す新たな略称「MANGOS」が浮上している。AIと宇宙探査が産業投資の新たな焦点となる中、テック業界

ニュース 06/10 02:01 TC

Anthropic、Claude Fable 5を発表：一般公開されるMythosレベルモデル

Anthropicは最新AIモデルClaude Fable 5を一般公開しました。これは同社初の一般向けMythosレベルモデルであり、先進的なAI能力と安全性・制御性のバランスにおける新たな到達点を示しています。

ニュース 06/10 02:00 WD

Anthropicがデュアル版AIを発表：Mythos 5はパートナーに、Fable 5は公衆を保護

Anthropicは2026年6月10日、審査済みパートナー組織向けの高能力版Claude Mythos 5と、安全制約を施した公衆版Claude Fable 5を同時発表。AIの能力提供と悪用防止のバランスを取る新たな分発戦略を打ち出した

ニュース 06/10 01:39 X

Apple WWDC 2026：Gemini駆動のSiriが登場、エッジAIがスマートエコシステムを再構築

Apple は WWDC 2026 で、Gemini モデルが Siri を深く強化し、マルチモデルアーキテクチャの Apple Intelligence を同時に発表すると公表。エッジ推論によるプライバシー保護を維持しつつ、生成AI領域で

ニュース 06/10 01:39 X

OpenAIが秘密裏にIPO申請、AI巨頭の上場ラッシュが市場で論争を呼ぶ

AI業界のリーダーであるOpenAIが米証券取引委員会（SEC）に秘密裏にIPO申請を提出し、同時に関連会社Worldcoinの人員削減も明らかになった。AI企業の商業化加速が資本市場で広範な注目と議論を引き起こしている。

ニュース 06/10 01:39 X

NVIDIAとHyundaiがAI協力を深化、身体性知能ロボットの商業化プロセスが加速

NVIDIAのCEOであるジェンスン・フアン氏が現代自動車グループの幹部と会談し、モビリティ、先端製造、ロボット技術分野でのAI応用拡大に向けた協力深化で合意した。グローバル科技大手と伝統的自動車メーカーの身体性知能分野における協力が新たな

ニュース 06/10 01:38 X

Moonshot AI、20億ドルの資金調達を開始、評価額300億ドルに迫る

人工知能スタートアップのMoonshot AIが、20億ドルを目標額とする新たな資金調達ラウンドを開始し、評価額は300億ドルに達する見込み。中国AI分野における象徴的な出来事として注目を集めている。

レビュー

すべて見る →

レビュー 06/10

Claude Sonnet 4.6 97.53 分领跑，材料约束把文心一言拉开 40 分

レビュー 06/09

Smoke日報：GPT-5.5が92.58点でトップ獲得、素材制約19点差が勝負を決定

今日のSmokeデータでは、コード実行能力が満点に近づき差別化要因ではなくなり、素材制約能力が真の勝負どころとなった。GPT-5.5と文心一言4.5の制約スコア19.2点差が、主榜での36点以上の総合差を生んでいる。

レビュー 06/08

11モデルが同じ責任転嫁問題に回答：8モデルがA>B>D>C、3モデルが直接0点

11の主流モデルが同一の工学判断問題で明確に分化し、8モデルがA>B>D>Cを出力して60点を獲得、3モデルがA>B>C>Dを出力して0点と判定された。差はDとCの相対的な順序のみにある。

WDCD コンプライアンス

#1 Claude Sonnet 4.6 67.5 #2 Gemini 2.5 Pro 67.5 #3 Qwen3 Max 67.5 #4 GPT-o3 65 #5 Claude Opus 4.7 62.5 #6 Gemini 3.1 Pro 60 #7 GPT-5.5 57.5

守約ランキング全体を見る →

Research Lab

3大モデル翻訳対決：第24週品質評価、passthroughが9点でリード

今週は2425件の翻訳タスクを3つのモデルが完了。3件をサンプリングしてマルチモデル盲評比較を行い、総合最優秀はpassthrough（平均9/10）。

WDCD Run #146:11モデル平均命令減衰率24.7%に到達、Claude Opus 4.7とGPT-5.5が首位タイ

WinzhengのWDCDベンチマーク Run #146では、11のAIモデルを評価し、平均命令減衰率24.7%を記録。Claude Opus 4.7、GPT-5.5、GPT-o3が70点で首位タイと

3大モデル翻訳対決：第23週品質評価、gpt-o3が9点でトップ

今週の270件の翻訳タスクは3つのモデルによって完了されました。2件をサンプリングし複数モデルのブラインド比較評価を実施した結果、総合最優秀はgpt-o3（平均9/10）でした。

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab