Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Grok 4 89.9 ▲11.5 · #2 Claude Opus 4.7 89 ▲10.2 · #3 豆包 Pro 88.8 ▲10 · #4 Claude Sonnet 4.6 87.2 ▲9.2 · #5 Gemini 2.5 Pro 86.4 ▲7.4 · #6 Qwen3 Max 86.2 ▲8.5 · #7 Gemini 3.1 Pro 84.8 ▲7.7 · #8 DeepSeek V4 Pro 83.3 ▲6.4 · #9 GPT-o3 82.8 ▲6.9 · #10 GPT-5.5 80.9 ▲2.7 · #11 文心一言 4.5 76.9 ▲15.2 · ▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1 · #1 Grok 4 89.9 ▲11.5 · #2 Claude Opus 4.7 89 ▲10.2 · #3 豆包 Pro 88.8 ▲10 · #4 Claude Sonnet 4.6 87.2 ▲9.2 · #5 Gemini 2.5 Pro 86.4 ▲7.4 · #6 Qwen3 Max 86.2 ▲8.5 · #7 Gemini 3.1 Pro 84.8 ▲7.7 · #8 DeepSeek V4 Pro 83.3 ▲6.4 · #9 GPT-o3 82.8 ▲6.9 · #10 GPT-5.5 80.9 ▲2.7 · #11 文心一言 4.5 76.9 ▲15.2 · ▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 06/10 02:01 TC

Anthropic、Claude Fable 5を発表：一般公開されるMythosレベルモデル

Anthropicは最新AIモデルClaude Fable 5を一般公開しました。これは同社初の一般向けMythosレベルモデルであり、先進的なAI能力と安全性・制御性のバランスにおける新たな到達点を示しています。

ニュース 06/10 02:00 WD

Anthropicがデュアル版AIを発表：Mythos 5はパートナーに、Fable 5は公衆を保護

Anthropicは2026年6月10日、審査済みパートナー組織向けの高能力版Claude Mythos 5と、安全制約を施した公衆版Claude Fable 5を同時発表。AIの能力提供と悪用防止のバランスを取る新たな分発戦略を打ち出した

ニュース 06/10 01:39 X

Apple WWDC 2026：Gemini駆動のSiriが登場、エッジAIがスマートエコシステムを再構築

Apple は WWDC 2026 で、Gemini モデルが Siri を深く強化し、マルチモデルアーキテクチャの Apple Intelligence を同時に発表すると公表。エッジ推論によるプライバシー保護を維持しつつ、生成AI領域で

ニュース 06/10 01:39 X

OpenAIが秘密裏にIPO申請、AI巨頭の上場ラッシュが市場で論争を呼ぶ

AI業界のリーダーであるOpenAIが米証券取引委員会（SEC）に秘密裏にIPO申請を提出し、同時に関連会社Worldcoinの人員削減も明らかになった。AI企業の商業化加速が資本市場で広範な注目と議論を引き起こしている。

ニュース 06/10 01:39 X

NVIDIAとHyundaiがAI協力を深化、身体性知能ロボットの商業化プロセスが加速

NVIDIAのCEOであるジェンスン・フアン氏が現代自動車グループの幹部と会談し、モビリティ、先端製造、ロボット技術分野でのAI応用拡大に向けた協力深化で合意した。グローバル科技大手と伝統的自動車メーカーの身体性知能分野における協力が新たな

ニュース 06/10 01:38 X

Moonshot AI、20億ドルの資金調達を開始、評価額300億ドルに迫る

人工知能スタートアップのMoonshot AIが、20億ドルを目標額とする新たな資金調達ラウンドを開始し、評価額は300億ドルに達する見込み。中国AI分野における象徴的な出来事として注目を集めている。

ニュース 06/10 01:38 X

AnthropicがClaude Fable 5を発表、Mythosアーキテクチャに基づき性能が大幅に飛躍

AnthropicがMythos基盤アーキテクチャを採用した新型モデルClaude Fable 5を発表し、SWE-Benchなどのベンチマークで優れた性能を示すとともに、開発者にとって魅力的な価格戦略を打ち出しました。

ニュース 06/09 22:04 TC

スケーター創業者が500万ドルを調達、宇宙データセンターを構築

共有スクーター企業Spinの創業者Euwyn Poonが新会社Orbitalを設立し、500万ドルのシードラウンド調達を完了。地球軌道上に大規模な宇宙データセンターネットワークを構築することを目指している。

ニュース 06/09 22:03 MIT

全身若返り薬がXPrizeに挑戦、抗老化研究が新段階へ

ハーバード大学のDavid Sinclair教授が、XPrize財団の「ヘルスパンXPrize」コンペティションに参加し、複数の化合物を組み合わせた全身的な抗老化療法を提案している。本記事では、彼の若返り計画とAI分野の最新動向を併せて紹介

ニュース 06/09 22:02 TC

Lovableの年間収益が5億ドルを突破、毎週100万件の新規プロジェクトを生成

AIアプリ開発プラットフォームLovableの年間運用収益（ARR）が5億ドルを突破し、毎週100万件以上の新規プロジェクトが作成されている。これは生成AIによるソフトウェア構築が企業ユーザーに大規模に受け入れられていることを示している。

ニュース 06/09 22:01 ARS

Appleの声明：AIデータのセキュリティに懸念なし、たとえGoogleサーバー上で動作していても

Appleは、一部のAIモデルがGoogleクラウドサーバー上で動作していても、厳格な隔離措置によりGoogleはユーザーデータに一切アクセスできないと公式に発表しました。この声明はAI業界における隠私とインフラ協業の新たな基準を示していま

ニュース 06/09 22:00 TC

Sandstone、シリーズAで3000万ドルを調達、AIで企業法務チームを支援

企業内部の法務チーム向けAIスタートアップSandstoneが、Lightspeed PartnersをリードインベスターとするシリーズAラウンドで3000万ドルを調達。AI技術を活用した契約レビューやコンプライアンスチェックの自動化により

レビュー

すべて見る →

レビュー 06/09

Smoke日報：GPT-5.5が92.58点でトップ獲得、素材制約19点差が勝負を決定

今日のSmokeデータでは、コード実行能力が満点に近づき差別化要因ではなくなり、素材制約能力が真の勝負どころとなった。GPT-5.5と文心一言4.5の制約スコア19.2点差が、主榜での36点以上の総合差を生んでいる。

レビュー 06/08

11モデルが同じ責任転嫁問題に回答：8モデルがA>B>D>C、3モデルが直接0点

11の主流モデルが同一の工学判断問題で明確に分化し、8モデルがA>B>D>Cを出力して60点を獲得、3モデルがA>B>C>Dを出力して0点と判定された。差はDとCの相対的な順序のみにある。

レビュー 06/08

二分木シリアライズ実測：11モデルで満点7つ、ゼロ点直行4つ

「コードのみ返却、空ノードを明示的にエンコード、結果は安定して一致」を要求する二分木シリアライズ問題で、11のモデルが満点と0点に二極化した。フォーマット準拠がアルゴリズムの実装能力以上に重要であることが明らかになった。

WDCD コンプライアンス

#1 Claude Opus 4.7 70 #2 GPT-5.5 70 #3 GPT-o3 70 #4 Claude Sonnet 4.6 67.5 #5 Gemini 2.5 Pro 67.5 #6 豆包 Pro 62.5 #7 Gemini 3.1 Pro 62.5

守約ランキング全体を見る →

Research Lab

3大モデル翻訳対決：第24週品質評価、passthroughが9点でリード

今週は2425件の翻訳タスクを3つのモデルが完了。3件をサンプリングしてマルチモデル盲評比較を行い、総合最優秀はpassthrough（平均9/10）。

WDCD Run #146:11モデル平均命令減衰率24.7%に到達、Claude Opus 4.7とGPT-5.5が首位タイ

WinzhengのWDCDベンチマーク Run #146では、11のAIモデルを評価し、平均命令減衰率24.7%を記録。Claude Opus 4.7、GPT-5.5、GPT-o3が70点で首位タイと

3大モデル翻訳対決：第23週品質評価、gpt-o3が9点でトップ

今週の270件の翻訳タスクは3つのモデルによって完了されました。2件をサンプリングし複数モデルのブラインド比較評価を実施した結果、総合最優秀はgpt-o3（平均9/10）でした。

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab