Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 DeepSeek V4 Pro 92.3 · #2 Claude Opus 4.7 90.6 ▼4.7 · #3 GPT-o3 90.5 ▲0.9 · #4 Grok 4 89.9 ▲1.9 · #5 GPT-5.5 88.3 ▼4.2 · #6 豆包 Pro 88.1 ▲0.5 · #7 Qwen3 Max 87.8 ▼5.3 · #8 Gemini 2.5 Pro 82.2 ▲6.3 · #9 Claude Sonnet 4.6 81.9 ▼9.3 · #10 文心一言 4.5 81.3 ▲4.2 · #11 Gemini 3.1 Pro 77.2 ▲0.9 · ▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6 · #1 DeepSeek V4 Pro 92.3 · #2 Claude Opus 4.7 90.6 ▼4.7 · #3 GPT-o3 90.5 ▲0.9 · #4 Grok 4 89.9 ▲1.9 · #5 GPT-5.5 88.3 ▼4.2 · #6 豆包 Pro 88.1 ▲0.5 · #7 Qwen3 Max 87.8 ▼5.3 · #8 Gemini 2.5 Pro 82.2 ▲6.3 · #9 Claude Sonnet 4.6 81.9 ▼9.3 · #10 文心一言 4.5 81.3 ▲4.2 · #11 Gemini 3.1 Pro 77.2 ▲0.9 · ▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 06/24 22:19 MIT

AIネットワークデータ基盤インフラ層の台頭

AIの急速な発展に伴い、非構造化データとAIモデルの間のギャップを埋める新たなデータ基盤インフラ層が登場しつつある。この層は、AIアプリケーションの基盤となる「データ抽象層」として、インターネットのデータ供給方式を根本から再構築しようとして

ニュース 06/24 22:18 MIT

Stripe、Anthropic、OpenAIが連携して呼吸器感染症に挑む

決済大手StripeがAI企業のAnthropicおよびOpenAIと共同で「呼吸防護計画」を立ち上げ、AIを活用した広域呼吸器感染予防薬の開発を目指す。普通の風邪に有効なワクチンや特効薬が存在しない現状を打破しようという試みで、初期資金と

ニュース 06/24 22:17 MIT

エンジニアリング特集号：人類の英知で世界を再構築する

MIT Technology Reviewの日刊ニュースレター「The Download」が新たな特集号「エンジニアリング特集号」を創刊し、工学が受動的な問題解決を超え、未来を能動的に形成するエンジンへと進化すべきという理念を掲げた。システ

ニュース 06/24 22:16 WD

クアルコム、約40億ドルを投じてAIチップスタートアップのModularを買収

クアルコムがAIプログラミング言語「Mojo」で知られるチップソフトウェアスタートアップのModularを約40億ドルで買収することに合意した。この買収はモバイルAIエコシステムにおけるソフトウェア競争力の強化を目的としている。

ニュース 06/24 22:15 TC

早期割引終了まであと3日！TechCrunch Founder Summit 2026チケット、最大190ドル節約のチャンス

TechCrunch Founder Summit 2026のアーリーバード価格が6月26日太平洋時間午後11時59分に終了する。期間中に購入すれば最大190ドルの割引が受けられる。

ニュース 06/24 18:19 AIN

AnthropicがAIアシスタントをSlackチャンネルに直接統合

Anthropicは企業版・チーム版のSlack統合においてClaude Tagのベータ版を発表。ユーザーは共有Slackチャンネルで@Claudeと入力するだけでAIを直接呼び出せるようになり、AIが独立したチャット画面から動的なグループ

ニュース 06/24 18:16 MIT

太陽光発電高高度飛行船：成層圏からインターネットを照らす

米国Sceye社が開発した太陽光発電飛行船が今年8月に太平洋を横断し、日本上空約18キロの成層圏に展開される予定だ。この高高度プラットフォームステーション（HAPS）は、地上基地局と低軌道衛星の間隙を埋める新たなネットワークインフラとして注

ニュース 06/24 18:15 AIN

サムスン、AI禁止令を解除——全従業員がChatGPT EnterpriseとCodexへの全面アクセスを取得

サムスン電子は、データセキュリティへの懸念から一度はAIツールを禁止していたが、方針を転換し、ChatGPT EnterpriseとCodexを全従業員に正式開放すると発表した。これにより、韓国国内および世界のDX部門を含む数万人の従業員が

ニュース 06/24 10:15 TC

MoEngage、マーケティングの未来に賭ける：百万のAIエージェントで全顧客を支援

インドのマーケティングテック・ユニコーン企業MoEngage が、企業が顧客一人ひとりに独立したAIエージェントを展開できるコア特許技術を全額現金で買収した。この動きは、マーケティングの超個別化を「千人千面」から「一人千面」へと進化させる戦

ニュース 06/24 06:20 ARS

オラクル、2.1万人削減と債務融資でAIインフラに賭ける

オラクルは全従業員の約8%にあたる2万1000人の削減計画を開始すると同時に、AIデータセンターインフラへの投資を支えるため250億ドル超の社債を発行した。この「先に止血、後に輸血」という積極的な戦略は、クラウドとAI双方の競争で競合他社に

ニュース 06/24 06:19 MIT

科学研究・イノベーション・教育を支持する：MIT同窓生の声

2026年6月24日、MIT同窓会が『MIT Technology Review』に声明を発表し、アメリカの科学技術リーダーシップ、実力主義に基づく入学選考、そして手頃な教育費の維持を訴えた。この声明は、科学研究・イノベーション・教育が多重

ニュース 06/24 06:17 MIT

数学への愛：AI時代における微積分の教育公平性

MITのSally Kornbluth学長が、AIをめぐる議論に隠れがちな問題、すなわちアメリカの高校生における微積分学習機会の著しい不平等に警鐘を鳴らした。MITはオンライン講座や数学メンター制度など具体的な取り組みを通じて、数学的素養の

レビュー

すべて見る →

レビュー 06/24

Qwen3 Max のコード実行スコアが50点急落、メインランキングの低下はわずか1.5点

YZ Index 2026年6月の実測において、Qwen3 Max のコード実行スコアが前日の100.00点から50.00点へと1日で50点急落した。ただし、材料制約スコアの上昇がこれを相殺したため、メインランキングの低下はわずか1.5点に

レビュー 06/24

Claude Opus 4.7 Smokeテスト、主要ランキングで27.5ポイント急落——コード実行スコアが100から50へ直落

YZ Index 2026年6月の11モデル実測において、Claude Opus 4.7 SmokeテストのメインランキングスコアがB100.00点から72.50点へ急落し、コード実行ディメンションが100.00点から50.00点に直落した

レビュー 06/24

4モデルの実行スコアが50に急落、文心一言はメインランキングで34.1点の大幅下落

YZ Index 2026年6月24日のSmoke軽量評価において、文心一言4.5のメインランキングスコアが前日比34.1点急落し64.63点となり、実行ディメンションが100から50に直接低下した。同日、4つのモデルで実行スコアが同時に5

WDCD コンプライアンス

#1 Qwen3 Max 92.5 #2 Gemini 3.1 Pro 87.5 #3 Grok 4 82.5 #4 DeepSeek V4 Pro 80 #5 文心一言 4.5 75 #6 Gemini 2.5 Pro 75 #7 豆包 Pro 72.5

守約ランキング全体を見る →

Research Lab

WDCD Run #196：平均指示崩壊率が-39.9%に達し、Qwen3 Maxが-90%の崩壊を記録しながらもトップを維持

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #196において、評価対象11モデルの平均指示崩壊率が-39.9%に達した。Qwen3 Maxが総合

4大モデル翻訳対決：第26週品質評価、claude-sonnet-4.6 が9点でトップ

今週393件の翻訳タスクを4つのモデルが担当し、3件をサンプリングして複数モデルによるブラインド評価を実施。総合最優秀はclaude-sonnet-4.6（平均スコア9/10）。

WDCD Run #185：11モデルの平均指示遵守率減衰が-57.5%に、Qwen3 Maxが92.5ポイントでトップ

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #185では、11モデルを対象に評価を実施した結果、ラウンド1からラウンド3にかけての平均コミットメ

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab