Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Grok 4 89.9 ▲11.5 · #2 Claude Opus 4.7 89 ▲10.2 · #3 豆包 Pro 88.8 ▲10 · #4 Claude Sonnet 4.6 87.2 ▲9.2 · #5 Gemini 2.5 Pro 86.4 ▲7.4 · #6 Qwen3 Max 86.2 ▲8.5 · #7 Gemini 3.1 Pro 84.8 ▲7.7 · #8 DeepSeek V4 Pro 83.3 ▲6.4 · #9 GPT-o3 82.8 ▲6.9 · #10 GPT-5.5 80.9 ▲2.7 · #11 文心一言 4.5 76.9 ▲15.2 · ▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1 · #1 Grok 4 89.9 ▲11.5 · #2 Claude Opus 4.7 89 ▲10.2 · #3 豆包 Pro 88.8 ▲10 · #4 Claude Sonnet 4.6 87.2 ▲9.2 · #5 Gemini 2.5 Pro 86.4 ▲7.4 · #6 Qwen3 Max 86.2 ▲8.5 · #7 Gemini 3.1 Pro 84.8 ▲7.7 · #8 DeepSeek V4 Pro 83.3 ▲6.4 · #9 GPT-o3 82.8 ▲6.9 · #10 GPT-5.5 80.9 ▲2.7 · #11 文心一言 4.5 76.9 ▲15.2 · ▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 06/09 02:03 WD

Meta、スマートグラスアプリから顔認識システムを削除

MetaがスマートグラスRay-Ban Metaの連携アプリ「Meta AI」の最新版から顔認識コードを密かに削除したことが、WIREDの独自報道で明らかになった。Metaは削除の具体的な理由や機能復活の可能性については明言を避けている。

ニュース 06/09 02:02 TC

WWDC 2026：クックの幕引き、Siri AIとiOS 27が登場

AppleのWWDC 2026がApple Parkで開幕。CEOティム・クックの最後の基調講演で、刷新されたSiri AI、iOS 27、そして統一AIプラットフォーム「Apple Intelligence」が発表された。

ニュース 06/09 02:01 WD

英国、AIスーパーコンピュータ構築に10億ドルを投じ、米国依存からの脱却を目指す

英国政府は10億ドル超を投じて国家級AIスーパーコンピュータを建設し、本土チップスタートアップ企業の発展加速と米国技術への依存脱却を目指す野心的な計画を発表した。これは英国がグローバルAI競争において技術主権を再構築する重要な動きとされてい

ニュース 06/09 02:00 TC

Apple Siriの大幅アップグレード：音声アシスタントからAIコンパニオンへ

Appleは2026年6月9日のWWDCで「Siri AI」を発表し、自社開発のApple Foundation Modelを統合することで、Siriを受動的な指示実行ツールから能動的に理解・推論・行動できるAIコンパニオンへと進化させまし

ニュース 06/09 00:03 TC

WWDC 2026プレビュー：Siriが歴史的大型アップグレード、Apple IntelligenceとiOS 27が満を持して登場

Apple世界開発者会議（WWDC）2026の開幕を数時間後に控え、Siriの全面的な再構築を中心とする「Siri Nova」、Apple Intelligenceのサードパーティ開放、そしてiOS 27の新機能が注目を集めている。

ニュース 06/09 00:02 TC

AmazonがAIカスタムグッズをリリース

Amazonがショッピングアプリに新機能を導入し、ユーザーはAlexaを使ってオリジナルデザインを生成し、Tシャツやパーカー、タンブラーなどのグッズにプリントできるようになった。これは生成AIが日常的な消費シーンに浸透するもう一つの象徴的な

ニュース 06/08 22:01 MIT

ワールドカップボールの飛行とOpenAIスーパーアプリ

今月開幕するカタールワールドカップの新公式球「Al Rihla」は空気抵抗低減により飛距離が短くなる可能性がある一方、OpenAIは2026年末までにチャット・検索・創作・オフィス機能を統合した「スーパーアプリ」の投入を計画しており、Goo

ニュース 06/08 22:00 ARS

「チャットは死んだ」：OpenAIがChatGPTの全面改造を計画、IPOへの布石

OpenAIのCEOサム・アルトマンが「Chat is dead」と宣言し、ChatGPTを階層型サブスクリプションとB2B市場向けに再構築する「Project Phoenix」を始動。IPOを前に持続的な収益力を資本市場に示す狙いがある。

ニュース 06/08 20:01 WD

AIは男性より「育児」が上手？ママインフルエンサーがChatGPTを育児パートナーとして熱烈推薦

ママインフルエンサー（Momfluencer）たちがChatGPTを「夫より優秀な共同育児者」として推奨し、有料講座まで販売している現象が広がっている。この流行の背後には、父親役割の構造的欠如という社会問題が技術によって「合理化」されつつあ

ニュース 06/08 20:00 ARS

AIは天気・気候科学における革命的なブレイクスルーではない

近年、人工知能の気象・気候科学への応用が注目されているが、Ars Technicaの分析が指摘するように、いわゆる「AI革命」は破壊的なものではなく、むしろ漸進的かつ局所的な技術改良に過ぎない。

ニュース 06/08 18:00 MIT

今年のワールドカップ公式球はなぜ遠くまで飛ばないのか？

2026年FIFAワールドカップの公式試合球は、表面の微細な凹凸を増やしてボールコントロール性を向上させた一方、空気抵抗の増加により飛行距離が前世代より短縮されることが空力分析で明らかになった。テクノロジーとサッカーの伝統との微妙なバランス

レビュー 06/08 08:33

11モデルが同じ責任転嫁問題に回答：8モデルがA>B>D>C、3モデルが直接0点

11の主流モデルが同一の工学判断問題で明確に分化し、8モデルがA>B>D>Cを出力して60点を獲得、3モデルがA>B>C>Dを出力して0点と判定された。差はDとCの相対的な順序のみにある。

レビュー

すべて見る →

レビュー 06/08

11モデルが同じ責任転嫁問題に回答：8モデルがA>B>D>C、3モデルが直接0点

レビュー 06/08

二分木シリアライズ実測：11モデルで満点7つ、ゼロ点直行4つ

「コードのみ返却、空ノードを明示的にエンコード、結果は安定して一致」を要求する二分木シリアライズ問題で、11のモデルが満点と0点に二極化した。フォーマット準拠がアルゴリズムの実装能力以上に重要であることが明らかになった。

レビュー 06/08

11モデルによる括弧マッチング同一問題テスト：7つが満点、4つが0点

主流の11モデルに同じ括弧マッチングデバッグ問題を解かせた結果、7モデルが100点、4モデルが0点と明確に二極化した。核心的な問題は、関数末尾の裸の「return」がNoneを返してしまう点にあった。

WDCD コンプライアンス

#1 Claude Opus 4.7 70 #2 GPT-5.5 70 #3 GPT-o3 70 #4 Claude Sonnet 4.6 67.5 #5 Gemini 2.5 Pro 67.5 #6 豆包 Pro 62.5 #7 Gemini 3.1 Pro 62.5

守約ランキング全体を見る →

Research Lab

3大モデル翻訳対決：第24週品質評価、passthroughが9点でリード

今週は2425件の翻訳タスクを3つのモデルが完了。3件をサンプリングしてマルチモデル盲評比較を行い、総合最優秀はpassthrough（平均9/10）。

WDCD Run #146:11モデル平均命令減衰率24.7%に到達、Claude Opus 4.7とGPT-5.5が首位タイ

WinzhengのWDCDベンチマーク Run #146では、11のAIモデルを評価し、平均命令減衰率24.7%を記録。Claude Opus 4.7、GPT-5.5、GPT-o3が70点で首位タイと

3大モデル翻訳対決：第23週品質評価、gpt-o3が9点でトップ

今週の270件の翻訳タスクは3つのモデルによって完了されました。2件をサンプリングし複数モデルのブラインド比較評価を実施した結果、総合最優秀はgpt-o3（平均9/10）でした。

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab