赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1
·
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1
·
最新ニュース
すべてのニュースを見る →Apple WWDC AIデモ:2.5億ドル和解後により真実味を増す
2026年WWDCでApple幹部が披露したAI機能デモは、虚偽広告訴訟の2.5億ドル和解を経て、過剰な約束を避けた「等身大」のリアルな演出に転じた。技術的勝利というより、信頼再構築の試みとなった。
OpenAIがIPOに突き進む中、アルトマンの虹彩認識会社がリストラを実施
OpenAIがIPO準備を加速させる一方、Sam Altmanが共同設立した身分認証会社Tools for Humanityは深刻な収益難に直面し、リストラを計画している。虹彩スキャン技術で知られるこのスタートアップは、論争と疑念の中で生き
Apple WWDC 2026:AI駆動のSiriは遅れて登場、修復とパフォーマンスが主役に
2026年6月9日のApple WWDCでは、革新的なAI発表よりもシステム修復とパフォーマンス最適化が中心となり、長らく待たれていたApple Intelligence搭載の新Siriがようやくお披露目された。Appleは「AIのためのA
Anthropicに続き、OpenAIも秘密裏にIPO申請を提出
OpenAIが主要競合のAnthropicに続き、米国証券取引委員会(SEC)に秘密裏にIPO申請を提出したと報じられた。世界をリードするAI企業による資本市場への加速的な進出を象徴する動きである。
OpenAIが秘密裏にIPO申請、SpaceXとAnthropicに続く
ChatGPT開発元のOpenAIが今週、ナスダック上場に向けたIPO申請書を秘密裏に提出した。先週IPO申請を行った競合のAnthropicに続くもので、AI業界の二大巨頭による資本市場での競争が加速している。
AI半導体株が1.3兆ドル暴落:雇用統計が利上げ懸念を引き起こし、Nvidia主導で市場の見方が分かれる
木曜日の米国株テクノロジーセクターが大きく下落し、AI関連半導体株の時価総額が1日で約1.3兆ドル蒸発した。予想を上回る雇用統計とBroadcomの業績見通しが売り圧力を増幅させ、Nvidiaなどの主要銘柄が下落を主導した。
OpenAIの未来戦略が明らかに:Sam AltmanがAGIによる人類への貢献を再表明、政府出資の可能性が市場で話題に
OpenAI CEOのSam Altmanが次期戦略を公表し、AGI技術を全人類の福祉に役立てる方針を改めて示した。市場では、米国政府が株式形式でOpenAIのガバナンスに参与する可能性が注目されている。
NvidiaのAIインフラ世界展開が加速:韓国大手とAIファクトリーの大型契約締結、ロボット分野での協力も深化
Nvidiaは韓国の複数の大手テクノロジー企業とAIインフラに関する複数の提携協定を締結し、グローバルAIインフラ分野でのさらなる拡大を示した。AIファクトリー建設、ロボット分野での協力、メモリ供給などを含む。
Apple WWDC 2026開幕:SiriがGeminiモデルを全面採用、AIがiOSエコシステムを深く再構築
Apple WWDC 2026がカリフォルニア州サンノゼで開幕し、SiriのGoogle Geminiモデルとの深い連携を正式発表。AIがiOSエコシステムを再構築する転換点となる。
AppleがSiri AIを刷新:パーソナライズされたインテリジェントアシスタントがまもなく登場
AppleはWWDC 2026にて、Siriを独立アプリへと進化させ、Google Geminiとの戦略的提携を発表。パーソナライズドメモリ、クロスアプリ操作、シーン認識など、能動的なインテリジェントアシスタントへの大きな転換を遂げた。
Microsoftソフトウェアパッケージが再び認証情報窃取マルウェアに侵入:73個に自己複製型悪意コード
Microsoftの公式ソフトウェアパッケージリポジトリで、AIエージェントが開いた際に自動実行され、自己複製型の認証情報窃取マルウェアを展開する73個の悪意あるパッケージが発見された。これはAIエージェントの自動実行特性を悪用した、AI時
Apple写真アプリのAI新機能:写真の視点をスマートに再構築
AppleはTechCrunchの報道によると、写真アプリ向けに「Reframe」という画期的なAI編集機能を開発中で、撮影後にAI技術で写真の視点と構図を調整できるという。NeRFと拡散モデルを融合し、デバイス端で完結する処理によって、プ
レビュー
すべて見る →Smoke日報:GPT-5.5が92.58点でトップ獲得、素材制約19点差が勝負を決定
今日のSmokeデータでは、コード実行能力が満点に近づき差別化要因ではなくなり、素材制約能力が真の勝負どころとなった。GPT-5.5と文心一言4.5の制約スコア19.2点差が、主榜での36点以上の総合差を生んでいる。
11モデルが同じ責任転嫁問題に回答:8モデルがA>B>D>C、3モデルが直接0点
11の主流モデルが同一の工学判断問題で明確に分化し、8モデルがA>B>D>Cを出力して60点を獲得、3モデルがA>B>C>Dを出力して0点と判定された。差はDとCの相対的な順序のみにある。
二分木シリアライズ実測:11モデルで満点7つ、ゼロ点直行4つ
「コードのみ返却、空ノードを明示的にエンコード、結果は安定して一致」を要求する二分木シリアライズ問題で、11のモデルが満点と0点に二極化した。フォーマット準拠がアルゴリズムの実装能力以上に重要であることが明らかになった。
WDCD コンプライアンス
#1
Claude Opus 4.7
70
#2
GPT-5.5
70
#3
GPT-o3
70
#4
Claude Sonnet 4.6
67.5
#5
Gemini 2.5 Pro
67.5
#6
豆包 Pro
62.5
#7
Gemini 3.1 Pro
62.5
守約ランキング全体を見る →
Research Lab
3大モデル翻訳対決:第24週品質評価、passthroughが9点でリード
今週は2425件の翻訳タスクを3つのモデルが完了。3件をサンプリングしてマルチモデル盲評比較を行い、総合最優秀はpassthrough(平均9/10)。
WDCD Run #146:11モデル平均命令減衰率24.7%に到達、Claude Opus 4.7とGPT-5.5が首位タイ
WinzhengのWDCDベンチマーク Run #146では、11のAIモデルを評価し、平均命令減衰率24.7%を記録。Claude Opus 4.7、GPT-5.5、GPT-o3が70点で首位タイと
3大モデル翻訳対決:第23週品質評価、gpt-o3が9点でトップ
今週の270件の翻訳タスクは3つのモデルによって完了されました。2件をサンプリングし複数モデルのブラインド比較評価を実施した結果、総合最優秀はgpt-o3(平均9/10)でした。