赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1
·
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1
·
最新ニュース
すべてのニュースを見る →滑板车创始人融资500万,打造太空数据中心
Euwyn Poon曾创立共享滑板车公司Spin,生产了25万辆滑板车。如今他转型太空领域,创办Orbital并获500万美元种子轮融资,计划发射1万个太空数据中心。这些数据中心将部署在低地球轨道,利用太空的低温环境和真空条件,大幅降低冷却
全身若返り薬がXPrizeに挑戦、抗老化研究が新段階へ
ハーバード大学のDavid Sinclair教授が、XPrize財団の「ヘルスパンXPrize」コンペティションに参加し、複数の化合物を組み合わせた全身的な抗老化療法を提案している。本記事では、彼の若返り計画とAI分野の最新動向を併せて紹介
Lovableの年間収益が5億ドルを突破、毎週100万件の新規プロジェクトを生成
AIアプリ開発プラットフォームLovableの年間運用収益(ARR)が5億ドルを突破し、毎週100万件以上の新規プロジェクトが作成されている。これは生成AIによるソフトウェア構築が企業ユーザーに大規模に受け入れられていることを示している。
Appleの声明:AIデータのセキュリティに懸念なし、たとえGoogleサーバー上で動作していても
Appleは、一部のAIモデルがGoogleクラウドサーバー上で動作していても、厳格な隔離措置によりGoogleはユーザーデータに一切アクセスできないと公式に発表しました。この声明はAI業界における隠私とインフラ協業の新たな基準を示していま
Sandstone、シリーズAで3000万ドルを調達、AIで企業法務チームを支援
企業内部の法務チーム向けAIスタートアップSandstoneが、Lightspeed PartnersをリードインベスターとするシリーズAラウンドで3000万ドルを調達。AI技術を活用した契約レビューやコンプライアンスチェックの自動化により
シンクレア氏、XPrizeで全身若返り薬を試験へ
著名な長寿科学者デビッド・シンクレア氏は、賞金総額1億100万ドルのXPrize競技において、経口「リプログラミング」薬の人体試験を開始する計画を発表した。この試験が成功すれば、医学における老化の概念を根本から変える可能性がある。
人機共生:AIエージェント時代における企業リーダーシップの変革
MIT Technology Review Insightsの最新レポートによると、AIエージェントの導入率は今後2年間で300%急増する見込みであり、企業のリーダーシップは指令型から生態系構築型へと転換することが求められている。
弾劾証人ヴィンドマン:軍隊から議会へ、トランプに挑む
2019年の第一次トランプ弾劾調査で証言し、軍歴を断たれた元陸軍中佐アレックス・ヴィンドマン氏が、2025年夏に民主党からバージニア州連邦上院議員選への出馬を正式表明した。彼の出馬は個人的な復讐を超え、行政権力の拡張に対する制度内の抵抗を象
Mercor創業者が紅杉資本を糾弾:同株異価の評価詐欺
Mercor創業者Brendan Foodyは、ベンチャーキャピタル大手の紅杉資本(セコイア・キャピタル)が同一株式に対し投資家ごとに異なる価格を提示する「二重価格設定」を行っていると批判した。この手法はスタートアップの真の評価額シグナルを
Appleの遅いペースのAI戦略、その賢明さが今こそ際立つ
Appleは過去2年間、AI分野で「保守的」「遅れている」と批判されてきたが、WWDC 2026で発表された「Apple Intelligence」により、プライバシー優先・デバイス処理を軸とした慎重な戦略が逆に賢明な選択であったことが明ら
Apple WWDC AIデモ:2.5億ドル和解後により真実味を増す
2026年WWDCでApple幹部が披露したAI機能デモは、虚偽広告訴訟の2.5億ドル和解を経て、過剰な約束を避けた「等身大」のリアルな演出に転じた。技術的勝利というより、信頼再構築の試みとなった。
OpenAIがIPOに突き進む中、アルトマンの虹彩認識会社がリストラを実施
OpenAIがIPO準備を加速させる一方、Sam Altmanが共同設立した身分認証会社Tools for Humanityは深刻な収益難に直面し、リストラを計画している。虹彩スキャン技術で知られるこのスタートアップは、論争と疑念の中で生き
レビュー
すべて見る →Smoke日報:GPT-5.5が92.58点でトップ獲得、素材制約19点差が勝負を決定
今日のSmokeデータでは、コード実行能力が満点に近づき差別化要因ではなくなり、素材制約能力が真の勝負どころとなった。GPT-5.5と文心一言4.5の制約スコア19.2点差が、主榜での36点以上の総合差を生んでいる。
11モデルが同じ責任転嫁問題に回答:8モデルがA>B>D>C、3モデルが直接0点
11の主流モデルが同一の工学判断問題で明確に分化し、8モデルがA>B>D>Cを出力して60点を獲得、3モデルがA>B>C>Dを出力して0点と判定された。差はDとCの相対的な順序のみにある。
二分木シリアライズ実測:11モデルで満点7つ、ゼロ点直行4つ
「コードのみ返却、空ノードを明示的にエンコード、結果は安定して一致」を要求する二分木シリアライズ問題で、11のモデルが満点と0点に二極化した。フォーマット準拠がアルゴリズムの実装能力以上に重要であることが明らかになった。
WDCD コンプライアンス
#1
Claude Opus 4.7
70
#2
GPT-5.5
70
#3
GPT-o3
70
#4
Claude Sonnet 4.6
67.5
#5
Gemini 2.5 Pro
67.5
#6
豆包 Pro
62.5
#7
Gemini 3.1 Pro
62.5
守約ランキング全体を見る →
Research Lab
3大モデル翻訳対決:第24週品質評価、passthroughが9点でリード
今週は2425件の翻訳タスクを3つのモデルが完了。3件をサンプリングしてマルチモデル盲評比較を行い、総合最優秀はpassthrough(平均9/10)。
WDCD Run #146:11モデル平均命令減衰率24.7%に到達、Claude Opus 4.7とGPT-5.5が首位タイ
WinzhengのWDCDベンチマーク Run #146では、11のAIモデルを評価し、平均命令減衰率24.7%を記録。Claude Opus 4.7、GPT-5.5、GPT-o3が70点で首位タイと
3大モデル翻訳対決:第23週品質評価、gpt-o3が9点でトップ
今週の270件の翻訳タスクは3つのモデルによって完了されました。2件をサンプリングし複数モデルのブラインド比較評価を実施した結果、総合最優秀はgpt-o3(平均9/10)でした。