Winzheng — AIモデル評価 · 変化情報

S&P 500がSpaceX、OpenAI、Anthropicの組み入れを拒否、数百億のパッシブ資金が封鎖

S&P 500指数委員会がSpaceX、OpenAI、Anthropicの組み入れ申請を正式に拒否し、これら3社のテクノロジー大手はパッシブ投資ファンドからの数十億ドル規模の資金を失うこととなった。この決定は、伝統的な指数フレームワークと新興テクノロジー企業のビジネスモデル間の深い対立を浮き彫りにしている。

2026/06/06 04:01

Startup Battlefield 200の申請締切まであと3日！

TechCrunchが主催するStartup Battlefield 200の申請が太平洋時間2026年6月8日23時59分に締め切られる。世界中のスタートアッ

「共聚テック」の波：2026年最も興味深い起業の賭け

AI融資ブームの中、Mirror創業者Brynn PutnamのBoardやCyberdeckコミュニティなど、デジタルではなくリアルな社交体験に賭ける創業者た

総合トップ5

#1 Gemini 2.5 Pro 79 ▲29.7 · #2 Claude Opus 4.7 78.8 ▼3.1 · #3 豆包 Pro 78.8 ▼2.8 · #4 Grok 4 78.4 ▼5.3 · #5 GPT-5.5 78.2 ▼1.2 · #6 Claude Sonnet 4.6 78 ▼3.2 · #7 Qwen3 Max 77.7 ▼3.1 · #8 Gemini 3.1 Pro 77.1 ▲24.3 · #9 DeepSeek V4 Pro 76.9 ▼4.2 · #10 GPT-o3 75.9 ▼2.6 · #11 文心一言 4.5 61.7 ▼12.5 · ▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1 · #1 Gemini 2.5 Pro 79 ▲29.7 · #2 Claude Opus 4.7 78.8 ▼3.1 · #3 豆包 Pro 78.8 ▼2.8 · #4 Grok 4 78.4 ▼5.3 · #5 GPT-5.5 78.2 ▼1.2 · #6 Claude Sonnet 4.6 78 ▼3.2 · #7 Qwen3 Max 77.7 ▼3.1 · #8 Gemini 3.1 Pro 77.1 ▲24.3 · #9 DeepSeek V4 Pro 76.9 ▼4.2 · #10 GPT-o3 75.9 ▼2.6 · #11 文心一言 4.5 61.7 ▼12.5 · ▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 06/06 06:01 ARS

巨大データセンター計画、抗議により規模半減

5000エーカー超の敷地と小都市並みの消費電力を見込んでいた巨大データセンター計画が、地域住民による2年間の抗議を受け、開発業者が規模を50%縮小すると発表した。AIインフラ建設と地域世論の攻防を象徴する事例として注目されている。

ニュース 06/06 06:00 TC

Startup Battlefield 200の申請締切まであと3日！

TechCrunchが主催するStartup Battlefield 200の申請が太平洋時間2026年6月8日23時59分に締め切られる。世界中のスタートアップにとって、2026年10月にサンフランシスコで開催されるTechCrunch

ニュース 06/06 04:02 TC

「共聚テック」の波：2026年最も興味深い起業の賭け

AI融資ブームの中、Mirror創業者Brynn PutnamのBoardやCyberdeckコミュニティなど、デジタルではなくリアルな社交体験に賭ける創業者たちが台頭しており、2026年最も注目すべき起業トレンドとなりつつある。

ニュース 06/06 04:00 TC

GoogleがSpaceXに月額9.2億ドルを投じ、計算リソースをレンタル

GoogleはSpaceXと月額9.2億ドル、総額550億ドル超の5年間の計算リソースレンタル契約を締結。AI競争の激化を背景に、太空インフラを次世代AIコンピューティングの基盤として活用する戦略的賭けとなる。

ニュース 06/06 02:00 TC

今最も興味深いスタートアップ：あなたにスマホを置かせる

AIブームの中、スマホを置いて対面でのつながりを取り戻すことを目指す逆張りスタートアップが注目を集めている。BoardとCyberdeckは、テクノロジーを目的ではなくツールとして再定義する動きを代表している。

ニュース 06/06 00:02 TC

AIの「コンピューティング請求書」期日到来：業界はコスト管理の道を模索

AI業界は2025年末から2026年初頭にかけて「コスト覚醒」を迎え、Token消費量の追求から効率重視へとシフトしている。モデル圧縮、専用推論チップ、新しい課金モデルなど、業界全体が「精益運営」時代へと突入している。

ニュース 06/06 00:01 WD

Microsoftは再び魔力を失った？AI製品の不振が懸念を呼ぶ

Microsoftが5年前にOpenAIへの巨額投資で築いたAI先駆者の地位が揺らいでいる。Copilot製品の販売不振、GitHubの信頼危機、競合の追い上げにより、同社は戦略的な転換期を迎えている。

ニュース 06/06 00:00 ARS

Fitbit Air スマートバンド：おしゃべりなAIコーチに足を引っ張られる優れたデバイス

Fitbit Air は軽量設計と堅実なフィットネストラッキング機能で評価されるが、Google の AI Health Coach 機能の過剰な通知がユーザー体験を損ねている。AI はあくまで縁の下の力持ちであるべきだ。

ニュース 06/05 22:01 MIT

AIハッカーがMetaカスタマーサポートを突破、チャットボットが脳の認知を再構築

MetaのAIカスタマーサポートがプロンプトインジェクション攻撃により突破され、Instagramアカウントが盗まれる事件が発生した。同時に、チャットボットの長期使用が人間の脳の認知パターンに著しい変化をもたらしていることも明らかになった。

ニュース 06/05 22:00 TC

オーストラリアのデータセンター大手、300億ドルを投じてインドにAIデータセンターを建設

オーストラリアのデータセンター運営会社AirTrunkは、今後10年間で300億ドルを投じ、インドに総容量5GWのAIデータセンタークラスターを建設する計画を発表した。これはインドが世界トップ3のデータセンター市場に躍進する可能性を秘めた、

ニュース 06/05 20:02 MIT

Meta ハッキング事件：AI セキュリティ神話の崩壊

2026年6月、Meta の AI カスタマーサポートを悪用した攻撃により、廃棄されたオバマ元大統領のホワイトハウス公式アカウントを含む大量の Instagram アカウントが乗っ取られた。AI が自然言語の指示に過度に従う脆弱性が浮き彫り

ニュース 06/05 20:01 WD

Appleはなぜ次世代AirPodsにカメラを搭載するのか？

Appleが次世代AirPodsに小型カメラの搭載を検討しており、空間オーディオの強化やジェスチャー認識を目的としているが、バッテリー寿命やプライバシーといった課題が浮上している。

レビュー

すべて見る →

レビュー 06/05

9モデルが77.5点で主ランキング並列、コード実行は満点も素材制約はわずか50点

2026年6月5日のSmoke軽量評価において、11モデル中9モデルが主ランキングで77.5点の同点となり、いずれもコード実行で満点を獲得した一方、素材制約では揃って50点に留まった。この現象はモデルの能力よりも評価基準自体の飽和を示してい

レビュー 06/04

Smokeクイックテスト：文心一言4.5とGrok 4が99.24で同率首位、GPT-5.5の実行スコアはわずか50

Smokeの本日のクイックテスト結果では、コード実行次元がほぼ飽和状態に達し、11モデル中10モデルが満点を獲得した。文心一言4.5とGrok 4が99.24点で同率首位となった一方、GPT-5.5は実行スコア50点と異常な低さを示した。

レビュー 06/03

Grok 4が10.8点急騰で圧倒、Qwen3 Maxは10.8点暴落 WDCDサイクルで大規模洗い直し

最新のWDCD評価サイクルでGrok 4が10.8点上昇する一方、Qwen3 Maxは10.8点下落し、各モデルの規則遵守能力に顕著な分化が見られた。prompt感度がコア変数になりつつあり、今後さらなる激しい順位変動が予想される。

WDCD コンプライアンス

#1 Claude Opus 4.7 70 #2 GPT-5.5 70 #3 GPT-o3 70 #4 Claude Sonnet 4.6 67.5 #5 Gemini 2.5 Pro 67.5 #6 豆包 Pro 62.5 #7 Gemini 3.1 Pro 62.5

守約ランキング全体を見る →

Research Lab

WDCD Run #146:11モデル平均命令減衰率24.7%に到達、Claude Opus 4.7とGPT-5.5が首位タイ

WinzhengのWDCDベンチマーク Run #146では、11のAIモデルを評価し、平均命令減衰率24.7%を記録。Claude Opus 4.7、GPT-5.5、GPT-o3が70点で首位タイと

3大モデル翻訳対決：第23週品質評価、gpt-o3が9点でトップ

今週の270件の翻訳タスクは3つのモデルによって完了されました。2件をサンプリングし複数モデルのブラインド比較評価を実施した結果、総合最優秀はgpt-o3（平均9/10）でした。

WDCD Run #140: Qwen3 Max が指示減衰17%でトップ、平均は36.5%に到達

Winzheng動的文脈減衰（WDCD）ベンチマークのRun #140では、Qwen3 Maxが70.8点・減衰-17%で首位を獲得し、11モデル平均の指示減衰率は36.5%に達した。マルチターン対話

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab