基准测试に関するAIニュース | Winzheng AI ニュース

Gemini 2.5 Pro の素材制約スコアが15.2点急落、コード実行は45点急騰

YZ Index 2026年6月のSmokeテストにおいて、Gemini 2.5 Pro の素材制約スコアが前日比15.2点下落した一方、コード実行スコアは満点の100点に達し、メインボードの総合スコアは89.79点に上昇した。小サンプルに

OpenAIが2024年9月に発表したo1-preview・o1-miniモデルが、数学・プログラミング等の複数ベンチマークテストでGPT-4oやClaude 3.5 Sonnetを圧倒的に上回る性能を示し、AI界に衝撃を与えた。

AnthropicがClaude 3.5 Sonnetモデルを正式発表。複数の権威ある基準テストで記録的な成績を達成し、特にコーディングと複雑な推論タスクでOpenAIのGPT-4oを上回り、技術界で注目を集めている。

NVIDIAの早期アクセスプログラムを通じて、デスクトップワークステーション形態でスーパーコンピューティング性能を実現するNVIDIA DGX Sparkを詳細にレビューし、SGLangを使用した性能テストと実用シナリオを検証しました。

Mini-SGLangは、わずか5000行のPythonコードで最先端の性能を実現する軽量なLLM推論フレームワークで、教育用途と研究プロトタイピングの両方に最適化されています。

OpenAIが新たに発表したo1-previewとo1-miniモデルが、ARC-AGIベンチマークで87.5%を達成し、AI推論の分野で新たな記録を樹立しました。この成果は、AIの思考能力の革新として世界中の注目を集めています。