赢政 AI 評測 — AI モデル評価・ニュース・研究

ニュース 06/22 10:07 X
中国AIストレージのボトルネックが顕在化:HBMと先進パッケージングが今後3年間の核心的課題になる可能性
中国語SNSプラットフォームXで、中国AI産業の今後3年間の核心的ボトルネックに関する議論が加熱しており、HBM・DRAM・光インターコネクト・先進パッケージング技術がAI発展を制約する重要因子として広く認識されている。
ニュース 06/22 10:07 X
Google Gemini 3.5 Pro まもなくリリース、開発者は新モデルがAI競争の構図を塗り替えることに期待
GoogleがGemini 3.5 Proを6月に正式リリースすることを確認した。現在は社内展開中であり、開発者たちは公開版を固唾を飲んで待ち望んでいる。
ニュース 06/22 10:07 X
OpenAI GPT-5.6シリーズが間もなく登場:150万トークンのコンテキストウィンドウがAI競争構図を塗り替える
OpenAIは次世代大規模モデルGPT-5.6シリーズの発表を進めており、最大150万トークンのコンテキストウィンドウと強化された長距離コーディング能力を備えたMiniとProの2バージョンが登場予定。業界全体の競争構図に大きな影響を与える
ニュース 06/22 10:06 X
AI Agent Loopsの自己改善システムが話題沸騰:Andrew Ngが40分でゼロからアプリを構築してみせる
著名なAI専門家Andrew NgとAnthropicのエンジニアが、AI Agent Loopsと呼ばれる自己改善システムの構築手法を共同で披露した。このシステムはAIエージェントがループによる反復を通じて自己最適化を実現し、わずか40分
ニュース 06/22 10:06 X
Sakana AIがFuguマルチエージェントオーケストレーションシステムを発表、単一APIでフロンティアAI能力を提供
Sakana AIがFuguマルチエージェントオーケストレーションシステムとFugu Ultraモデルを正式発表し、単一APIで閉源モデルに匹敵する性能を提供しながら輸出規制リスクを回避する新技術として開発者コミュニティから注目を集めている
ニュース 06/22 07:12
4大モデル翻訳対決:第26週品質評価、claude-sonnet-4.6 が9点でトップ
今週393件の翻訳タスクを4つのモデルが担当し、3件をサンプリングして複数モデルによるブラインド評価を実施。総合最優秀はclaude-sonnet-4.6(平均スコア9/10)。
ニュース 06/22 05:45 X
GitHubでClaude技術スキルリポジトリが爆発的人気:AIエージェントのモジュール化実践が開発者の新トレンドを牽引
GitHub上でAnthropic Claudeに関連するスキル・プロンプトリポジトリが急増し、スター数が数十万規模に達している。この現象はAI開発者コミュニティで大きな注目を集め、エージェント式開発のモジュール化という新たな工学的実践の潮
ニュース 06/22 05:45 X
Grok Connectors リリース:AIはチャットツールから生産性エンジンの新段階へ
xAIがGrok ConnectorsワークフローインテグレーションサービスをリリースしGrokをGoogle Drive、GitHub、Notionなどの主要ツールと連携できるようになった。これはAIツールが娯楽から生産性領域へと本格的に
ニュース 06/22 05:45 X
オープンソースPyTorch LLMトレーニングパイプライン公開:単一GPUで億規模モデルのフルプロセストレーニングを実現
PyTorchベースの完全オープンソースLLMトレーニングパイプライン「Open-Source LLM Training Pipeline」が公開され、単一GPUで億規模パラメータモデルの事前学習からPPO/DPOまでの全トレーニングプロセ
ニュース 06/22 05:45 X
Anthropicがソウルオフィスを正式開設、韓国大手企業と連携しエンタープライズAIの実装を加速
Anthropicが韓国・ソウルにオフィスを正式開設し、NAVER、サムスンSDS、LG CNSなどの韓国大手企業と複数の提携協定を締結した。これはAnthropicのアジア市場展開における重要なマイルストーンと位置づけられている。
レビュー 06/22 03:35
Gemini 2.5 Pro がメインランキングで28点急落、コード実行が100点から半減
Gemini 2.5 Pro は YZ Index 2026年6月 Smoke 評価において、メインランキングのスコアが前日の99.28点から71.33点へと1日で28点下落した。コード実行ディメンションが100.00点から50.00点に急
レビュー 06/22 03:35
Qwen3 Max、材料制約スコアが26.7点急落——コード実行は満点100点に上昇
YZ Indexの2026年6月における11モデルの実測で、Qwen3 MaxのSmokeテスト材料制約スコアが前日比26.7点減の68.80点に急落した一方、コード実行スコアは100点満点を記録した。総合メインランキングスコアは5.1点増