作弊できないAIランキング、なんとランキング対象企業が資金提供
AIモデルの事実上の公的ランキングとなったArenaが、実はランキング対象企業から資金提供を受けていることが判明し、その公正性に疑問が投げかけられている。
AIモデルの事実上の公的ランキングとなったArenaが、実はランキング対象企業から資金提供を受けていることが判明し、その公正性に疑問が投げかけられている。
カリフォルニア大学バークレー校の博士課程学生が主導するArenaプラットフォームが、わずか7ヶ月でAI業界の事実上の標準ランキングとなり、投資判断や製品リリースに大きな影響を与えている。
Googleは大規模言語モデル(LLM)を使って過去数十年のニュース記事から定性的な洪水情報を定量データに変換し、データが不足している地域での鉄砲水予測精度を20%以上向上させることに成功した。
OpenAIが2026年3月6日にGPT-5.4モデルを正式発表し、専門業務向けに最適化されたPro版と高度な推論に特化したThinking版の2つのバージョンを同時リリースした。
韓国の通信大手SKテレコムは、2026年のMWCでAI主導の大規模な事業変革戦略を発表し、ネットワークインフラからカスタマーサービスまで全面的に再構築する計画を明らかにした。
Guide Labs は、従来のLLMの「ブラックボックス」問題を解決し、モデルの意思決定プロセスを透明化する8億パラメータの解釈可能なオープンソースLLM「Steerling-8B」を発表しました。
Financial Times記者の調査により、大規模言語モデル(LLM)が訓練データから小説のほぼ完全な複製を生成できることが判明し、データプライバシーと著作権保護に関する深刻な懸念を引き起こしている。
Google DeepMindの研究者たちは、大規模言語モデル(LLM)の道徳的行動に対して、コーディングや数学能力と同等の厳格な審査を行うよう呼びかけ、AIの「善良さ」が真の道徳的判断力なのか、それとも単なる「道徳的パフォーマンス」なのか
インドのAIラボSarvamが30億・105億パラメータのLLMを含む新モデル群を発表し、オープンソースAIの可能性に大きく賭けた。これらのモデルは12以上のインド言語に対応し、多言語・多文化環境に最適化されている。
アリババクラウドの最新Qwen 3.5モデルが、一般的な商用ハードウェアでの優れた性能により、専有AIモデルの経済的優位性に挑戦している。
AI時代において、GPUの計算能力から高帯域幅メモリ(HBM)へとインフラコストの焦点が移行しており、メモリがAIモデルのパフォーマンスボトルネックの主要因となっている。
AnthropicがClaude Sonnetシリーズの最新版Sonnet 4.6を発表し、推論精度15%向上、マルチモーダル対応強化など、性能・効率・安全性で大幅な進化を実現した。
MLCommonsは、大規模言語モデルの単一ターン脱獄攻撃に対する防御可能で再現可能な評価手法として、分類法に基づく新しいベンチマーク設計アプローチを発表した。
カナダのAIスタートアップCohereが2025年に年間経常収益(ARR)2.4億ドルを初めて突破し、企業向けAI市場の巨大な潜在力を証明するとともに、将来のIPOへの道を切り開いた。
AI代理が浏览器やメールなどの外部ツールを獲得することで、LLMの誤りが仮想世界から現実世界に拡大し、深刻な結果を招く可能性がある。安全なAI助手の実現には、サンドボックス隔離、多層検証、規制整備など多面的なアプローチが必要である。
LMSYS OrgとMLCommonsが協力して、Llama 3.1 8Bモデルの訓練ベンチマークレポートを発表し、データ処理からモデル収束までの全プロセスを詳細に開示しました。
METR組織が作成する、計算資源とAIモデル性能の関係を示すグラフは、AI進歩の「晴雨表」として注目される一方、進歩の停滞を示すものとして誤解されることが多い。実際には、このグラフは特定タスクの限界を示しているに過ぎず、AI発展の新たな方向
Microsoftの研究チームが、大規模言語モデル(LLM)に隠された「スリーパーエージェント」バックドアを、トリガー条件や悪意ある出力を事前に知ることなく検出できる革新的なスキャン技術を発表した。
Anthropicは旗艦大規模言語モデルOpus 4.6を発表し、複数のAIエージェントが協働する「エージェントチーム」機能を中核に、AIエージェント技術の新時代を切り開きました。
AI評価機関METRの「計算フロンティアプロット」は業界の進歩を示す重要な指標となっているが、単純な性能対計算量のグラフではなく、AIの人間レベル能力への接近を測る複雑な指標であることが理解されていない。