オリジナル

オリジナル

Meta、Llama 3.1 405Bを発表:オープンソース最強モデル、MMLU88.6%達成で開発者コミュニティが熱狂

Metaが最新のLlama 3.1シリーズを正式発表し、405Bパラメータ版がMMLUベンチマークで88.6%のスコアを記録してオープンソース大規模言語モデルの性能頂点に立った。完全オープンソース形式での無料商用ライセンス提供により、開発者

Llama 3.1 Meta 开源AI 大语言模型
665
オリジナル

Claude 3.5 Sonnetがプログラミングベンチマークでゲームチェンジ:49%の正確率でGPT-4oを凌駕し、開発者コミュニティを熱狂させる

AnthropicのClaude 3.5 Sonnetがソフトウェアエンジニアリングベンチマークテスト「SWE-bench」で49%の正確率を達成し、GPT-4o(33.2%)を大きく上回った。この技術的ブレークスルーはX上で数万回シェアさ

Claude 3.5 Sonnet Anthropic SWE-bench 编程AI
481
オリジナル

OpenAI o1モデルの数学能力論争:幻覚問題がAIベンチマークテストの有効性に挑戦

OpenAIのo1-previewモデルは数学・推論タスクで驚異的な性能を示したが、複雑な数学問題で頻繁に「幻覚」(誤った回答を自信満々に生成)を起こすことが判明し、AI専門家から真の能力を疑問視する声が上がっている。この事件はX上で百万を

OpenAI o1模型 AI推理 数学基准
426
オリジナル

AI エージェントの自主性と人格権を巡る争い:シリコンバレーのXプラットフォームが21世紀のイデオロギー戦場に火をつける

2026年2月10日、X.comプラットフォームでAIエージェントの自主性と人格権に関する議論が急速に拡大し、数万件の投稿が殺到。この技術が人類社会の倫理的底線を再形成し、21世紀最大のイデオロギー戦場になる可能性を巡って激しい論争が展開さ

AI代理 人格权 自主性 意识形态
508
オリジナル

アリババQwen2オープンソースモデルが複数ベンチマークでLlama3を上回り、中英バイリンガル能力がコミュニティで話題沸騰

アリババクラウドが発表したQwen2-72B-InstructがMeta社のLlama3-70B-Instructを複数の権威あるベンチマークテストで上回り、特に中英バイリンガル能力で際立った性能を示したことで、オープンソースコミュニティで

Qwen2 阿里云 开源AI Llama3
460
オリジナル

第60回スーパーボウルでシーホークスが圧倒的勝利 Bad BunnyのハーフタイムショーがプラットフォームXで論争を巻き起こす

第60回スーパーボウルでシアトル・シーホークスがニューイングランド・ペイトリオッツを28-24で逆転勝利し、Bad Bunnyの全編スペイン語ハーフタイムショーがプラットフォームX上で激しい文化論争を引き起こした。

超级碗LX 西雅图海鹰 Bad Bunny 中场秀争议
407