昨日(2026-05-29)のブックマーク

1

Xブックマーク
投稿者
Koichi (@fujibee)
投稿日時
2026-05-27 02:33 +07
リンク
https://x.com/fujibee/status/2059357190725783892
本文
http://x.com/i/article/2059350551348092928

2

⚠️ Devs, parem tudo e leiam. Quase rodei malware na m…
投稿者
Fabio Vedovelli (@vedovelli74)
投稿日時
2026-05-27 01:25 +07
リンク
https://x.com/vedovelli74/status/2059340087696273828
日本語訳
⚠️ 開発者の皆さん、すべてを止めて読んでください。たった今、自分のマシンでマルウェアを実行させられそうになったので、詐欺がどのように行われるかを正確に知ってもらいたいのです。 GitHub 上のリポジトリへのリンクを受け取りました。これは、クローンを作成してローカルで実行するリクエストを含む、web3/poker プロジェクトの「MVP」です。テクニカルテストビジュアル、
本文
⚠️ Devs, parem tudo e leiam. Quase rodei malware na minha máquina agora mesmo e quero que vocês saibam exatamente como funciona o golpe. Recebi um link de um repo no GitHub: um "MVP" de um projeto web3/poker, com pedido pra clonar e rodar localmente. Visual de teste técnico,

3

Introducing the newest Coral board, for efficient, on…
投稿者
Google Gemma (@googlegemma)
投稿日時
2026-05-28 03:55 +07
リンク
https://x.com/googlegemma/status/2059740184930074758
日本語訳
効率的なオンデバイス AI を実現する最新の Coral ボードが登場しました。ビデオでデモをチェックしてください: - オンボード音声翻訳 - 自然言語制御ハードウェア - ビジョンとサウンド生成音楽
本文
Introducing the newest Coral board, for efficient, on-device AI! Check out the demos in the video: - On-board speech translation - Natural language controlling hardware - Vision & sound generating music

動画の詳しい解説

概要
Google Coralの新しいCoral boardを、オンデバイスAI向け小型・低電力ボードとして紹介する公式デモです。
詳細解説
動画は基板写真と「GEMMA3-270M RUNNING LOCALLY」から始まり、画面・カメラ・マイク・LEDを含むキットで、音声翻訳、自然言語による物理ハードウェア制御、視覚と音を使った生成音楽デモを見せています。文字起こしでは、Google Coral MPU機械学習アクセラレータ設計、エッジデバイス向け、全処理がボード上で実行されること、デモがオープンソースでGitHub提供予定であることが説明されています。Google I/O 2026でのローンチ、Synapticsとの協業もスライドに出ています。
重要ポイント
  • Gemma 3 270Mをローカル実行する小型ボード。
  • 音声入力→翻訳→音声出力、自然言語でLED等の物理制御、カメラ/音から音楽生成のデモ。
  • 今夏提供予定、デモはオープンソースとしてGitHub公開予定。
実務/開発への示唆
  • エッジAI開発では、モデルサイズ、推論レイテンシ、入出力デバイス統合をセットで評価する。
  • クラウド依存を避けたい翻訳・制御・マルチモーダル試作に向く可能性がある。
注意点
  • Xの動画ファイル、抽出フレーム、取得できた音声文字起こしを根拠にしています。

4

AI Vibe Coding Is Broken. Strict Engineering Fixes It.
投稿者
nunomaduro (@enunomaduro)
投稿日時
2026-05-28 06:31 +07
リンク
https://x.com/enunomaduro/status/2059779570061242704
日本語訳
AI バイブ コーディングが壊れている 2026 年の優秀なエンジニアは単にプロンプ​​トを出すだけではなく、AI の種類に基づいてより厳格なシステムを構築するでしょう。テスト。パターン。静的解析。 ci。ガードレールの新しいトークがライブ中です:
本文
AI vibe coding is broken the best engineers in 2026 won't just prompt.. they'll build stricter systems around AI types. tests. patterns. static analysis. ci. guardrails new talk is live: https://youtu.be/96To5-uJbog?si=2pmTLgPGsMjJ9vhB

5

🚨 MICROSOFT JUST OPEN-SOURCED SELF-EVOLVING AGENT SKI…
投稿者
Charly Wargnier (@DataChaz)
投稿日時
2026-05-28 15:08 +07
リンク
https://x.com/DataChaz/status/2059909626532155482
日本語訳
🚨 マイクロソフトはまさにオープンソースの自己進化型エージェント スキル AI モデルをトレーニングするのとまったく同じ方法でエージェント スキルをトレーニングし、時間の経過とともに向上する様子を観察できるようになりました。これは SkillOpt と呼ばれ、100% 無料でオープンソースです。これまで、ビルディング エージェントのワークフローは純粋でした。
本文
🚨 MICROSOFT JUST OPEN-SOURCED SELF-EVOLVING AGENT SKILLS You can now train agent skills the exact same way you train AI models, and watch them get better over time. It's called SkillOpt, and it's 100% free and open-source. Until now, building agent workflows has been pure

動画の詳しい解説

概要
Microsoftが公開したSkillOptを、エージェント用スキルをデータ駆動で改善する「テキスト空間の訓練ループ」として紹介する動画です。
詳細解説
スライドでは、エージェントスキルを「タスク固有のプレイブック」と定義し、Spreadsheet/Office/Searchなどのタスクでモデルが使うskill.mdを改善対象にしています。従来は人手で作ったワークフローが初期化に弱く、意味的な探索空間が制御しづらいとし、SkillOptは候補スキルの生成、hold-out check、rollout batch、minibatch reflection、merge/rank/clipというループでスキル文書を最適化する構成です。最後はベンチマークで高スコアや、モデル間・ハーネス間の転移改善を示し、一つの最適化済みartifactが他環境にも移ることを訴求しています。
重要ポイント
  • スキルをコードではなくテキストartifactとして最適化する。
  • 評価セットとロールアウトで、skill.mdを反復改善する訓練ループ。
  • ベンチマーク上の高スコアとクロスモデル転移を強調。
実務/開発への示唆
  • 社内エージェントの手順書やツール利用ガイドも、評価タスクとセットで継続改善する対象にできる。
  • プロンプト/スキル最適化は、過学習を避けるためholdoutと実運用ログで検証する必要がある。
注意点
  • 音声は音楽のみで、内容はスライド文字と投稿本文から解釈しています。

6

New in Claude Code (research preview): dynamic workfl…
投稿者
ClaudeDevs (@ClaudeDevs)
投稿日時
2026-05-29 00:05 +07
リンク
https://x.com/ClaudeDevs/status/2060044853279617150
日本語訳
Claude Code の新機能 (リサーチ プレビュー): 動的なワークフロー。クロードは、その場でオーケストレーション スクリプトを作成し、調整されたサブエージェントの大規模なフリートを並行して起動して、最も複雑なタスクを引き受けます。開始するには、プロンプトで「ワークフロー」という単語を使用します。
本文
New in Claude Code (research preview): dynamic workflows. Claude writes an orchestration script on the fly, then spins up a large fleet of coordinated subagents in parallel to take on your most complex tasks. Use the word "workflow" in a prompt to get started.

7

You can also set "/effort ultracode", a new effort le…
投稿者
ClaudeDevs (@ClaudeDevs)
投稿日時
2026-05-29 00:05 +07
リンク
https://x.com/ClaudeDevs/status/2060044857339724158
日本語訳
また、xhigh で実行され、タスクが動的なワークフローを必要とする場合にクロードが独自に決定できる新しいエフォート レベルである「/effort Ultracode」を設定することもできます。
本文
You can also set "/effort ultracode", a new effort level that runs at xhigh and lets Claude decide on its own when a task warrants a dynamic workflow.

8

Claude Code es flipante. Pero cada vez que lo arranca…
投稿者
PA13L0 (@Fluyeporlaweb)
投稿日時
2026-05-28 13:00 +07
リンク
https://x.com/Fluyeporlaweb/status/2059877502957310059
日本語訳
クロード・コードはすごいですね。しかし、新しいプロジェクトでそれを開始するたびに、すでに認識しているはずのファイルを読み取るためにトークンを消費し始めます。誰かがまさにそれを解決するリポジトリを投稿しました。 ✅ クロードコードのコードベースの事前にインデックス付けされたナレッジグラフ ✅ 少ない
本文
Claude Code es flipante. Pero cada vez que lo arrancas en un proyecto nuevo empieza a gastar tokens leyendo archivos que ya debería conocer. Alguien publicó el repo que resuelve exactamente eso. ✅ Grafo de conocimiento pre-indexado de tu codebase para Claude Code ✅ Menos

動画の詳しい解説

概要
Claude Codeが新規プロジェクトで毎回コードベースを読み直してトークンを消費する問題を、事前インデックス化した知識グラフで軽減するリポジトリ紹介動画です。
詳細解説
動画は暗色テーマのREADME/ドキュメントをスクロールしながら、セットアップ手順、対応コマンド、ベンチマーク表、Key Features、Configuration、Troubleshooting、Future Roadmapを見せています。中心メッセージは、コードベースをあらかじめ解析して構造化し、Claude Codeから必要箇所を検索・参照できるようにすることで、初回起動時の探索コストを下げるというものです。フレーム上では「Get Started」や機能一覧、設定例、履歴・メモリ系の図が確認でき、単なるプロンプト術ではなく、プロジェクト知識を外部化してエージェントに渡す開発支援ツールとして提示されています。
重要ポイント
  • コードベースの事前インデックス化で、同じファイル探索を繰り返す無駄を減らす狙い。
  • READMEには導入手順、設定、機能表、ロードマップが並び、実運用ツールとして整理されている。
  • Claude Codeのコンテキスト節約とオンボーディング高速化が主な価値。
実務/開発への示唆
  • 大規模・長期プロジェクトでは、AIエージェント用のコード知識ベースをCIやローカル更新フローに組み込むと効果が出やすい。
  • 導入時は生成されたグラフの鮮度、機密情報の扱い、検索結果の根拠提示を確認する。
注意点
  • 音声文字起こしは取得できない、または有効な発話がほぼありませんでした。
  • 文字起こしは実質無音/ノイズのみで、解説は主に画面フレームと投稿本文に基づきます。

9

Your localhost just got a public url! Sharing your lo…
投稿者
Confidence (@megaconfidence)
投稿日時
2026-05-28 23:11 +07
リンク
https://x.com/megaconfidence/status/2060031096327164079
日本語訳
ローカルホストが公開 URL を取得しました。 Wrangler または Cloudflare Vite プラグインでローカル開発セッションを共有するのが非常に簡単になりました。 T を押すだけでトンネルを作成できます。設定不要でパブリック URL を取得できます。カスタム ドメインを使用してトンネルを作成するオプションもあります。
本文
Your localhost just got a public url! Sharing your local dev sessions is now super easy in Wrangler or the Cloudflare Vite plugin. Just press T to create a tunnel, you get a public url with no config needed There's also an option to use your custom domains to create tunnels for

動画の詳しい解説

概要
Cloudflare Wrangler / Vite pluginでローカル開発サーバーをワンキーで公開URL化するトンネル機能の紹介です。
詳細解説
動画はターミナルのwrangler dev画面で「press T」を押すと一時的な公開URLが作られる様子から始まり、CloudflareダッシュボードでNamed Tunnelを作成し、hostname、route、service URLを設定して固定のトンネルドメインへつなぐ手順を示しています。用途は、ローカルプレビュー共有、Webhookテスト、別端末からの確認です。Quick Tunnelはアカウントや設定なしでランダムドメインを使う簡易モード、Named Tunnelは少し設定が必要な代わりに静的ドメインを使えるモードとして説明されています。
重要ポイント
  • wrangler dev中にTキーでローカルサーバーを即公開できる。
  • Quick Tunnelは設定不要、Named Tunnelは固定ドメイン向け。
  • Cloudflareダッシュボードでhostname/route/service URLを紐づける。
実務/開発への示唆
  • Webhookやモバイル実機確認、レビュー共有のためにngrok系ツールの代替として使える。
  • 公開URL化するとローカル環境も外部到達可能になるため、認証・CORS・秘密情報の露出に注意する。
注意点
  • Xの動画ファイル、抽出フレーム、取得できた音声文字起こしを根拠にしています。

10

We’ve updated Claude Code's built-in claude-api skill…
投稿者
ClaudeDevs (@ClaudeDevs)
投稿日時
2026-05-28 23:59 +07
リンク
https://x.com/ClaudeDevs/status/2060043213600367030
日本語訳
Claude Code の組み込み claude-api スキル移行ガイダンスを 4.8 に更新しました。 「/claude-api merge」を実行してモデル文字列を更新し、Opus 4.8 用に調整されたプロンプトの改善を提案します。
本文
We’ve updated Claude Code's built-in claude-api skill migration guidance for 4.8. Run "/claude-api migrate" to update your model strings and suggest prompt improvements that are tuned for Opus 4.8.

11

Malware Blocking and Dependency Policies in Composer…
投稿者
Laravel News (@laravelnews)
投稿日時
2026-05-29 00:02 +07
リンク
https://x.com/laravelnews/status/2060043942448496836
日本語訳
Composer 2.10 のマルウェア ブロックと依存関係ポリシー 投稿者: @ericlbarnes
本文
Malware Blocking and Dependency Policies in Composer 2.10 posted by @ericlbarnes https://laravel-news.com/malware-blocking-and-dependency-policies-in-composer-210

12

Prompting best practices
投稿者
ClaudeDevs (@ClaudeDevs)
投稿日時
2026-05-29 00:04 +07
リンク
https://x.com/ClaudeDevs/status/2060044553982460222
日本語訳
Opus 4.8 を使用するためのヒントとベスト プラクティスについては、プロンプト ガイドを参照してください。
本文
See our prompting guide for more tips and best practices for working with Opus 4.8: https://platform.claude.com/docs/en/build-with-claude/prompt-engineering/claude-prompting-best-practices

13

Last week we rolled out sandboxes that @Railway's age…
投稿者
Cody De Arkland (@Codydearkland)
投稿日時
2026-05-29 00:18 +07
リンク
https://x.com/Codydearkland/status/2060047970113057133
日本語訳
先週、@Railway のエージェントがアプリケーションと一緒にさまざまな実行を行うために使用できるサンドボックスを公開しました。サンドボックスは、鉄道職員に作業可能なコンピュータを提供します。ファイルへのアクセス、実行とテストのためのスペース、PR を作成するためのスペースなど...ぜひチェックしてください。
本文
Last week we rolled out sandboxes that @Railway's agent can use to execute different alongside your applications. Sandboxes give the Railway agent a computer they can work with. File access, space to execute and test, a space to create PRs, etc... Check it out!

動画の詳しい解説

概要
Railwayのエージェントにサンドボックスを持たせ、リポジトリのクローン、ファイル操作、テスト、PR作成などをアプリ環境の横で実行できるようにしたデモです。
詳細解説
登壇者がRailwayの画面とエージェントチャットを使い、GitHubリポジトリをクローンしてhealth check APIを探し、サービス設定やエンドポイント確認を行う流れを説明しています。動画内では、サンドボックスなしのエージェントが手元にファイルシステムを持たず遠回りする一方、サンドボックスを使うと実際にリポジトリを取得し、プロジェクトの文脈を読んで設定変更・検証に進めることが強調されています。これは「会話だけのAI」から「作業用コンピュータを持つAI」への移行で、Railway上のデプロイ、設定、調査、修正作業をより自律的にする機能紹介です。
重要ポイント
  • Railway agentが実行環境つきのsandboxを起動できる。
  • ファイルアクセス、コマンド実行、テスト、PR作成などをアプリの横で行える。
  • ヘルスチェック設定のような運用タスクを、実コード確認にもとづいて処理できる。
実務/開発への示唆
  • クラウド開発環境では、AIに「安全に壊せる実行環境」を渡す設計が重要になる。
  • 本番権限とサンドボックス権限を分離し、変更前にdiff・ログ・テスト結果をレビューする運用が必要。
注意点
  • Xの動画ファイル、抽出フレーム、取得できた音声文字起こしを根拠にしています。

14

Dynamic workflows and adversarial code review was par…
投稿者
Jarred Sumner (@jarredsumner)
投稿日時
2026-05-29 00:28 +07
リンク
https://x.com/jarredsumner/status/2060050578026189172
日本語訳
動的なワークフローと敵対的コードレビューのおかげで、Bun を Rust で 6 日間で書き直すことが可能になりました。
本文
Dynamic workflows and adversarial code review was part of what made it possible to rewrite Bun in Rust in 6 days. https://twitter.com/claudedevs/status/2060044853279617150

15

Anthropic's new Opus 4.8 scores 3.6% lower than GPT 5…
投稿者
Cline (@cline)
投稿日時
2026-05-29 01:21 +07
リンク
https://x.com/cline/status/2060063889874972905
日本語訳
Anthropic の新しい Opus 4.8 は、ターミナルベンチ 2.1 で GPT 5.5 よりも 3.6% 低いスコアを記録しました。 Cline で並べて比較できるようになりました。 (彼らはまた、今後数週間以内により強力なサイバー安全対策を追加した後、Opus よりも高いインテリジェンスを備えた新しいモデルをリリースする計画も発表しました。)
本文
Anthropic's new Opus 4.8 scores 3.6% lower than GPT 5.5 on Terminal-Bench 2.1. Available to compare side-by-side in Cline now. (They also announced a plan to release new models with higher intelligence than Opus after adding stronger cyber safeguards in the coming weeks.)

16

米アンソロピック、「ミュトス級」のAIを数週間で一般公開へ
投稿者
日本経済新聞 電子版(日経電子版) (@nikkei)
投稿日時
2026-05-29 03:55 +07
リンク
https://x.com/nikkei/status/2060102811468107963
本文
米アンソロピック、「ミュトス級」のAIを数週間で一般公開へ https://www.nikkei.com/article/DGXZQOGN28D7M0Y6A520C2000000/?n_cid=SNSTW001&n_tw=1780001602

17

I Tried Taylor Otwell's Dead Simple Dev Setup.. Now I…
投稿者
nunomaduro (@enunomaduro)
投稿日時
2026-05-29 05:17 +07
リンク
https://x.com/enunomaduro/status/2060123434001309723
日本語訳
@taylorotwell の Dead Simple Dev Setup を試してみました。新しいビデオがわかりました:
本文
I Tried @taylorotwell's Dead Simple Dev Setup.. Now I Get It New Video: https://youtu.be/HkNJA5yqWSY?si=hdlz30wdSlz7zYfq

18

大きな開発では 人間 ←→ Opus ←→ Codex (←→ Cursor) の多重下請け構造がおすすめ…
投稿者
Kenn Ejima (@kenn)
投稿日時
2026-05-29 07:31 +07
リンク
https://x.com/kenn/status/2060157012818985422
本文
大きな開発では 人間 ←→ Opus ←→ Codex (←→ Cursor) の多重下請け構造がおすすめです Opusは意図を汲んだり本質をつかむのがうまい けどコードを書かせるとミスで手戻りが多すぎる Codexは実装を漏れなく実行するのがうまい けど詳細にとらわれて本質を見落とすことがある

19

ただし なぜかプランはCodexのほうがトークン効率よく 広く深く短く書いてくれるので プランはCodex…
投稿者
Kenn Ejima (@kenn)
投稿日時
2026-05-29 07:44 +07
リンク
https://x.com/kenn/status/2060160347173167201
本文
ただし なぜかプランはCodexのほうがトークン効率よく 広く深く短く書いてくれるので プランはCodexに書かせて それをClaudeにレビューさせる というのが一番うまくいってます Claudeのプランは詳細に踏み込みすぎるので ツッコミ役に徹したほうがうまくいきます

20

Today we’re releasing DeepSWE, a new standard for age…
投稿者
Serena Ge (Datacurve) (@serenaa_ge)
投稿日時
2026-05-26 23:18 +07
リンク
https://x.com/serenaa_ge/status/2059308218564890875
日本語訳
本日、エージェント コーディング ベンチマークの新しい標準である DeepSWE をリリースします。公開リーダーボードでは、上位モデルの機能が比較的近いことがよくあります。 DeepSWE は、開発者の日常業務における現実的な経験を反映して、実際にどこで分岐するかを示します。
本文
Today we’re releasing DeepSWE, a new standard for agentic coding benchmarks. On public leaderboards, top models often look relatively close in capability. DeepSWE shows where they actually diverge, reflecting the realistic experience of developers in their day-to-day work.

21

Una mujer británica de 48 años decidió simplemente ha…
投稿者
Rafa Gonzalez | IA (@ElCopyMaster)
投稿日時
2026-05-28 21:17 +07
リンク
https://x.com/ElCopyMaster/status/2060002480180666515
日本語訳
48 歳のイギリス人女性はいたずらをしようと決めましたが、最終的には 4 時間で 2,245 ドルを勝ち取りました。クロードの協力を得て中国人の女の子を作成し、生放送を開始した。クロードは、見た目、背景、声、言語さえもリアルタイムで変更しました。
本文
Una mujer británica de 48 años decidió simplemente hacer una broma, pero al final ganó 2.245 dólares en 4 horas. Con la ayuda de Claude, creó a una chica china y comenzó una transmisión en vivo. Claude cambiaba la apariencia, el fondo, la voz e incluso el idioma en tiempo real. https://twitter.com/ElCopyMaster/status/2058454580564832701

動画の詳しい解説

概要
Claudeを使って中国語話者風の仮想アバター/分身を作り、外見・背景・声・言語をリアルタイムに変えるライブ配信で収益を得たという事例紹介動画です。
詳細解説
画面は上下2段で、上に実在の女性、下にアニメ調/加工済みの若い女性アバターが表示され、字幕には「virtual doppelganger」「model stacking」「replace teeth」「fusion type of gameplay」などが出ます。中国語音声では、歯や骨格の一部を自分のまま残すか置き換えるか、モデルを重ねる/融合するような仕組みについて話しているようです。投稿文の文脈では、Claudeが外見、背景、音声、言語を変えたとされ、AIアバター配信・リアルタイム変換のマネタイズ例として紹介されています。
重要ポイント
  • リアル人物とAI/加工アバターを同時に見せる比較構成。
  • 字幕は仮想分身、モデル重ね合わせ、歯の置換、融合型の遊び方に言及。
  • AIアバター配信の収益化・なりすましリスクの両面を示す題材。
実務/開発への示唆
  • 生成AIアバターを使うサービスでは、本人同意、表示義務、声/顔の権利処理、詐欺対策を設計に入れるべき。
  • リアルタイム変換はエンタメだけでなく、接客・教育にも応用可能だが、本人確認と透明性が重要。
注意点
  • 投稿の収益額やClaudeが実際にどこまで制御したかは動画だけでは検証できません。

22

Today, we're releasing LFM2.5-8B-A1B, a device-optimi…
投稿者
Liquid AI (@liquidai)
投稿日時
2026-05-28 22:40 +07
リンク
https://x.com/liquidai/status/2060023455290974474
日本語訳
本日、当社は、電話、ラップトップ、PC、ロボット上の実際のアプリケーション、および高速で軽量なサーバー側のユースケースを強化するために設計されたデバイス最適化モデルである LFM2.5-8B-A1B をリリースします。 > 8B MoE、1.5B アクティブ > 拡張 128K コンテキスト > LFM2.5 フラッグシップ ハイブリッド MoE アーキテクチャ >
本文
Today, we're releasing LFM2.5-8B-A1B, a device-optimized model designed to power real-life applications on phones, laptops, PCs, robots, and fast & lightweight server-side use-cases. > 8B MoE, 1.5B active > Expanded 128K context > LFM2.5 flagship hybrid MoE architecture >

23

AI coding agents can write code, but they can't see i…
投稿者
Chrome for Developers (@ChromiumDev)
投稿日時
2026-05-29 04:41 +07
リンク
https://x.com/ChromiumDev/status/2060114203621335523
日本語訳
AI コーディング エージェントはコードを書くことはできますが、それが実際に機能するかどうかを確認することはできません。エージェント用 Chrome DevTools 1.0 ではこの問題が修正されています。安定版リリースでは、Chrome DevTools MCP サーバーを介して AI アシスタントに強力なブラウザ デバッグ、エミュレーション、自動監査が提供されます。 👁️
本文
AI coding agents can write code, but they can't see if it actually works. Chrome DevTools for agents 1.0 fixes this. The stable release brings powerful browser debugging, emulation, and automated audits to your AI assistants via our Chrome DevTools MCP server. 👁️ Give your

24

Got some hard data - I was wrong. Had Datacurve run t…
投稿者
Theo - t3.gg (@theo)
投稿日時
2026-05-29 07:16 +07
リンク
https://x.com/theo/status/2060153250167615615
日本語訳
確実なデータを入手しました - 私は間違っていました。 Datacurve に DeepSWE の「合格/不合格によって使用されるトークン」の数値を実行してもらいました。悪いモデルは失敗した場合にはるかに多くのトークンを使用しますが、SOTA モデルはそれに近いものです。 GPT 5.5 では、正解に対して最大 7% 多くのトークンが使用されました。
本文
Got some hard data - I was wrong. Had Datacurve run the numbers for "tokens used by pass/fail" for DeepSWE. Bad models use way more tokens in fail cases, but SOTA models are much closer. GPT 5.5 used ~7% MORE tokens on correct answers! https://twitter.com/theo/status/2060136670947893740

25

なぜ文章を補完するだけのLLMが、画像を生成したり認識できるのか
投稿者
tsuemura (@tsueeemura)
投稿日時
2026-05-29 08:42 +07
リンク
https://x.com/tsueeemura/status/2060174971679420874
本文
マルチモーダルAI、なんでLLMが画像を読めるのか良く分かってなかったんだけど、この辺の記事がすごくわかりやすかった #jassttohoku https://zenn.dev/karamage/articles/0bfd00c7c8d898

26

To ensure our grading is fair and reliable, we built…
投稿者
Serena Ge (Datacurve) (@serenaa_ge)
投稿日時
2026-05-26 23:20 +07
リンク
https://x.com/serenaa_ge/status/2059308694781997439
日本語訳
評価が公正で信頼できるものであることを保証するために、エージェントのロールアウトを再現し、失敗の理由を正確にマッピングするための軌跡分析エージェントを構築しました。既存のベンチマークで実行すると、検証者が有効なコードを拒否したり、モデルにソリューションを読み取らせたりするなど、重大なグレーディング ノイズが表面化しました。
本文
To ensure our grading is fair and reliable, we built a trajectory analysis agent to replay agent rollouts and map out exactly why they fail. Running it on existing benchmarks surfaced significant grading noise, with verifiers rejecting valid code or letting models read solutions

27

opus 4.8 is expensive, but this is insane
投稿者
el.cine (@EHuanglu)
投稿日時
2026-05-29 11:20 +07
リンク
https://x.com/EHuanglu/status/2060214622851059903
日本語訳
opus 4.8は高価ですが、これは非常識です
本文
opus 4.8 is expensive, but this is insane https://twitter.com/ehuanglu/status/2060051511548493962

動画の詳しい解説

概要
Opus 4.8のコストに触れつつ、生成AIが作ったと思われる横スクロール型ピクセルアートゲームの完成度を見せる短いデモです。
詳細解説
動画はレトロな2Dプラットフォーマーで、山と浮島の背景、スコア、コイン、TIME、LIFE、停止/一時停止ボタンがあり、プレイヤーキャラクターが段差をジャンプし、箱や敵、コインを処理しながら進みます。最終フレームではmacOSのスクリーンショットUIも見え、ゲームプレイ画面をキャプチャしていることが分かります。投稿文の「高いがすごい」という文脈から、AIコーディングモデルで短時間にここまで遊べるゲームUI/物理/アセット配置を生成できることへの驚きを示す動画と読めます。
重要ポイント
  • スコア、時間、ライフ、コイン、ポーズなどゲームとして必要なUIが揃っている。
  • ジャンプ、足場、敵、収集物があり、単なる静止画ではなく実プレイ画面。
  • 短尺・無音で、生成手順より完成物の見た目を見せる構成。
実務/開発への示唆
  • AIコーディングの評価では、コードだけでなく実行画面・操作感・ゲームループの成立を確認する必要がある。
  • 高性能モデルのコストは高くても、プロトタイプ生成の速度・品質が十分なら使い所がある。
注意点
  • 音声文字起こしは取得できない、または有効な発話がほぼありませんでした。
  • 音声がなく、生成に使ったプロンプトや実装コードは動画内では確認できません。

28

■ 概要 この論文は「LLM にゲームを作らせる」話を、発想生成ではなく、ゲームデザイン知識表現を実行可能…
投稿者
Trilog (@eda_u838861)
投稿日時
2026-05-29 01:38 +07
リンク
https://x.com/eda_u838861/status/2060068197685174323
本文
■ 概要 この論文は「LLM にゲームを作らせる」話を、発想生成ではなく、ゲームデザイン知識表現を実行可能な Unity アーティファクトへ落とす問題として扱っている。中心にあるのは gameplay design patterns、その中でもプレイヤーの目的関係を形式化する goal patterns である。論文は、goal

29

Nvidia will now pay you to put a mini AI data center…
投稿者
winkle. (@w1nklerr)
投稿日時
2026-05-29 03:11 +07
リンク
https://x.com/w1nklerr/status/2060091525413884408
日本語訳
Nvidia は、あなたの家にミニ AI データセンターを設置するために料金を支払うことになります。庭にある普通の AC ユニットのように見えます。しかし、内部には 16 台の Nvidia Blackwell GPU と Dell サーバーが搭載されています。 Span と呼ばれるスタートアップが Nvidia の支援を受けてそれらを構築しています。彼らはあなたの家にボルトで侵入し、あなたはその代金を受け取ります
本文
Nvidia will now pay you to put a mini AI data center on your house It looks like a normal AC unit in the yard. But inside sits 16 Nvidia Blackwell GPUs and Dell servers. A startup called Span builds them, backed by Nvidia. They bolt onto your home and you get paid for the https://twitter.com/w1nklerr/status/2060057563991884060

動画の詳しい解説

概要
住宅や小規模事業所の外に設置する「分散型ミニAIデータセンター」構想を、Nvidia/Span関連の話題として紹介する動画です。
詳細解説
動画は住宅街のCG、記事の引用、電力消費グラフ、家の外壁に取り付けたXFRA/Span風の白い箱を見せながら、16基のNvidia Blackwell GPUやDellサーバーを内蔵した液冷ユニットを家庭の未使用電力容量に接続し、ホスト家庭にはスマート電気パネル、バックアップバッテリー、電気・インターネット割引などの対価を与えるという説明をしています。従来型データセンターは建設・送電網承認に時間がかかるため、分散設置で導入速度とコストを改善するという主張です。
重要ポイント
  • 住宅外設置の液冷GPUボックスを分散データセンター化する構想。
  • 8,000台を従来100MW級データセンターより速く安く展開できるとの主張。
  • データセンター電力需要増と送電網制約を背景にしている。
実務/開発への示唆
  • AIインフラは中央集約だけでなく、電力・冷却・設置許可を含む分散配置が検討対象になる。
  • 住宅地に置く場合、騒音、熱、安全、保守、報酬、近隣合意、ネットワーク信頼性が主要論点。
注意点
  • 動画内の数値や提携内容は投稿・動画の主張であり、一次資料による検証はこの処理では行っていません。