27 lines of code for LLM inference 在2024年的IOCCC(国际混淆C代码大赛)中,有一个非常炫技的作品:用 27 行 C 代码实现了完整的 Llama 大语言模型推理引擎。本文将深入剖析这个极致压缩的代码实现。 2025-08-06 Fun
Tiling in AI Compilation - From Theory to Hardware Acceleration Tiling in AI Compilation: From Theory to Hardware Acceleration 2025-08-05 Study
Comprehensive Cerebras Note 1 - Go From A Simple Example 最近这段时间 Cerebras 相关的编程接口发生了比较大的变动,在 1.4 版本发布之后,我认为是一个比较恰当的时间点去重新整理一下现有的编程接口。在这个版本中,最重要的功能更新是更新了软件 color 补全硬件 color。 2025-07-22 Develop
Breaking the GPU Paradigm - A Systems Thinker's Guide to Wafer Scale Computing “What goes around comes around; every challenge demands its own solution.” — Adapted from Guiguzi, an ancient Chinese philosopher 2025-07-07 Research
AI Industry Comprehensive Analysis - June 2025 State of Development This blog is created based on Claude Research and Chivier together. 2025-06-27 Skill #ai
Modern LLM and VLM Training Methods - Comprehensive 2025 Guide Direct Preference Optimization1 and parameter-efficient methods have revolutionized AI model training, enabling high-performance customization at a fraction of traditional costs. Recent research defin 2025-06-09 Skill
Tenstorrent GraySkull Note Grayskull™ e75/e150 Tensix Processor link 2025-05-07 Study #grayskull-e75-e150-tensix-processor
Lanno Version 1 Lanno has released a formal version and is now officially at version 1.0. 2025-04-09 Develop
深深梦几许,猎猎青云中 —— DeepSeek 和无意义的变革 最近,很多熟人和我都谈起了 DeepSeek 的成功和他们的模型。在开始今天的故事之前,我首先要澄清我的个人立场,我承认 DeepSeek 的成功,但是也希望大家能冷静看待我们和世界一流 AI 公司的差距。我们还有一段未竞的事业要走。在当下的舆论环境中,对 DeepSeek 的所有批评和客观分析,可能都会被戴上反贼的帽子,但是我还是想在诚实记录自己的想法。 2025-03-15 Think #ai
大道求索,无问西东 - 从 DeepSeek 看 MLSys 的 2025 这个春节想必做科研的同学过得应该不太开心,本来只想过个好好的年,结果又是 DeepSeek R1,又是最强多模态 Janus,年还没过完,又来了 Qwen 2.5 Pro 和 OpenAI Deep Research。 2025-03-04 Skill