Read original ↗

newsHacker NewsTrust 72 · CommunityPublished 4d agoLive · 4d ago

Knowledge Distillation of Black-Box Large Language Models (2024)

115points22comments

Open Source Hacker News verified also-covered-by:Hacker News

Covers

paperNuclearQAv2: A Structured Benchmark for Evaluating Domain-Science Competence in Large Language Models paperHow Surprising Is Historical Italian to Language Models? Tokenization Tax, Comprehension Tax, and a Simple Mitigation repoengineering87/llm-atlas modeldeepseek-ai/DeepSeek-V3 modeldeepseek-ai/DeepSeek-V3-0324 glossary_termTransformer

Covers (incoming)

paperLittle Brains, Big Feats: Exploring Compact Language Models paperEfficient Retrieval-Augmented Generation via Token Co-occurrence Graphs paperGrounding LLM Reasoning under Incomplete Graph Evidence paperThe Model Organism Lottery: Model Organism Interpretability Strongly Depends on Training Methodology repochrisliu298/awesome-on-policy-distillation repochrisliu298/awesome-llm-unlearning

Related across the graph

repochrisliu298/awesome-llm-unlearning paperLittle Brains, Big Feats: Exploring Compact Language Models repochrisliu298/awesome-on-policy-distillation glossary_termTransformer modeldeepseek-ai/DeepSeek-V3 repoengineering87/llm-atlas paperGrounding LLM Reasoning under Incomplete Graph Evidence paperEfficient Retrieval-Augmented Generation via Token Co-occurrence Graphs paperHow Surprising Is Historical Italian to Language Models? Tokenization Tax, Comprehension Tax, and a Simple Mitigation modeldeepseek-ai/DeepSeek-V3-0324 paperThe Model Organism Lottery: Model Organism Interpretability Strongly Depends on Training Methodology paperNuclearQAv2: A Structured Benchmark for Evaluating Domain-Science Competence in Large Language Models