Bendi新闻
>
Karpathy点赞,这份报告教你如何用 LLaMa 3创建高质量网络数据集
Karpathy点赞,这份报告教你如何用 LLaMa 3创建高质量网络数据集
5月前
自己抓取,如 OpenAI 或 Anthropic 等公司; 使用抓取网页的公共资源库,如非营利组织 CommonCrawl 维护的资源库。
CommonSense QA HellaSwag OpenBook QA PIQA SIQA WinoGrande ARC MMLU
应用 URL 过滤; 应用 fastText 语言分类器,仅保留分数≥0.65 的英文文本; 应用来自 MassiveText 的质量和重复过滤器(使用默认阈值)。
基础过滤 每个转储独立的 MinHash 重复数据删除 精选 C4 过滤器 自定义过滤器
我们的训练数据包括经过严格过滤的公开网络数据(根据「教育程度」),这些数据来自各种开放的互联网资源,以及 LLM 生成的合成数据。
我们发现,前几代 Llama 擅长识别高质量数据,因此我们使用 Llama 2 来帮助构建文本质量分类器,为 Llama 3 提供动力。
用于 Llama-3 教育分数注释的提示。
FineWeb-Edu 超越了 FineWeb 和所有其他开放网络数据集,在教育基准(如 MMLU、ARC 和 OpenBookQA)方面取得了显著改进。 与 C4 和 Dolma 相比,它需要的 token 数量减少了 10 倍,才能与 MMLU 的结果相媲美。 这证明了使用在 LLM 注释上训练的分类器进行大规模数据过滤的有效性。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
靠Scaling Laws炼出4D版视频生成模型,多伦多大学北交大等携手开源81K高质量数据集今日arXiv最热NLP大模型论文:IBM研究院提出Genie方法,自动生成高质量数据集250行代码从头搭建Llama 3,GitHub一天4.6k星!Karpathy大赞甲骨文首次将LLMs引入数据库,集成Llama 3和Mistral,和数据库高效对话知乎高赞集锦:那些让你瞬间醍醐灌顶的话万字干货!手把手教你如何训练超大规模集群下的大语言模型FineWeb技术报告出炉!揭秘HuggingFace规模最大、质量最高预训练数据集理想汽车发布首个大规模真实3D汽车数据集,RGB-D+点云+地图标注!用GPT-3.5生成数据集!北大天工等团队图像编辑新SOTA,可精准模拟物理世界场景开源15T tokens!HuggingFace放出规模最大、质量最高预训练数据集为什么AI数不清Strawberry里有几个 r?Karpathy:我用表情包给你解释一下对话林咏华:刚在“AI春晚”上开源了3.4T数据集的智源,是如何死磕大模型数据难题的这版金庸作品集:你就看我大不大高质量3D生成最有希望的一集?GaussianCube在三维生成中全面超越NeRF新加坡作家游以飘:“我的这本诗集是上下班路上用手机写的”直播|如何2周内创建产品经理作品集-Traditional or AI中移集智:2024政务数据应用场景研究报告最暴露年龄的一集,这6个国货品牌我居然全用过没空调,粪水河!巴黎奥运会设计槽点大集合,这届奥运行不行?太酷了!iPhone、iPad、MacBook老旧设备组成异构集群,能跑Llama 3AI Infra 现状:一边追求 10 万卡 GPU 集群,一边用网络榨取算力手握10亿欧元现金,Moncler集团高管细说如何“花钱”习近平在中共中央政治局第十四次集体学习时强调 促进高质量充分就业 不断增强广大劳动者的获得感幸福感安全感广汽集团参设上市公司高质量发展基金