随笔

本地运行大语言模型

大语言模型 LLM 最开始听说很久之前了,真正了解到是 ChatGPT 3.5 出来之后,去年本来计划着看看的,但是因为琐事缠身没有去看,今天就尝试下运行大语言模型。

本次选用的模型是 Llama 3,四月份由 meta ai 开源的一个大语言模型,最小参数 8B 也就是 80亿参数,最大参数 405B 目前只开放到 70B 参数,性能上仅次于 GPT-4。

Ollama

Ollama 是一个不需要写代码就可以运行模型的工具,使用起来很简单,就像 Docker 一样,直接 run 模型即可。

1.png

仅仅只需要输入ollama run llama3,一个本地的可以 chat 的 LLM 就运行起来了。

2.png

尝试下进行对话,比如让他帮我推荐一款相机
t1.png

纠正上下文信息,$5000 -> ¥5000
t2.png

输出反应也很快,基本上是立刻返回,几乎没有延迟的感觉

Code

用 Python 本地运行 LLM,这个流程要稍稍复杂一些,选用的方案是使用 HuggingFace Transformers

直接参考模型页面上的示例代码,让大语言模型帮我的博客做个 SEO 优化,并且返回 JSON 格式的内容
t3.png

t4.png

可能以为中文的原因,也或者是参数的原因,因为只有 8B 的参数(这个模型最大 405B 的参数),生成的效果其实并不是很理想

另外就是,相比使用 Ollama,这里用 Python 启动及生成时都会慢很多很多,这是因为 Ollama 使用的是量化后的 Q4,而 Python 这里用的是原始模型
t5.png

目前很多概念暂时还不是很了解,留待后续继续学习,然后尝试下进行微调模型

本文链接:https://note.lilonghe.net/post/run-llm-locally.html

-- EOF --