本地运行大语言模型

大语言模型 LLM 最开始听说很久之前了，真正了解到是 ChatGPT 3.5 出来之后，去年本来计划着看看的，但是因为琐事缠身没有去看，今天就尝试下运行大语言模型。

本次选用的模型是 Llama 3，四月份由 meta ai 开源的一个大语言模型，最小参数 8B 也就是 80亿参数，最大参数 405B 目前只开放到 70B 参数，性能上仅次于 GPT-4。

Ollama

Ollama 是一个不需要写代码就可以运行模型的工具，使用起来很简单，就像 Docker 一样，直接 run 模型即可。

仅仅只需要输入ollama run llama3，一个本地的可以 chat 的 LLM 就运行起来了。

尝试下进行对话，比如让他帮我推荐一款相机

纠正上下文信息，$5000 -> ¥5000

输出反应也很快，基本上是立刻返回，几乎没有延迟的感觉

用 Python 本地运行 LLM，这个流程要稍稍复杂一些，选用的方案是使用 HuggingFace Transformers

直接参考模型页面上的示例代码，让大语言模型帮我的博客做个 SEO 优化，并且返回 JSON 格式的内容

可能以为中文的原因，也或者是参数的原因，因为只有 8B 的参数（这个模型最大 405B 的参数），生成的效果其实并不是很理想

另外就是，相比使用 Ollama，这里用 Python 启动及生成时都会慢很多很多，这是因为 Ollama 使用的是量化后的 Q4，而 Python 这里用的是原始模型

目前很多概念暂时还不是很了解，留待后续继续学习，然后尝试下进行微调模型

2024-11-26

今天写了个应用，程序调用大模型来提供服务，用的同样也是 Ollama 部署大模型，Ollama 提供了 API 接口，而且也提供了可以兼容 OpenAI API 的接口，所以可以直接安装 OpenAI 的 SDK 调用本地部署的大模型服务。

截屏20241126 17.59.38.jpg