大语言模型 LLM 最开始听说很久之前了,真正了解到是 ChatGPT 3.5 出来之后,去年本来计划着看看的,但是因为琐事缠身没有去看,今天就尝试下运行大语言模型。
本次选用的模型是 Llama 3
,四月份由 meta ai 开源的一个大语言模型,最小参数 8B 也就是 80亿参数,最大参数 405B 目前只开放到 70B 参数,性能上仅次于 GPT-4。
Ollama
Ollama 是一个不需要写代码就可以运行模型的工具,使用起来很简单,就像 Docker 一样,直接 run 模型即可。
仅仅只需要输入ollama run llama3
,一个本地的可以 chat 的 LLM 就运行起来了。
尝试下进行对话,比如让他帮我推荐一款相机
纠正上下文信息,$5000 -> ¥5000
输出反应也很快,基本上是立刻返回,几乎没有延迟的感觉
Code
用 Python 本地运行 LLM,这个流程要稍稍复杂一些,选用的方案是使用 HuggingFace Transformers
直接参考模型页面上的示例代码,让大语言模型帮我的博客做个 SEO 优化,并且返回 JSON 格式的内容
可能以为中文的原因,也或者是参数的原因,因为只有 8B 的参数(这个模型最大 405B 的参数),生成的效果其实并不是很理想
另外就是,相比使用 Ollama,这里用 Python 启动及生成时都会慢很多很多,这是因为 Ollama 使用的是量化后的 Q4,而 Python 这里用的是原始模型
目前很多概念暂时还不是很了解,留待后续继续学习,然后尝试下进行微调模型
2024-11-26
程序接口调用
今天写了个应用,程序调用大模型来提供服务,用的同样也是 Ollama 部署大模型,Ollama 提供了 API 接口,而且也提供了可以兼容 OpenAI API 的接口,所以可以直接安装 OpenAI 的 SDK 调用本地部署的大模型服务。