🚀挑战Gemini 2.5!最强开源企业级OCR大模型InternVL3!本地部署教程+实战测评全纪录,轻松搞定潦草手写汉字、模糊PDF扫描件、模糊复杂表格,效果炸裂超过人眼!支持Open WebUI

近日,一个重量级的开源多模态大语言模型(MLLM)新星横空出世。由上海人工智能实验室、商汤科技研究院等多家机构联合开发的 InternVL3 模型,以其卓越的性能和创新的架构设计,正在重新定义开源多模态模型的发展边界。

InternVL3 模型采用了一种称为 " 原生多模态预训练 " 的创新方法,与传统模型不同,它没有先训练纯文本大语言模型再适配视觉输入,而是在单一预训练阶段同时从多样化的多模态数据和纯文本语料中共同学习语言能力和多模态能力。这种统一的训练范式有效解决了传统 MLLM 训练流程中常见的复杂性和对齐挑战。

1- 🚀本篇笔记所对应的视频

2- 🔥AI 智能体相关视频

  1. AI智能体视频 1
  2. AI智能体视频 2
  3. AI智能体视频 3
  4. AI智能体视频 4
  5. AI智能体视频 5

3- 技术创新点

InternVL3 模型的核心技术创新包括:

  1. 可变视觉位置编码(V2PE) :该模型引入了可变视觉位置编码技术,为视觉令牌使用更小、更灵活的位置增量,从而支持更长的多模态上下文,而无需过度扩展位置窗口。
  2. 混合偏好优化(MPO) :为解决模型在推理过程中可能出现的分布偏移问题,研究团队采用了混合偏好优化技术,引入来自来自正负样本的额外监督,以使模型响应分布与真实分布保持一致,从而提高推理性能。
  3. 测试时扩展策略 :InternVL3 采用了 Best-of-N 评估策略并使用 VisualPRM-8B 作为评判模型,为推理和数学评估选择最佳响应,显著提升了模型的整体性能。

4- 性能突破

根据研究团队的广泛经验评估,InternVL3 在多种多模态任务上表现出色。特别值得一提的是,InternVL3-78B 在 MMMU 基准测试中取得了 72.2 分的成绩,创下了开源 MLLM 的新纪录,其能力与领先的专有模型(包括 ChatGPT-4o、Claude 3.5 Sonnet 和 Gemini 2.5 Pro)相当,同时保持了强大的纯语言能力。

这一成绩标志着开源多模态模型首次在这一重要基准上突破 70% 的门槛,相比于之前的 InternVL 2.5 模型有了显著提升。

5- 广泛的应用场景

与前代 InternVL 2.5 相比,InternVL3 不仅在多模态感知和推理能力方面表现更佳,还将其多模态能力进一步扩展到工具使用、GUI 代理、工业图像分析、3D 视觉感知等领域。

这使得 InternVL3 在实际应用中具有更广泛的价值,从基础图像理解到复杂的跨模态推理任务,都能表现出色。

6- 开源贡献

遵循开放科学原则,研究团队将公开发布 InternVL3 的训练数据和模型权重,以促进下一代 MLLM 的进一步研究和开发。这一举措对开源 AI 社区具有重要意义,为研究人员和开发者提供了宝贵的资源。

7- 未来展望

随着多模态大语言模型的不断发展,InternVL3 的创新技术和优异性能为未来 AI 系统的发展提供了新的思路和参考。我们期待看到更多研究团队基于这一开源模型进行创新,推动多模态 AI 技术在各行各业的落地应用。


7.1- LMDeploy 文档

https://github.com/InternLM/lmdeploy

7.2- Windows 系统开启 wsl

https://learn.microsoft.com/zh-cn/windows/wsl/install

7.3- 🔥Open WebUI 安装

pip install open-webui

open-webui serve

访问:http://localhost:8080/

7.4- 🔥本地部署详细命令

# AI超元域频道原创视频
# 安装Miniconda(如果尚未安装)
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda.sh
bash ~/miniconda.sh -b -p $HOME/miniconda
eval "$($HOME/miniconda/bin/conda shell.bash hook)"
echo 'export PATH="$HOME/miniconda/bin:$PATH"' >> ~/.bashrc
source ~/.bashrc
# AI超元域频道原创视频
conda create -n lmdeploy python=3.11 -y && conda activate lmdeploy

pip install lmdeploy partial_json_parser timm

# serve
lmdeploy serve api_server OpenGVLab/InternVL3-14B-Instruct --backend turbomind --server-port 23333 --tp 2 --chat-template internvl2_5

# 调用api
from openai import OpenAI

client = OpenAI(api_key='YOUR_API_KEY', base_url='http://0.0.0.0:23333/v1')
model_name = client.models.list().data[0].id
response = client.chat.completions.create(
    model=model_name,
    messages=[{
        'role':
        'user',
        'content': [{
            'type': 'text',
            'text': 'describe this image',
        }, {
            'type': 'image_url',
            'image_url': {
                'url':
                'https://modelscope.oss-cn-beijing.aliyuncs.com/resource/tiger.jpeg',
            },
        }],
    }],
    temperature=0.8,
    top_p=0.8)
print(response)

8- You May Also Enjoy

9- 🚀OpenAI 首发轻量级 AI 编程智能体 -OpenAI Codex CLI,编程能力能否超越 cursor?Codex 编程智能体实战,打破编程瓶颈,自动化开发,轻松构建 3D 城市模拟与任务管理系统的实战教程

1 minute read

OpenAI 近日正式发布了 Codex CLI,这是一款开源的 AI 编程助手,专为开发者在本地终端环境中高效编写、修改和运行代码而设计。Codex CLI 不仅集成了 OpenAI 最新的推理模型,还能直接操作本地文件与命令行,实现更智能、更自动化的开发体验。

10- 🚀多维度测评 OpenAI 最新 GPT-4.1 模型!百万 token 上下文窗口!编程能力和指令遵循能力大幅提升!Cline+GPT-4.1 十分钟零代码开发 macOS 原生应用!只消耗 0.5 刀!更低成本更强效果

1 minute read

OpenAI 推出 GPT-4.1 系列模型:性能全面突破,百万 Token 上下文时代来临。OpenAI 于北京时间 4 月 15 日凌晨正式发布 GPT-4.1 系列模型,包含标准版 GPT-4.1、轻量版 GPT-4.1 mini 和超高效版 GPT-4.1 nano 三款产品。这一系列在编码能力、指令遵循和长文本处理等核心指标上实现跨越式…

11- 🚀颠覆传统智能体!ADK 谷歌最强 AI 智能体发布!支持 MCP 与 ollama!Agent Development Kit 详细教程!超越 AutoGen 和 LangChain!轻松打造多智能体系统!自带 UI 界面!- 完整教程

5 minute read

在人工智能领域,单一功能模型逐渐让位于更复杂的多智能体系统。这些系统通过多个智能体协同工作,能够完成复杂任务。然而,多智能体系统的开发往往面临诸多挑战。为了解决这一问题,Google 在 Google Cloud NEXT 2025 大会上推出了一款全新的开源框架——Agent Development Kit (ADK…

12- 🚀Llama 4 系列模型发布!多角度测评 Meta 多模态大模型!10M 超长上下文对中文能力的支持真的强吗?是否适合企业项目?Llama 4 Scout+Meta Llama 4 Maverick 令人失望

3 minute read

Meta 今天发布了其革命性的 Llama 4 系列模型,这标志着人工智能领域的一次重要飞跃。这些模型不仅在架构设计上取得了显著突破,还为多模态处理和企业级应用带来了全新可能性。