开发手机网站多少钱怎么在网站上做图片轮播

张小明 2026/1/9 7:48:01
开发手机网站多少钱,怎么在网站上做图片轮播,网络服务器分为哪几种,网站建设需要在网络上如何实现一、概论 通义千问OCR 是专用于文字提取的视觉理解模型#xff0c;可从各类图像#xff08;如扫描文档、表格、票据等#xff09;中提取文本或解析结构化数据#xff0c;支持识别多种语言#xff0c;并能通过特定任务指令实现信息抽取、表格解析、公式识别等高级功…一、概论通义千问OCR 是专用于文字提取的视觉理解模型可从各类图像如扫描文档、表格、票据等中提取文本或解析结构化数据支持识别多种语言并能通过特定任务指令实现信息抽取、表格解析、公式识别等高级功能。简单来说视觉推理模型的核心特点是 **“先拆解逻辑再给出结论”**—— 它不仅能完成复杂视觉分析任务还能像人一样暴露背后的思考逻辑彻底区别于普通视觉模型 “直接输出结果” 的模式尤其适配需要深度逻辑推导的场景比如处理数学几何题时它不会直接给出答案而是先输出思考过程“首先观察图片中的图形结构识别出三角形的类型等腰直角三角形→ 提取已知条件直角边长度为 5cm→ 回忆勾股定理公式a²b²c²→ 代入数值计算斜边长度→ 验证计算结果是否符合图形比例”之后再给出明确的解题答案和最终结果分析图表数据如柱状图、折线图时思考过程会是“先确定图表类型为年度销售额折线图→ 解读横轴年份 2020-2024和纵轴销售额单位万元→ 提取各年份关键数据2020 年 800 万、2021 年 1200 万…→ 计算年度增长率2021 年同比增长 50%→ 分析增长趋势2022-2023 年增速放缓”再输出整合后的数据分析结论理解复杂视频如事件类短视频、监控画面时思考过程会围绕 “事件顺序、因果关系” 展开“先梳理视频帧中的关键场景第 1 帧车辆正常行驶第 3 帧行人横穿马路第 5 帧车辆刹车避让→ 还原事件时间线行人未走斑马线→ 司机发现后紧急刹车→ 未发生碰撞→ 提炼核心事件车辆避让违规横穿马路的行人”最终给出完整的视频内容总结。这种 “思考过程 最终答案” 的输出模式让模型的决策逻辑可追溯、可解释不仅能应对复杂视觉任务的深度分析需求还能帮助用户理解结论的由来尤其适合对逻辑严谨性要求高的场景如教育解题、专业数据分析、事件溯源等。二、代码实现1. QvqOcrRequestpackage gzj.spring.ai.Request; import lombok.Data; import javax.validation.constraints.NotNull; /** * author DELL */ Data public class QvqOcrRequest { /** 图片URL支持HTTPS */ NotNull(message 图片URL不能为空) private String imageUrl; /** 提问文本如解题、分析图片等 */ NotNull(message 提问文本不能为空) private String text; /** 模型名称默认qvq-max需SDK≥2.19.0 */ private String modelName qwen-vl-ocr-2025-11-20; }2. QvqOrcServicepackage gzj.spring.ai.Service; import com.alibaba.dashscope.exception.NoApiKeyException; import com.alibaba.dashscope.exception.UploadFileException; import gzj.spring.ai.Request.QvqOcrRequest; /** * author DELL */ public interface QvqOrcService { String qvqOrc(QvqOcrRequest request) throws NoApiKeyException, UploadFileException; }3. QvqOrcServiceImplpackage gzj.spring.ai.Service.ServiceImpl; import com.alibaba.dashscope.aigc.multimodalconversation.MultiModalConversation; import com.alibaba.dashscope.aigc.multimodalconversation.MultiModalConversationParam; import com.alibaba.dashscope.aigc.multimodalconversation.MultiModalConversationResult; import com.alibaba.dashscope.common.MultiModalMessage; import com.alibaba.dashscope.common.Role; import com.alibaba.dashscope.exception.NoApiKeyException; import com.alibaba.dashscope.exception.UploadFileException; import gzj.spring.ai.Request.QvqOcrRequest; import gzj.spring.ai.Service.QvqOrcService; import org.springframework.beans.factory.annotation.Value; import org.springframework.stereotype.Service; import java.util.*; /** * author DELL */ Service public class QvqOrcServiceImpl implements QvqOrcService { Value(${spring.ai.dashscope.api-key}) private String apiKey; Override public String qvqOrc(QvqOcrRequest request) throws NoApiKeyException, UploadFileException { MultiModalConversation conv new MultiModalConversation(); // 1. 构建图片模态参数必须指定typeimage MapString, Object imageContent new HashMap(); imageContent.put(type, image); // 核心指定模态类型 imageContent.put(image, request.getImageUrl()); // 图片URL imageContent.put(max_pixels, 8388608); // 图片最大像素 imageContent.put(min_pixels, 3072); // 图片最小像素 imageContent.put(enable_rotate, false); // 关闭自动转正 // 2. 构建文本提示模态参数必须指定typetext MapString, Object textContent new HashMap(); textContent.put(type, text); // 核心指定模态类型 textContent.put(text, 请提取该增值税专用发票图像中的发票代码、发票号码、开票日期、价税合计大写中文数字、价税合计小写也就是图中写着小写的后面的数字、金额、税额。要求准确无误地提取上述关键信息、不要遗漏和捏造虚假信息模糊或者强光遮挡的单个文字可以用英文问号代替。返回数据格式以 json 方式输出格式为{\发票代码\:\xxx\, \发票号码\:\xxx\, \开票日期\:\xxx\, \金额\:\xxx\, \税额\:\xxx\, \价税合计大写\:\xxx\, \价税合计小写\:\xxx\},其中的金额、税额只要同 合计 同一行的也就是金额、税额方框内最下面的数字); // 3. 组装用户消息content为[图片模态, 文本模态]的列表 MultiModalMessage userMessage MultiModalMessage.builder() .role(Role.USER.getValue()) .content(Arrays.asList(imageContent, textContent)) // 按顺序传入图片文本 .build(); // 4. 构建请求参数 MultiModalConversationParam param MultiModalConversationParam.builder() .apiKey(apiKey) .model(qwen-vl-ocr-2025-11-20) // 确认模型版本正确 .message(userMessage) .build(); // 5. 调用接口并返回结果 MultiModalConversationResult results conv.call(param); ListMapString, Object content results.getOutput().getChoices().get(0).getMessage().getContent(); if (content ! null !content.isEmpty()) { return content.get(0).get(text).toString(); } return 未获取到OCR识别结果; } }4. OrcControllerpackage gzj.spring.ai.Controller; import com.alibaba.dashscope.exception.ApiException; import com.alibaba.dashscope.exception.NoApiKeyException; import com.alibaba.dashscope.exception.UploadFileException; import gzj.spring.ai.Request.QvqOcrRequest; import gzj.spring.ai.Service.QvqOrcService; import lombok.RequiredArgsConstructor; import org.springframework.web.bind.annotation.CrossOrigin; import org.springframework.web.bind.annotation.RequestBody; import org.springframework.web.bind.annotation.RequestMapping; import org.springframework.web.bind.annotation.RestController; /** * author DELL */ RestController RequestMapping(/api/orc) RequiredArgsConstructor CrossOrigin // 跨域支持 public class OrcController { private final QvqOrcService qvqOrcService; /** * OCR识别 公网图片识别 * param request * return * throws ApiException * throws NoApiKeyException * throws UploadFileException */ RequestMapping(/ocr) public String ocr(RequestBody QvqOcrRequest request) throws ApiException, NoApiKeyException, UploadFileException { return qvqOrcService.qvqOrc(request); } }三、结果演示这里我主要是识别了 税务发票的内容方便查询试了大概三十多张发票都是百分百正确主要看描述的正不正够正基本上都能很好的识别出来你要的数据。四、整体过程总结本次基于通义千问 OCR 专用视觉理解模型qwen-vl-ocr-2025-11-20完成了「税务发票结构化信息提取」接口的全流程开发与验证核心围绕 “从发票图片中精准提取指定核心字段” 展开具体过程可拆解为三大阶段1、需求与模型选型阶段核心目标针对税务发票场景从图片中提取标准化、结构化的核心信息发票代码、号码、开票日期、金额、税额、价税合计等满足发票查询等实际业务需求模型选择选用通义千问 OCR 专用模型区别于普通视觉推理模型该模型适配扫描文档、票据类图像的文字提取与结构化解析且支持多语言、精准的字段抽取能力输出要求通过定制化提示词明确要求模型返回 JSON 格式的结构化结果避免信息遗漏、格式混乱保证结果可直接用于业务处理。2、代码工程化实现阶段遵循 Spring Boot 分层设计按 “请求实体→服务接口→服务实现→控制器” 的规范完成代码落地核心逻辑聚焦 “多模态参数封装 模型调用 结果解析”请求实体QvqOcrRequest封装核心入参图片 HTTPS URL、提问文本、模型名通过NotNull做非空校验默认指定 OCR 专用模型qwen-vl-ocr-2025-11-20从入参层面保证请求合法性服务接口QvqOrcService抽象核心业务方法qvqOrc声明 SDK 核心异常NoApiKeyException/UploadFileException统一业务逻辑入口便于后续扩展服务实现QvqOrcServiceImpl核心落地层是模型调用的关键精细化封装多模态参数区分image指定图片 URL、像素范围、关闭自动转正和text定制化提示词明确提取字段、返回格式、异常兜底规则如模糊文字用代替两类模态对接 DashScope SDK实例化MultiModalConversation客户端组装请求参数API Key、模型名、多模态消息同步调用模型接口结果解析提取模型返回的文本结果保证非空兜底无结果时返回 “未获取到 OCR 识别结果”控制器OrcController暴露/api/orc/ocr接口支持跨域接收前端请求并调用服务层对外提供统一、易用的 HTTP 接口。3、测试验证阶段测试对象三十余张税务发票图片公网 HTTPS URL 形式验证结果核心字段发票代码、号码、金额等识别准确率 100%验证了模型适配性和代码逻辑的有效性关键结论识别效果与提示词的精准度强相关 —— 提示词对提取字段、返回格式描述越规范模型输出结果越准确无遗漏 / 捏造信息的情况。4、核心价值与效果整个过程完成了 “通用 OCR 模型能力” 到 “税务发票场景化落地” 的转化代码层面分层清晰、参数校验完善、异常处理明确符合企业级后端开发规范可直接集成到发票查询等业务系统业务层面实现了发票核心信息的 “图片→结构化 JSON” 精准提取准确率 100%满足实际业务中发票信息快速查询、核验的需求扩展性层面仅需调整提示词和模型名即可适配其他票据如报销单、表格的结构化提取具备通用复用性。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

云主机做网站域名打不开建设部网站继续教育

第一章:智普Open-AutoGLM开源项目概述智普AI推出的Open-AutoGLM是一个面向自动化自然语言处理任务的开源框架,旨在降低大模型应用开发门槛,提升从数据准备到模型部署的全流程效率。该项目基于AutoGLM架构,融合了自动化机器学习&am…

张小明 2026/1/7 17:32:31 网站建设

python 网站开发那个好广东网页空间租用平台

深入解析Apache Web服务器相关知识 1. 基础概念与配置文件 Apache是一款基于NCSA的httpd的流行且稳定的Web服务器,其配置涉及多个重要文件和概念。 配置文件 : httpd.conf :Apache在此配置文件中查找设置,它具备以前 access.conf 和 srm.conf 文件的所有功能。 a…

张小明 2026/1/7 17:31:59 网站建设

大连建设科技网站校园网站建设实施方案

如何快速掌握diff-pdf:新手的终极PDF对比指南 【免费下载链接】diff-pdf A simple tool for visually comparing two PDF files 项目地址: https://gitcode.com/gh_mirrors/di/diff-pdf 在日常工作中,你是否曾经为对比两个PDF文件而头疼不已&…

张小明 2026/1/7 17:31:27 网站建设

外贸网站怎么做seo优化jsp做就业网站

文章目录 具体实现截图主要技术与实现手段关于我本系统开发思路java类核心代码部分展示结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! 具体实现截图 同行可拿货,招校园代理 Springbootdjango_kg7s76n 基于微信小程序的旧物二…

张小明 2026/1/7 17:30:55 网站建设

深圳网站建设送域名网站建设合同技术开发合同

什么是构造方法?构造方法是 Java 中一种特殊的方法,它的核心作用是:在创建对象(使用new关键字)时,初始化该对象的成员变量构造方法解决什么问题?构造方法解决给对象初始化的问题构造方法怎么使用…

张小明 2026/1/7 17:30:23 网站建设

品牌的佛山网站建设官方网站怎么备案

PyTorch-CUDA-v2.8镜像对PPO强化学习算法的支持 在当前深度强化学习的研究与工程实践中,一个常见的痛点是:明明算法设计得当、理论完备,却因环境配置问题导致训练迟迟无法启动——CUDA版本不兼容、cuDNN缺失、PyTorch编译选项错误……这些问题…

张小明 2026/1/9 4:29:22 网站建设