沈大程

沈大程

计算机科学博士生

热衷于AI、Machine Learning和NLP。目前在华盛顿州立大学攻读博士学位, 致力于构建解决现实问题的智能系统。

🎓 教育背景

华盛顿州立大学三城分校 2026年1月 - 至今
计算机科学博士
南加州大学 2024年6月 - 2025年12月
计算机科学硕士
康涅狄格大学 2020年9月 - 2024年5月
计算机科学学士
院长荣誉名单

💼 工作经历

软件开发工程师 2023年7月 - 2023年8月
海科佳智能装备技术有限公司
  • 维护Web服务器后端并优化数据库操作,确保数据完整性、安全性和系统稳定性。
  • 开发并集成新的客户端UI功能到现有框架中,显著提升了整体系统功能和用户体验。

📄 论文、预印本与演讲

将量子能力集成到信息物理系统的Simplex启发架构 2026年3月
海报展示 — 第2届HAIQ研讨会,匹兹堡,宾夕法尼亚州
  • Tamim Ahmed、沈大程、Mengyu Liu和Monowar Hasan。海报展示于第2届HAIQ研讨会,匹兹堡,宾夕法尼亚州,2026年3月。

🔬 科研经历

研究助理
  • 将基于Transformer的预测学习算法工程化并集成到PyHazards中,这是一个用于自然灾害预测的开源Python工具包。
  • 开发可扩展的机器学习模块用于复杂数据处理,评估Transformer模型相对于各类公开基线的预测性能。
  • 与RAI Lab研究团队协作,标准化AI预测流程,显著提升了框架的整体准确性和可扩展性。
基于Claude 3.7的叙事比较分析 2025年3月 - 2025年8月
研究助理
  • 设计并自动化了基于Claude 3.7 Sonnet的LLM评估流程,对208对叙事在四个比较维度(冲突、独特、整体、重叠)进行分析
  • 使用Anthropic API构建可扩展的基于提示的推理系统,并进行批量输出解析,将人工评判工作量减少90%以上
  • 将模型响应结构化为JSON和人类可读格式,以实现系统性的跨模型分析和未来的人工标注
  • 与教授和研究团队合作进行数据集准备、叙事提取,以及设计减少LLM比较偏差的评估指标
毕业设计项目负责人
  • 领导为期一年的毕业设计项目,为AS5传感器系统自动化质量保证测试,显著提高了测试效率和可靠性
  • 在Ubuntu上开发基于Python的控制系统,操控六轴机械臂,自动化传感器校准和测试程序,提供精确的"通过/失败"反馈和实时结果记录
  • 设计并实现了使用API的无缝UI-后端集成,用全自动校准解决方案替代了之前的客户端版本
  • 成功交付项目,将手动测试时间减少67%,校准精度提高26%,整体提升了效率和可靠性

📚 项目经历

迁移学习实现垃圾分类 2025年1月 - 2025年5月
  • 使用Python、TensorFlow/Keras开发了九类垃圾图像分类器,采用80/20训练测试划分和20%训练内验证进行稳健的模型评估
  • 构建了图像预处理流程,应用数据增强技术(随机裁剪、缩放、旋转、翻转、对比度调整、平移)以减少过拟合
  • 通过冻结预训练骨干网络(ResNet50、ResNet101、EfficientNetB0、VGG16),添加自定义全连接层,包含ReLU、softmax、L2正则化、批归一化和20%的Dropout实现迁移学习
  • 使用精确率、召回率、AUC和F1分数在测试集上评估所有模型;确定VGG16表现最佳,达到最高准确率和泛化能力
AI驱动智能出行助手设计 - FlySmart 2025年3月 - 2025年5月
  • 主导需求工程项目,设计AI驱动的航班预订助手
  • 进行利益相关者分析、问卷调查和访谈,推导用户画像、同理心地图并分类需求
  • 使用Figma创建并验证原型,功能包括航班搜索、签证管理、智能提醒和个性化AI聊天界面
  • 应用敏捷方法论,使用故事驱动的待办列表、基于冲刺的开发路线图,通过可用性测试和原型验证进行正式验证
基于Weaviate和RAG的语义检索与问答系统 2024年9月 - 2024年12月
  • 使用Weaviate和text2vec-transformers构建语义搜索管道,通过GraphQL nearText查询实现基于向量的品牌相似度搜索
  • 使用Streamlit开发PDF问答聊天机器人,利用PyPDFLoader、ChromaDB和Hugging Face嵌入,在RAG框架中实现基于文档的响应生成
  • 清洗和标准化20万+评论文本(正则表达式去除HTML/URL、分词、停用词过滤、词形还原)
  • 训练TF-IDF(一元+二元语法)机器学习模型,包括LinearSVC、逻辑回归和感知机
  • 复现并评估两种GloVe表示方法:100维平均池化与1000维前10词拼接
  • 证明100维平均池化在未见评论上具有更强的泛化能力
学生管理系统设计 2023年9月 - 2024年12月
  • 团队协作项目,使用Figma设计产品模型并向利益相关者展示方案
  • 开发并实现代码,将每个Figma设计功能转化为实际产品
  • 完成网站开发并全面测试所有功能
点餐应用设计 2021年8月 - 2021年11月
  • 使用Java构建点餐应用,可在下单后生成包含菜品名称、价格和总价的发票
  • 担任小组组长,使用GitHub分享和合并各成员完成的信息和代码部分
  • 完成项目报告并进行展示

🔧 专业技能

💻

编程语言

Python Java C C++ SQL HTML
🤖

AI / ML / NLP

Hugging Face Transformers RAG Transfer Learning LLM Prompting Semantic Search MapReduce Model Evaluation PyTorch NLTK Gensim scikit-learn
🗄️

Data & Databases

MySQL MongoDB ChromaDB Weaviate Web Crawling Data Preprocessing JSON Parsing
📐

Software Design

REST APIs Modular Architecture UML Agile (Scrum)
🛠️

Tools & Platforms

Git Docker Trello Figma Microsoft Office Suite AWS Streamlit Jupyter Lightroom Photoshop