Research - Datapro Consultancy Services

OKAPI: INSTRUCTION-TUNED LARGE LANGUAGE MODELS IN MULTIPLE LANGUAGES WITH REINFORCEMENT LEARNING FROM HUMAN FEEDBACK

OKAPI INTRODUCES INSTRUCTION AND RESPONSE-RANKED DATA IN 26 DIVERSE LANGUAGES TO FACILITATE THE EXPERIMENTS AND DEVELOPMENT OF FUTURE MULTILINGUAL LLM RESEARCH.

A SURVEY ON MULTIMODAL LARGE LANGUAGE MODELS

MULTIMODAL LARGE LANGUAGE MODEL (MLLM) RECENTLY HAS BEEN A NEW RISING RESEARCH HOTSPOT, WHICH USES POWERFUL LARGE LANGUAGE MODELS (LLMS) AS A BRAIN TO PERFORM MULTIMODAL TASKS.

SDXL: IMPROVING LATENT DIFFUSION MODELS FOR HIGH-RESOLUTION IMAGE SYNTHESIS

WE PRESENT SDXL, A LATENT DIFFUSION MODEL FOR TEXT-TO-IMAGE SYNTHESIS.

LARGE MULTIMODAL MODELS: NOTES ON CVPR 2023 TUTORIAL

THIS TUTORIAL NOTE SUMMARIZES THE PRESENTATION ON ``LARGE MULTIMODAL MODELS: TOWARDS BUILDING AND SURPASSING MULTIMODAL GPT-4'', A PART OF CVPR 2023 TUTORIAL ON ``RECENT ADVANCES IN VISION FOUNDATION MODELS''.

SEMANTIC-SAM: SEGMENT AND RECOGNIZE ANYTHING AT ANY GRANULARITY

IN THIS , WE INTRODUCE SEMANTIC-SAM, A UNIVERSAL IMAGE SEGMENTATION MODEL TO ENABLE SEGMENT AND RECOGNIZE ANYTHING AT ANY DESIRED GRANULARITY.

MMBENCH: IS YOUR MULTI-MODAL MODEL AN ALL-AROUND PLAYER?

IN RESPONSE TO THESE CHALLENGES, WE PROPOSE MMBENCH, A NOVEL MULTI-MODALITY BENCHMARK.

ALL IN ONE: MULTI-TASK PROMPTING FOR GRAPH NEURAL NETWORKS

INSPIRED BY THE PROMPT LEARNING IN NATURAL LANGUAGE PROCESSING (NLP), WHICH HAS PRESENTED SIGNIFICANT EFFECTIVENESS IN LEVERAGING PRIOR KNOWLEDGE FOR VARIOUS NLP TASKS, WE STUDY THE PROMPTING TOPIC FOR GRAPHS WITH THE MOTIVATION OF FILLING THE GAP BETWEEN PRE-TRAINED MODELS AND VARIOUS GRAPH TASKS.

THE ALL-SEEING PROJECT: TOWARDS PANOPTIC VISUAL RECOGNITION AND UNDERSTANDING OF THE OPEN WORLD

WE PRESENT THE ALL-SEEING (AS) PROJECT: A LARGE-SCALE DATA AND MODEL FOR RECOGNIZING AND UNDERSTANDING EVERYTHING IN THE OPEN WORLD.

NNVISR: BRING NEURAL NETWORK VIDEO INTERPOLATION AND SUPER RESOLUTION INTO VIDEO PROCESSING FRAMEWORK

WE PRESENT NNVISR - AN OPEN-SOURCE FILTER PLUGIN FOR THE VAPOURSYNTH VIDEO PROCESSING FRAMEWORK, WHICH FACILITATES THE APPLICATION OF NEURAL NETWORKS FOR VARIOUS KINDS OF VIDEO ENHANCING TASKS, INCLUDING DENOISING, SUPER RESOLUTION, INTERPOLATION, AND SPATIO-TEMPORAL SUPER-RESOLUTION.

REVISITING THE MINIMALIST APPROACH TO OFFLINE REINFORCEMENT LEARNING

IN THIS WORK, WE AIM TO BRIDGE THIS GAP BY CONDUCTING A RETROSPECTIVE ANALYSIS OF RECENT WORKS IN OFFLINE RL AND PROPOSE REBRAC, A MINIMALISTIC ALGORITHM THAT INTEGRATES SUCH DESIGN ELEMENTS BUILT ON TOP OF THE TD3+BC METHOD.

VOLUME RENDERING OF NEURAL IMPLICIT SURFACES

ACCURATE SAMPLING IS IMPORTANT TO PROVIDE A PRECISE COUPLING OF GEOMETRY AND RADIANCE; AND (III) IT ALLOWS EFFICIENT UNSUPERVISED DISENTANGLEMENT OF SHAPE AND APPEARANCE IN VOLUME RENDERING.

GORILLA: LARGE LANGUAGE MODEL CONNECTED WITH MASSIVE APIS

LARGE LANGUAGE MODELS (LLMS) HAVE SEEN AN IMPRESSIVE WAVE OF ADVANCES RECENTLY, WITH MODELS NOW EXCELLING IN A VARIETY OF TASKS, SUCH AS MATHEMATICAL REASONING AND PROGRAM SYNTHESIS.

LLAMA: OPEN AND EFFICIENT FOUNDATION LANGUAGE MODELS

WE INTRODUCE LLAMA, A COLLECTION OF FOUNDATION LANGUAGE MODELS RANGING FROM 7B TO 65B PARAMETERS.

OXFORDVGG SUBMISSION TO THE EGO4D AV TRANSCRIPTION CHALLENGE

THIS REPORT PRESENTS THE TECHNICAL DETAILS OF OUR SUBMISSION ON THE EGO4D AUDIO-VISUAL (AV) AUTOMATIC SPEECH RECOGNITION CHALLENGE 2023 FROM THE OXFORDVGG TEAM.

SIMPLYRETRIEVE: A PRIVATE AND LIGHTWEIGHT RETRIEVAL-CENTRIC GENERATIVE AI TOOL

LARGE LANGUAGE MODEL (LLM) BASED GENERATIVE AI SYSTEMS HAVE SEEN SIGNIFICANT PROGRESS IN RECENT YEARS.

SIMPLE AND CONTROLLABLE MUSIC GENERATION

WE TACKLE THE TASK OF CONDITIONAL MUSIC GENERATION.

GQA: TRAINING GENERALIZED MULTI-QUERY TRANSFORMER MODELS FROM MULTI-HEAD CHECKPOINTS

MULTI-QUERY ATTENTION (MQA), WHICH ONLY USES A SINGLE KEY-VALUE HEAD, DRASTICALLY SPEEDS UP DER INFERENCE.

VISION-LANGUAGE MODELS FOR VISION TASKS: A SURVEY

MOST VISUAL RECOGNITION STUDIES RELY HEAVILY ON CROWD-LABELLED DATA IN DEEP NEURAL NETWORKS (DNNS) TRAINING, AND THEY USUALLY TRAIN A DNN FOR EACH SINGLE VISUAL RECOGNITION TASK, LEADING TO A LABORIOUS AND TIME-CONSUMING VISUAL RECOGNITION PARADIGM.

SIMPLE SYNTHETIC DATA REDUCES SYCOPHANCY IN LARGE LANGUAGE MODELS

ADDING THESE DATA IN A LIGHTWEIGHT FINETUNING STEP CAN SIGNIFICANTLY REDUCE SYCOPHANTIC BEHAVIOR ON HELD-OUT PROMPTS.

LIGHTING EVERY DARKNESS IN TWO PAIRS: A CALIBRATION-FREE PIPELINE FOR RAW DENOISING

CALIBRATION-BASED METHODS HAVE DOMINATED RAW IMAGE DENOISING UNDER EXTREMELY LOW-LIGHT ENVIRONMENTS.