Skip to main content

Ces dernières années, cette vague de cette onde financière Internet contribue à améliorer de manière significative la valeur de l'application de l'industrie des analystes scientifiques et des analystes de données de l'industrie et de l'exécution difficile, et se transforme en elle. Modèle de contrôle du vent expert, scientifique de données. Surtout le contrôle du vent, une scène chaude dans le domaine du grand crédit de données, des mines de données, des camarades de classe professionnels liés aux machines a également doublé, de plus en plus d'étudiants, de l'industrie financière familiale gourmande.


Dans l'entretien, de nombreux camarades de classe ont trouvé des rêves, je dois faire des machines, je dois faire des algorithmes, je veux faire du modèle .. Mais en fait, dans un grand angle de finance Internet, nous comprenons toujours les données, le traitement des données, les caractéristiques de vérification répétées, les non-stop, j'ai fait des expériences, je suis la définition des enseignants de modèle fondamentalement un demi-collier xSemper que de nombreux académiques et quelques années d'algorithmes de parole et d'approches peuvent avoir accès à des zones d'entreprise et à créer de la valeur.
Cet article partage un certain nombre de contenus connexes liés à la science des données dans le travail quotidien des finances sur Internet, non sensibles aux données et aux stratégies connexes vont au travail quotidien. La stratégie de produit normale ne sera introduite que dans certaines réflexions et méthodes;
Les produits de crédit en ligne sont également la plus longue trajectoire des produits financiers Internet et des produits les plus complexes, des produits à base de sauce de soja, une bande blanche Jingdong, une application de prêt sur différents téléphones portables. Autres produits de crédit en ligne avec des produits de crédit personnels traditionnels, les utilisateurs n'ont pas à soumettre une variété de documents papier, ni de signer, vous n'avez pas à attendre quelques jours, voire dix jours pour connaître les résultats de l'approbation, les utilisateurs cSeulement besoin de suivre des prêts sur des applications mobiles ou des applications WECHAT, plus de dix minutes, voire quelques minutes, peut recevoir un volume de prêt, réussira bientôt, découvrez le dernier prêt Internet. Le processus d'application complet de l'utilisateur est le suivant, l'ensemble du processus est complètement brillant, tant que vous avez un smartphone pour profiter de la commodité.
Processus de prêt d'applications utilisateur
1, convertissant

Les produits Internet sont fondamentalement inséparables de la conversion et de la circulation. Les utilisateurs Internet sont achetés et il est en concurrence de former un produit variable. Pour les industries de prêt en ligne, la conversion est une série de technologies noires piratées qui développent des problèmes plus difficiles. Étant donné que la couche donne la vitesse de conversion de produits illimités dans la page de conversion de canal habituelle et implique également la politique de produits de contrôle du vent. RapportLa conversion précédente est si elle est attirée, qui est un utilisateur à haut risque et ne peut pas améliorer le taux d'approbation. L'optimisation du commutateur final consiste à optimiser le trafic vers ROI pour acheter du trafic global.


Pour atteindre le trafic acheté sur le ROI, il est nécessaire de calculer le prix de la circulation maximal à calculer via la décision de données et le chiffre d'affaires global donné par la présence d'une prévention du prêt précédent. Par exemple, nous achetons généralement du trafic à travers certains effets, tels que les vues générales de Baidu Sem, Tencent, peuvent être optimisées en optimisant les termes de recherche ou les cartes d'utilisateur. Baidu et le point de transmission au cours de l'optimisation des flux s'écouleront exactement en fonction des mots-clés que nous proposons. Grâce aux caractéristiques utilisateur importantes du modèle de contrôle du vent afin de prendre en charge l'optimisation des mots-clés de communication, combinés à la trémie de conversion et à la rentabilité du groupe d'utilisateurs, la prise de décision siLes déterminations de données sont entièrement utilisées, lorsque le modèle prévu est également une base de base pour les processus décisionnels, tels que le modèle de prévision souhaité, le modèle des prévisions du revenu des utilisateurs. L'ensemble du flux de données dans la décision d'entreprise a amélioré le taux de conversion global de nos produits. Nous avons trouvé une foule de prêt de style de prêt de la commande longue et du vent, et ses mots-clés sont en fait utilisés par le lanceur de marché pour apporter les mots publicitaires! De cette manière, nous pouvons atteindre un tiers des coûts de livraison pendant deux mois.

Deuxièmement, anti-fraude


Le secteur des prêteurs en ligne est un grand gâteau, notamment des menteurs, qu'il s'agisse de prêts en ligne dans les intermédiaires de prêt de lignes et est attribué des prêts en ligne. Si l'anti-fraude peut être faite un flux en direct et une mort dans l'industrie des prêts en ligne. Mode fraude simple et populaire, ouiPeut être divisé en une fraude et une fraude de trois côtés: une fraude de la partie fait souvent référence au désir des arnaqueurs de demander des prêts, et aucun bapartite par défaut et tricherie fait référence aux selles des criminels tricheurs ont emprunté d'autres ou d'aider les autres à de fausses informations sur les applications. Les éléments suivants se concentrent sur l'application de la science des données dans la détermination de la fraude en trois parties: l'analyse des réseaux sociaux est utilisée pour déterminer l'entrée du groupe.


Nous avons une hypothèse fondamentale que votre menteur est la probabilité de menteurs et d'utilisateurs du remboursement normal de la dette normale de l'utilisateur et que nous devons être un prêt monétaire. Intermédiaire doit être déterminé. Parce que les intermédiaires aideront beaucoup de gens à tromper des prêts en fournissant des applications de fausses, de fausses et d'emballages, tandis que les candidats enseignants devraient enseigner. C'est une fraude commune d'un intermédiaire (ou d'elle-même est un gang). C'est une fraude et une analyse courantesDétecter les analyses de réseau social et autres vérifications croisées. L'usine peut déterminer l'effet sur le mode fraude ci-dessus.

Nous identifions les utilisateurs et les utilisateurs s'ils partagent certaines informations principales, il existe une relation étroite entre eux, ces informations principales peuvent être définies mobiles, numéros de téléphone, cartes d'identité, numéros de carte bancaire, boîtes aux lettres, etc. Avec cette information, c'est le point, la relation entre les informations peut être conçue pour créer un réseau de diagramme similaire.


Comme indiqué ci-dessus, les deux utilisateurs ont été appliqués aux prêts mobiles, un prêt réussi, des prêts échoués à l'aide des informations d'information de l'utilisateur fournies, construisez ses informations principales dans la carte du réseau. Vous pouvez voir que les deux utilisateurs sont liés à 3 numéros mobiles, 3 appareils mobiles et deux utilisateurs sont liés via des appareils mobiles publics. Quand la vraie scène d'affaires de l'image ci-dessus estUtilisation du numéro 979 à appliquer, on constate que les utilisateurs ont été libérés avec succès et la relation entre la carte a été appliquée pour enquêter sur le nombre de 979 queues en tant que conjoint du prêteur précédent, si l'approbation des demandes de prêt du numéro de queue de 979 sera approuvée. Augmenter la responsabilité générale de deux personnes, le test final refuse donc de supprimer cette demande de prêt.

Ce qui précède est un exemple simple. La fraude d'affaires réelle et la lutte anti-fraude est le processus de jeu d'une stratégie de fraude haut de gamme, simplement facile à détecter et à briser de la fraude réelle, l'effet de la stratégie simple continuera de diminuer. En fait, il est difficile de fraude complètement résolue. Une idée importante de la lutte anti-fraude améliore constamment le coût des molécules frauduleuses et garantissant que des stratégies de fraude plus intelligentes et complexes sont plus compliquées dans la bonne stratégie.


Ce type de pensée également par le réseau social anti-fraude, nous avons besoinDes descriptions plus complètes de la relation entre chaque utilisateur, la définition des relations entre les utilisateurs n'est pas seulement la relation ci-dessus, y compris la relation ci-dessus, y compris de nombreuses relations faibles, par exemple, les utilisateurs ont appelé les téléphones, les utilisateurs sont la même unité, le L'adresse de la maison de l'utilisateur réside dans la même zone, les utilisateurs sont des amis QQ, etc ces relations sont plus susceptibles d'apparaître plus que des utilisateurs similaires. Un réseau de liaison très complexe.
simultanément, pour chaque point, chaque point peut également être utilisé, ces attributs peuvent également être utilisés. Extrait dans la technique de la fonction suivante. Par exemple: les sommets de la carte d'identité de l'utilisateur dans l'image peuvent mettre plusieurs propriétés, telles que la liste noire, les actifs de l'utilisateur, disposent de chambres. Dans le prochain projet de fonctionnalités, des caractéristiques spécifiques peuvent être extraites à partir des attributs Vertex, tels qu'une carte d'identité de liaison à un degrés en tant que liste noire. Le but ultime de la relation de pêche au diagramme de la pêcheL'utilisation consiste à améliorer la précision de l'identité des gangs tricher et à obtenir des décisions anti-fraude, qui sont, améliorant la fraude. Et efficacement. Nous espérons explorer de nombreuses fonctionnalités utilisateur via des réseaux sociaux pour des modèles et des stratégies de lutte contre la fraude, de sorte que cette carte réseau liée à l'utilisateur complexe, suivez-nous. Doit faire deux choses, une, la carte utilisateur extraite; Deuxièmement, l'achèvement des points d'étiquette d'attribut.

Exploitation des fonctionnalités utilisateur


Chaque utilisateur peut obtenir la carte de communication d'un réseau d'utilisateurs via un point d'information principal comme le téléphone mobile, carte d'identité (réelle, 1 milliard L'efficacité du bouton est très faible. Dans une scène de décision en temps réel, elle doit être résolue en optimisant l'algorithme, telle que les problèmes de verrouillage de la carte de la copie, la requête en attente de points inhabituels). Calculez les caractéristiques de la propriété couramment utilisées sur la photo, par exemple, pour chaque point, fermezCentre, niveau de la page et centre moyen. Ce processus peut être considéré comme un utilisateur certain, via des données cartographiques. La plupart des stratégies et modèles deviennent souvent la décision de qualité des caractéristiques, et même des méthodes techniques typiques sont devenues le contenu essentiel de différentes entreprises, l'amertume des ingénieurs Data algorithmes a également commencé ... Prenez quelques exemples, à l'exception des fonctionnalités directes liées à la simplicité Le centre ci-dessus peut également réfléchir directement à de nombreuses fonctionnalités, telles que des numéros mobiles associés de points de liaison au niveau de l'utilisateur, des périphériques liés aux comptes d'utilisateur pour tous les ratios Tous les points de liaison, liste noire des numéros de carte d'utilisateur, etc. Les camarades de classe soigneuses peuvent voir que la plupart des fonctionnalités ci-dessus peuvent être normalisées et des calculs dérivés de dizaines de milliers de caractéristiques peuvent être obtenus en développant des modèles techniques spécifiques l. Cela peut grandement améliorer l'efficacité du développement modèle, puis présenter certaines de nos expériences.


Dans l'analyse des politiques et le calcul de la fonctionnalité, nous avons besoin de beaucoup d'attributs de carte, tels qu'une carte d'identité, une liste noire, que ce soit le La carte d'identité a une place, même si la carte d'identité compte plus de 30 000 cartes de crédit. Mais en fait, souvent pour la plupart des attributs de carte utilisateur manquants de l'utilisateur, tels que l'application de l'utilisateur perdu, l'utilisateur final abandonnera, nous ne pouvons pas collecter ces étiquettes correctement. Comment faire? Nous créons des cartes supplémentaires via des algorithmes de découverte communautaires liés aux colonnes, telles que l'algorithme de communication LPA le plus populaire (propagationgorithme), des algorithmes similaires, tels que SLPA, HANP, DCLP, etc.

Bien que l'attribut de la carte puisse être ajouté rapidement en essayant des algorithmes, nous trouverons bientôt cet effet secNg nécessairement idéal. Il existe deux problèmes de données produits par deux services. Premièrement, les données de bruit provoquent de nombreux petits scores pour lier les utilisateurs qui ne peuvent pas être liés, entraînant une déformation des données. Une scène commune est que de nombreux utilisateurs appelleront 10086, de nombreuses personnes ressentiront également par le harcèlement du même 400, puis l'utilisateur n'est pas lié dans cette vie réelle est liée; Deuxièmement, comme le prêt de l'utilisateur est une chose plus indépendante, l'échelle de la carte de chaque utilisateur est petite, ne dispose pas de suffisamment de données de cartes de propagande dans l'étiquette, ce qui a permis de réduire la couverture de la dernière marque, semblable au cas dans l'image ci-dessous.


Le premier problème peut être résolu par le nettoyage des données, mais il existe un grand nombre d'étiquettes artificielles, coût élevé; Pour le deuxième problème, il n'y a pas une très bonne solution, bienvenue dans les maîtres analysant les réseaux sociaux pour faire des suggestions.


Troisième modèle stratégique

EDGE TLe cœur des produits de prêt en ligne est l'effet et l'efficacité des décisions de données et des applications modèles de l'ensemble de l'entreprise sont très populaires, la consommation de cycle de vie humaine essentiellement populaire peut être reflétée et valorisée. Comme indiqué dans l'image ci-dessous:



En raison des deux dernières années de données importantes et de la finance Internet très chaude, la popularité et l'introduction de la recherche de modèle de contrôle de vent accidentellement. Il y a suffisamment de science et de présentation populaire. J'analyse toujours les problèmes les plus intéressés dans le développement modèle d'un point de vue des étudiants pour voir comment les défis modèles causés par des scènes professionnelles?


Comment les affaires résolvent-elles initialement des problèmes de démarrage à froid?

Il n'y a pas d'échantillons de performance de crédit avant l'activité en ligne. Les décisions de crédit sont donc généralement déterminées par l'expérience des professionnels du crédit. Cependant, si l'incertitude et la dépendance du jugement artificiel affecteront NGHNous espérons élargir leur entreprise, nous espérons créer un certain résumé quantitatif au début de l'entreprise, le niveau général de l'industrie, la méthode d'analyse (AHP) établit un contrôle du vent de contrôle marqué. Les méthodes d'analyse finales forment également un tableau de bord quantitatif en comparant des complications complexes des décisions manuelles de crédit. Dans les produits de crédit traditionnels, la méthode AHP est une longue période de temps depuis longtemps et a beaucoup de modèles quantitatifs.

Comment traiter des problèmes d'échantillons de déséquilibre?

À moyen terme, il existe un exemple de modèle de formation en tant que modèle de formation, à l'aide de l'utilisateur par défaut comme modèle du modèle, mais le taux de valeur par défaut de moins de 5%, face au déséquilibre général dans les données minières (déséquilibre) Les articles peuvent souvent utiliser surdimensionné ou arbalète.

Spécifiquement, il prend l'échantillon d'échantillon par défaut ou l'échantillonnage de la gabarit sans contracter. Cependant,Dans les entreprises de crédit, il existe non seulement des taux positifs et négatifs et des problèmes de pénurie de dépôts. Méthode de prise de ce cas, l'amélioration des effets de modèle est très limitée (à l'exception de la méthode d'échantillonnage de Smotstrap, qui peut être échantillonnée, mais j'ai essayé de frapper de type de crédit dans un travail réel, je constate que c'est instable), cette situation est souvent appelée comme une combinaison d'actifs faibles par défaut (LDP). Il existe également d'autres idées pour gérer des données déséquilibrées, telles que l'augmentation des échantillons positifs de plusieurs manières, dans le secteur financier, peuvent être annoncés à de fausses échantillons extrêmes pour refuser aux utilisateurs via une expérience ou par des méthodes de clusterage similaires, des informations utilisateur sont étiquetées pour les utilisateurs. qui n'ont pas assez de performances; Par exemple, la demande est refusée par les professionnels du crédit qui saura défaut, mais le risque est souvent beaucoup plus élevé que celui des professionnels du crédit, dans la modélisation de ces dénégations peut être ePréféré au modèle ... Au lieu de cela, des poids différents peuvent donner des échantillons positifs et négatifs dans la définition des fonctions de perte et des modèles de crédit de base s'appliquent rarement dans des effets de modèles réels et renforcés. Bien que les effets réels de ces méthodes ne soient pas aussi bons que l'utilisation de violations contractuelles réelles, elle est souvent utilisée dans un ajustement détaillé des modèles.
Comment faire un projet de fonctionnalité de haute qualité?

La qualité de la fonctionnalité de projet est le moyen efficace de tous les enseignants modèles tenant des bols de riz. Faire confiance en ligne est une réception des caractéristiques, car la plupart des modèles prédictifs sont utilisés par des données provenant de l'historique pour prédire les événements par défaut dans les prochains mois ou 1 an, les caractéristiques de la marque de fonctionnalités, la stabilité caractéristique que l'interprétation doit être constamment équilibrée. Chaque modèle doit effectuer une grande quantité de caractéristiques de données, pour améliorer l'efficacité, de préférence pChantez un développement technique caractéristique de données communes dans un paquet. Un exemple de fonctionnalités techniques:


L'image ci-dessus est la donnée de paiement par carte de crédit fournie par l'utilisateur, y compris l'ID utilisateur, la quantité de transaction, le temps de négociation et la description de la transaction tissulaire. Comment les données utilisateur sont-elles avec seulement 4 écoles? Il peut être considéré à partir des aspects suivants:

RFM est la caractéristique dérivée la plus efficace pour les données avec les transactions de répétition de l'utilisateur. Origine tridimensionnelle de la résolution tridimensionnelle, de la fréquence et de la devise, telles que le nombre de transactions la semaine dernière, une moyenne de 3 mois de transactions.

Classification de texte

L'école décrit la transaction ci-dessus en tant que texte non structuré, chaque transaction peut être fournie avec une ou plusieurs classifications de carte, telles que via le contenu de la description de trading, classer les transactions en versions. transactions, retrait de trésorerie, transactions de consommation. Grâce à la description de la transaction, il peut exporter plusUn système de classification, par exemple, les transactions sont divisées en transactions lignes (Alipay, Tenpay, V.V.), transactions de voiture, transactions de consommation en direct, V.V. Les caractéristiques de chaque classification peuvent être copiées par les caractéristiques créées par RFM sur. Par exemple, le nombre de transactions au cours des 1 dernières semaines et une moyenne de 3 mois est la transaction.

La classification d'écriture de la description de la transaction peut être faite profondément (LDA, naïf bayésienne) ou une classification très pratique pouvant également être donnée par des statistiques de méthodes analytiques après des mots. Quelles que soient les méthodes de classification de texte servent, la clé est l'effet de ce type d'étiquette de base évalué. Parce que nous devons enfin utiliser ces étiquettes de classification pour analyser la probabilité par défaut des utilisateurs, nous pouvons utiliser des méthodes précédentes pour rendre les étiquettes classifiées éventuelles différences significatives entre les risques par défaut des utilisateurs. Il est compréhensible que les caractéristiques de la classification du texte de classification dans l'entreprise soient très compréhensibles. réIl est facile de comprendre que les caractéristiques du texte sont en réalité une description du comportement réel de l'utilisateur. Finances et modèle de vie des gens. Les données financières sont l'une des dimensions les plus efficaces des prévisions de risque.
Séquence chronologique

Le modèle RFM ne fournit généralement que des calculs arithmétiques et des données simples sur le montant de la transaction, en fait, les données de transaction sont disposées par l'utilisateur, peuvent être considérées comme une série chronologique. Dans une variété de la quantité de transaction, nous extrayons le coefficient de modèle du coefficient saisonnier, du bruit blanc et des séries chronologiques de chaque utilisateur et ces valeurs peuvent être considérées comme une caractéristique du comportement financier de l'utilisateur!

En raison de données relativement limitées sur les données pertinentes conviviales dans le scénario de l'entreprise Financière Internet, il n'y a pas de fois de caractères cerveaux continus, vérifiez les caractéristiques, la boucle ...





Sujets